DS Learning Hub

記述統計 — 代表値と散らばり

基礎実践
更新日: 2026-07-05

記述統計は、手元のデータそのものの特徴を「代表値(どこが中心か)」と「散らばり(どれくらいばらついているか)」の2つの視点で要約する手法です。推測統計(推定・検定)に進む前の土台になります。

代表値:分布の中心を表す

データの中心的な位置を1つの数で表すのが代表値です。代表的なものは3つあります。

  • 平均(mean): すべての値の合計をデータの個数で割った値。計算しやすく扱いやすい一方、極端に大きい/小さい値(外れ値)に引っ張られやすい性質があります。
  • 中央値(median): データを小さい順に並べたときの中央の値。個数が偶数のときは中央2つの平均をとります。外れ値の影響を受けにくいのが特長です。
  • 最頻値(mode): 最も頻繁に現れる値。連続データではヒストグラムの最も高い階級の中央で代替します。

左右対称な分布では平均・中央値・最頻値はほぼ一致しますが、片側に裾を引く分布(歪んだ分布)ではこれらが離れます。したがって分布の形に応じて使い分けることが重要です。

散らばり:ばらつきの大きさを表す

中心が同じでも、ばらつきが違えばデータの性質は大きく異なります。散らばりの指標には次のものがあります。

  • 分散(variance): 各値と平均の差(偏差)を2乗して平均したもの。標本分散は偏差平方和を「データ数 − 1」で割って求めます(s² = Σ(Yᵢ − Ȳ)² / (N − 1))。
  • 標準偏差(standard deviation): 分散の平方根。2乗で失われた単位が元に戻るため、元データと同じ単位で「ばらつきの大きさ」を解釈できます。
  • 範囲(range): 最大値と最小値の差。計算は簡単ですが両端の値だけで決まります。
  • 四分位範囲(IQR): 第3四分位数(75%点)から第1四分位数(25%点)を引いた値。中央付近の50%がどれだけ広がっているかを表し、外れ値の影響を受けにくい指標です。

外れ値と頑健性 ★★

平均や分散は偏差を「そのまま」あるいは「2乗」で使うため、極端な値の影響を強く受けます。これに対し、中央値・四分位範囲・中央絶対偏差(MAD)は順位や中央値に基づくため、外れ値に対して**頑健(robust)**です。データに外れ値が含まれる、あるいは分布が大きく歪んでいるときは、平均・標準偏差だけでなく中央値・四分位範囲も併記すると誤解を避けられます。

まとめ

  • 中心は平均・中央値・最頻値、散らばりは分散・標準偏差・範囲・四分位範囲で要約する。
  • 分布が対称なら平均、歪みや外れ値があるなら中央値・IQR を重視する。
  • 数値は必ず「中心」と「散らばり」をセットで見る。

確認問題

問1. 次のうち、外れ値の影響を最も受けにくい代表値はどれか。

  1. 平均
  2. 中央値
  3. 合計
  4. 標準偏差

正解: 2 解説: 中央値はデータを順に並べた中央の値であり、極端な値が加わっても中央の位置はほとんど動きません。平均と標準偏差は外れ値に強く引っ張られます。

問2. 標本標準偏差について正しい記述はどれか。

  1. 分散を2乗したものである
  2. 分散の平方根であり、元データと同じ単位をもつ
  3. 最大値と最小値の差である
  4. 常に平均より大きい

正解: 2 解説: 標準偏差は分散の平方根です。2乗によって変わっていた単位が元に戻るため、元データと同じ単位でばらつきを解釈できます。1は逆(分散が標準偏差の2乗)、3は範囲の説明です。

問3. 四分位範囲(IQR)の説明として正しいものはどれか。

  1. 平均から標準偏差だけ離れた区間の幅
  2. 第3四分位数から第1四分位数を引いた値
  3. 最頻値と中央値の差
  4. すべての偏差の平均

正解: 2 解説: IQR は 75%点(第3四分位数)と 25%点(第1四分位数)の差で、中央付近50%の広がりを表します。順位に基づくため外れ値に頑健です。

参考にした考え方の出典

本ページの定義は NIST/SEMATECH e-Handbook of Statistical Methods(1.3.5.1 / 1.3.5.6)に基づき、自分の言葉で整理したものです(末尾の参考文献を参照)。

参考文献

  1. NIST/SEMATECH e-Handbook of Statistical Methods 1.3.5.1 Measures of Location一次情報itl.nist.gov2026-07-05 取得
  2. NIST/SEMATECH e-Handbook of Statistical Methods 1.3.5.6 Measures of Scale一次情報itl.nist.gov2026-07-05 取得