DS Learning Hub

確率 — 確率変数・分布・期待値

基礎実践
更新日: 2026-07-05

記述統計が「手元にあるデータ」を要約するのに対し、確率は「まだ観測していない事象の起こりやすさ」を数値で扱う枠組みです。推定や検定はこの確率の言葉の上に成り立っています。

確率変数と確率分布

試行の結果に数値を対応させたものを確率変数といいます。確率変数がどの値をどれくらいの確率でとるかを表したものが確率分布です。

  • 離散型(例:サイコロの目、来店客数): 各値の確率を与える**確率質量関数(PMF)**で表す。すべての確率の合計は1。
  • 連続型(例:身長、測定誤差): 1点の確率は0になるため、**確率密度関数(PDF)**で表し、区間の面積が確率に対応する。

いずれの場合も、「ある値以下になる確率」を表す**累積分布関数(CDF)**を使うと、区間の確率やパーセント点を統一的に扱えます。

期待値と分散

分布の特徴も、記述統計と同じく「中心」と「散らばり」で捉えます。

  • 期待値 E[X]: 確率で重みづけした平均で、分布の中心を表す。
  • 分散 V[X]: 期待値からのばらつきの大きさを表し、その平方根が標準偏差。

記述統計の平均・分散が「観測データの要約」なのに対し、期待値・分散は「分布そのものの性質」である点が違いです。

正規分布 ★★

連続分布の中でも特に重要なのが正規分布です。左右対称の釣鐘型で、平均と標準偏差の2つで形が決まります。平均0・標準偏差1に標準化したものを標準正規分布と呼びます。正規分布では、平均±1標準偏差におよそ68%、±2標準偏差におよそ95%のデータが含まれます。多くの統計手法が正規分布を基礎に組み立てられています。

確率分布はなぜ重要か ★★

確率分布は理論と実務の両方で土台になります。具体的には、(1) 検定の臨界値や信頼区間の計算、(2) データに当てはまる分布モデルの選択、(3) 手法の前提(分布の仮定)の検証、(4) シミュレーション用の乱数生成、といった場面で使われます。分布を理解しておくことが、後の推定・検定を正しく使うための前提になります。

まとめ

  • 確率変数の振る舞いを表すのが確率分布(離散はPMF、連続はPDF、共通してCDF)。
  • 分布の中心は期待値、散らばりは分散で捉える。
  • 正規分布は多くの手法の基礎であり、標準化して扱う。

確認問題

問1. 連続型確率変数について正しい記述はどれか。

  1. 特定の1点をとる確率は一般に正の値をもつ
  2. 確率は確率密度関数の区間の面積で与えられる
  3. 確率質量関数で表す
  4. 累積分布関数は定義できない

正解: 2 解説: 連続型では1点の確率は0で、区間の面積(PDFの積分)が確率になります。PMFは離散型のもので、CDFは離散・連続いずれでも定義できます。

問2. 期待値と分散の説明として正しいものはどれか。

  1. 期待値は分布の散らばりを表す
  2. 分散は分布の中心を表す
  3. 期待値は分布の中心、分散は散らばりを表す
  4. 期待値と分散はどちらも中心を表す

正解: 3 解説: 期待値は確率で重みづけした平均で中心を、分散はそこからのばらつきを表します。標準偏差は分散の平方根です。

問3. 標準正規分布に関する記述として正しいものはどれか。

  1. 平均1・標準偏差0に標準化した分布である
  2. 平均0・標準偏差1に標準化した分布である
  3. 左右非対称の分布である
  4. 離散型の分布である

正解: 2 解説: 標準正規分布は平均0・標準偏差1に標準化した正規分布です。正規分布は左右対称の連続分布です。

参考にした考え方の出典

本ページの確率分布の位置づけは NIST/SEMATECH e-Handbook of Statistical Methods(1.3.6)に基づき、基本的な定義を自分の言葉で整理したものです(末尾の参考文献を参照)。

参考文献

  1. NIST/SEMATECH e-Handbook of Statistical Methods 1.3.6 Probability Distributions一次情報itl.nist.gov2026-07-05 取得