回帰分析 — 単回帰と最小二乗法
回帰分析は、ある変数(結果)を別の変数(要因)で説明・予測するために、変数間の関係を数式でモデル化する手法です。「広告費から売上を予測する」といった場面で使われます。
回帰モデルの構造 ★★
もっとも基本的なモデルは次の形で表せます。
y = f(x; β) + ε
各記号の意味は次のとおりです。
- 応答変数 y: 説明・予測したい結果の変数。
- 説明変数 x: 結果を説明する要因の変数。
- パラメータ β: データから推定する未知の係数。
- 誤差 ε: データと数式の差。確率的なばらつきを表す。
誤差 ε があるため、関係は「各データ点でぴったり成り立つ」のではなく「平均的に成り立つ」統計的な関係になります。説明変数が1つのものを単回帰、複数のものを重回帰と呼びます。
最小二乗法 ★★
パラメータ β は、データとモデルの差(残差)の2乗和を最小にするように決めます。これが最小二乗法で、もっとも広く使われる推定方法です。ここでの「線形(linear)」は、説明変数についてではなくパラメータについて線形であることを指します。したがって2次曲線のあてはめも最小二乗法の枠組みで扱えます。
あてはまりの評価 ★★
モデルがデータをどれだけ説明できたかは決定係数 R² で測ります。R² は0から1の値をとり、全体のばらつきのうちモデルで説明できた割合を表します。1に近いほどあてはまりが良いことを意味しますが、R² だけで判断せず、残差にパターンが残っていないかも確認します。回帰と分散分析(ANOVA)はどちらも「ばらつきを要因ごとに分解する」線形モデルの仲間で、考え方は共通しています。
使うときの注意 ★★★
- 外れ値に弱い: 最小二乗法は差を2乗するため、極端な値の影響を強く受けます。
- 外挿は危険: データが存在する範囲の外を予測する(外挿)と、モデルの前提が成り立たず大きく外れることがあります。
- 相関は因果ではない: 回帰で強い関係が見えても、それが因果関係とは限りません。因果を主張するには実験計画や因果推論の枠組みが別途必要です。
まとめ
- 回帰は y = f(x; β) + ε の形で関係をモデル化する。
- パラメータは残差の2乗和を最小化(最小二乗法)して推定する。
- あてはまりは R² と残差で評価し、外挿・外れ値・相関≠因果に注意する。
確認問題
問1. 最小二乗法の説明として正しいものはどれか。
- 残差の絶対値の合計を最大化してパラメータを求める
- 残差の2乗和を最小化してパラメータを求める
- 応答変数の平均を最大化する
- 説明変数の分散を最小化する
正解: 2 解説: 最小二乗法は、データとモデルの差(残差)の2乗和を最小にするようにパラメータを推定する方法です。
問2. 決定係数 R² に関する記述として正しいものはどれか。
- R² は必ず負の値をとる
- R² は0から1の範囲で、モデルが説明できたばらつきの割合を表す
- R² が大きいほど外挿は安全になる
- R² は残差の平均である
正解: 2 解説: R² は0〜1の値で、全体のばらつきのうちモデルで説明できた割合を表します。R² が高くても外挿の危険や残差のパターンは別に確認が必要です。
問3. 回帰分析を使うときの注意として適切でないものはどれか。
- 外れ値は最小二乗法の結果に強く影響しうる
- データ範囲外への外挿は慎重に扱う
- 強い回帰関係があれば因果関係が証明される
- 残差にパターンが残っていないか確認する
正解: 3 解説: 回帰で強い関係が見えても因果関係の証明にはなりません。因果を論じるには実験計画や因果推論の枠組みが別途必要です。他の3つは適切な注意点です。
参考にした考え方の出典
回帰モデルの用語(y = f(x; β) + ε)と最小二乗法の定義は NIST/SEMATECH e-Handbook(4.1.1.2 / 4.1.4.1)に基づき、自分の言葉で整理しました(末尾の参考文献を参照)。