6.2 重回帰分析

複数の説明変数を用いて、より精緻な予測モデルを構築します。

重回帰式

y=a+b1x1+b2x2+...+bkxk+εy = a + b_1x_1 + b_2x_2 + ... + b_kx_k + \varepsilon
  • y: 目的変数

  • x₁, x₂, ..., xₖ: 説明変数

  • b₁, b₂, ..., bₖ: 偏回帰係数

  • a: 切片

偏回帰係数の解釈

他の変数を一定に保ったときの、その変数の効果

例: 住宅価格の予測

価格=1000+50×面積+30×築年数+200×駅距離価格 = 1000 + 50 \times 面積 + 30 \times 築年数 + 200 \times 駅距離
  • 面積が1㎡増えると価格は50万円上昇(他の条件が同じ場合)

自由度調整済み決定係数

説明変数の数を考慮した決定係数

Radj2=1(1R2)(n1)nk1R_{adj}^2 = 1 - \frac{(1-R^2)(n-1)}{n-k-1}

変数を増やすだけでR²は上がるが、R²adjは不要な変数で下がる

多重共線性

説明変数同士が強く相関している状態(問題)

影響:

  • 回帰係数が不安定

  • 解釈が困難

対策:

  • 相関の高い変数の一方を除外

  • VIF(分散拡大要因)で診断

変数選択

適切な説明変数の組み合わせを選ぶ

方法:

  1. 前進法: 変数を1つずつ追加

  2. 後退法: 全変数から1つずつ削除

  3. ステップワイズ法: 追加と削除を繰り返す

基準:

  • AIC(赤池情報量基準)

  • BIC(ベイズ情報量基準)

実践例

問題: 学生の成績を予測

成績
勉強時間
睡眠時間
出席率

70

2

6

80

80

5

7

90

65

1

5

70

90

8

8

95

75

4

6

85

回帰式(仮想):

成績=20+6×勉強+3×睡眠+0.5×出席成績 = 20 + 6 \times 勉強 + 3 \times 睡眠 + 0.5 \times 出席

解釈:

  • 勉強時間1時間増: +6点

  • 睡眠1時間増: +3点

  • 出席率1%増: +0.5点

注意点

  1. 外挿の危険性: データの範囲外の予測は信頼性が低い

  2. 因果関係の推論: 相関があっても因果とは限らない

  3. 過学習: 変数を増やしすぎると予測精度が下がる

練習問題

問1: 単回帰と重回帰の違いを説明してください。

問2: R² = 0.95だが、R²adj = 0.60の場合、何が問題ですか?

問3: 多重共線性が発生するとどのような問題がありますか?


次の付録: 参考文献

Last updated