6.2 重回帰分析
複数の説明変数を用いて、より精緻な予測モデルを構築します。
重回帰式
y=a+b1x1+b2x2+...+bkxk+ε
y: 目的変数
x₁, x₂, ..., xₖ: 説明変数
b₁, b₂, ..., bₖ: 偏回帰係数
a: 切片
偏回帰係数の解釈
他の変数を一定に保ったときの、その変数の効果
例: 住宅価格の予測
価格=1000+50×面積+30×築年数+200×駅距離
面積が1㎡増えると価格は50万円上昇(他の条件が同じ場合)
自由度調整済み決定係数
説明変数の数を考慮した決定係数
Radj2=1−n−k−1(1−R2)(n−1)
変数を増やすだけでR²は上がるが、R²adjは不要な変数で下がる
多重共線性
説明変数同士が強く相関している状態(問題)
影響:
回帰係数が不安定
解釈が困難
対策:
相関の高い変数の一方を除外
VIF(分散拡大要因)で診断
変数選択
適切な説明変数の組み合わせを選ぶ
方法:
前進法: 変数を1つずつ追加
後退法: 全変数から1つずつ削除
ステップワイズ法: 追加と削除を繰り返す
基準:
AIC(赤池情報量基準)
BIC(ベイズ情報量基準)
実践例
問題: 学生の成績を予測
成績
勉強時間
睡眠時間
出席率
70
2
6
80
80
5
7
90
65
1
5
70
90
8
8
95
75
4
6
85
回帰式(仮想):
成績=20+6×勉強+3×睡眠+0.5×出席
解釈:
勉強時間1時間増: +6点
睡眠1時間増: +3点
出席率1%増: +0.5点
注意点
外挿の危険性: データの範囲外の予測は信頼性が低い
因果関係の推論: 相関があっても因果とは限らない
過学習: 変数を増やしすぎると予測精度が下がる
練習問題
問1: 単回帰と重回帰の違いを説明してください。
問2: R² = 0.95だが、R²adj = 0.60の場合、何が問題ですか?
問3: 多重共線性が発生するとどのような問題がありますか?
次の付録: 参考文献
Last updated