6.2 重回帰分析

複数の説明変数を用いて、より精緻な予測モデルを構築します。

重回帰式

y = a + b_1x_1 + b_2x_2 + ... + b_kx_k + \varepsilon

y: 目的変数
x₁, x₂, ..., xₖ: 説明変数
b₁, b₂, ..., bₖ: 偏回帰係数
a: 切片

偏回帰係数の解釈

他の変数を一定に保ったときの、その変数の効果

例: 住宅価格の予測

価格 = 1000 + 50 \times 面積 + 30 \times 築年数 + 200 \times 駅距離

面積が1㎡増えると価格は50万円上昇（他の条件が同じ場合）

自由度調整済み決定係数

説明変数の数を考慮した決定係数

R_{adj}^2 = 1 - \frac{(1-R^2)(n-1)}{n-k-1}

変数を増やすだけでR²は上がるが、R²adjは不要な変数で下がる

多重共線性

説明変数同士が強く相関している状態（問題）

影響:

回帰係数が不安定
解釈が困難

対策:

相関の高い変数の一方を除外
VIF（分散拡大要因）で診断

変数選択

適切な説明変数の組み合わせを選ぶ

方法:

前進法: 変数を1つずつ追加
後退法: 全変数から1つずつ削除
ステップワイズ法: 追加と削除を繰り返す

基準:

AIC（赤池情報量基準）
BIC（ベイズ情報量基準）

実践例

問題: 学生の成績を予測

成績

勉強時間

睡眠時間

出席率

70

2

6

80

80

5

7

90

65

1

5

70

90

8

8

95

75

4

6

85

回帰式（仮想）:

成績 = 20 + 6 \times 勉強 + 3 \times 睡眠 + 0.5 \times 出席

解釈:

勉強時間1時間増: +6点
睡眠1時間増: +3点
出席率1%増: +0.5点

注意点

外挿の危険性: データの範囲外の予測は信頼性が低い
因果関係の推論: 相関があっても因果とは限らない
過学習: 変数を増やしすぎると予測精度が下がる

練習問題

問1: 単回帰と重回帰の違いを説明してください。

問2: R² = 0.95だが、R²adj = 0.60の場合、何が問題ですか?

問3: 多重共線性が発生するとどのような問題がありますか?

次の付録: 参考文献

Previous6.1 単回帰分析 Next参考文献

Last updated 2 months ago