# 6.2 重回帰分析

複数の説明変数を用いて、より精緻な予測モデルを構築します。

## 重回帰式

$$
y = a + b\_1x\_1 + b\_2x\_2 + ... + b\_kx\_k + \varepsilon
$$

* y: 目的変数
* x₁, x₂, ..., xₖ: 説明変数
* b₁, b₂, ..., bₖ: 偏回帰係数
* a: 切片

## 偏回帰係数の解釈

他の変数を一定に保ったときの、その変数の効果

**例:** 住宅価格の予測

$$
価格 = 1000 + 50 \times 面積 + 30 \times 築年数 + 200 \times 駅距離
$$

* 面積が1㎡増えると価格は50万円上昇（他の条件が同じ場合）

## 自由度調整済み決定係数

説明変数の数を考慮した決定係数

$$
R\_{adj}^2 = 1 - \frac{(1-R^2)(n-1)}{n-k-1}
$$

変数を増やすだけでR²は上がるが、R²adjは不要な変数で下がる

## 多重共線性

説明変数同士が強く相関している状態（問題）

**影響:**

* 回帰係数が不安定
* 解釈が困難

**対策:**

* 相関の高い変数の一方を除外
* VIF（分散拡大要因）で診断

## 変数選択

適切な説明変数の組み合わせを選ぶ

**方法:**

1. 前進法: 変数を1つずつ追加
2. 後退法: 全変数から1つずつ削除
3. ステップワイズ法: 追加と削除を繰り返す

**基準:**

* AIC（赤池情報量基準）
* BIC（ベイズ情報量基準）

## 実践例

**問題:** 学生の成績を予測

| 成績 | 勉強時間 | 睡眠時間 | 出席率 |
| -- | ---- | ---- | --- |
| 70 | 2    | 6    | 80  |
| 80 | 5    | 7    | 90  |
| 65 | 1    | 5    | 70  |
| 90 | 8    | 8    | 95  |
| 75 | 4    | 6    | 85  |

**回帰式（仮想）:**

$$
成績 = 20 + 6 \times 勉強 + 3 \times 睡眠 + 0.5 \times 出席
$$

**解釈:**

* 勉強時間1時間増: +6点
* 睡眠1時間増: +3点
* 出席率1%増: +0.5点

## 注意点

1. **外挿の危険性**: データの範囲外の予測は信頼性が低い
2. **因果関係の推論**: 相関があっても因果とは限らない
3. **過学習**: 変数を増やしすぎると予測精度が下がる

## 練習問題

**問1:** 単回帰と重回帰の違いを説明してください。

**問2:** R² = 0.95だが、R²adj = 0.60の場合、何が問題ですか?

**問3:** 多重共線性が発生するとどのような問題がありますか?

***

次の付録: [参考文献](https://ringa-hyjs-organization.gitbook.io/ringa_read_site/fu-lu/references)