# 2.1 代表値（平均・中央値・最頻値）

代表値は、データ全体の「中心的な傾向」を1つの数値で表すものです。

## 3つの代表値

### 1. 平均値（Mean）

全てのデータの合計をデータ数で割った値です。

**計算式:**

$$
\bar{x} = \frac{x\_1 + x\_2 + ... + x\_n}{n} = \frac{1}{n}\sum\_{i=1}^{n}x\_i
$$

**例:** 5人のテスト成績が \[70, 80, 85, 90, 95] の場合

$$
平均 = \frac{70 + 80 + 85 + 90 + 95}{5} = \frac{420}{5} = 84
$$

**特徴:**

* 全てのデータの情報を使う
* 外れ値の影響を受けやすい

### 2. 中央値（Median）

データを小さい順に並べたときの真ん中の値です。

**求め方:**

1. データを昇順に並べる
2. データ数が奇数の場合: 真ん中の値
3. データ数が偶数の場合: 真ん中2つの平均

**例1（奇数）:** \[65, 70, 80, 85, 90] → 中央値は **80**

**例2（偶数）:** \[65, 70, 80, 85, 90, 95] → 中央値は **(80 + 85) / 2 = 82.5**

**特徴:**

* 外れ値の影響を受けにくい
* 順序尺度以上のデータに使える

### 3. 最頻値（Mode）

データの中で最も頻繁に出現する値です。

**例:** \[70, 80, 80, 85, 90, 90, 90, 95] → 最頻値は **90**（3回出現）

**特徴:**

* 名義尺度のデータにも使える
* 複数存在する場合もある（多峰性）

## 代表値の比較例

### データセット1: \[60, 70, 80, 90, 100]

* 平均: 80
* 中央値: 80
* 最頻値: なし（全て1回ずつ）

### データセット2: \[10, 70, 80, 90, 100]

* 平均: 70
* 中央値: 80
* 最頻値: なし

→ 平均は外れ値（10）に引っ張られて低くなっています。

## どの代表値を使うべきか?

| 状況             | 推奨される代表値 |
| -------------- | -------- |
| データが対称的で外れ値がない | 平均値      |
| 外れ値が含まれる       | 中央値      |
| カテゴリカルデータ      | 最頻値      |
| 収入などの歪んだ分布     | 中央値      |

## 実践例: 年収データ

あるクラスの年収データ（万円）:

```
[300, 350, 400, 450, 500, 550, 600, 5000]
```

* **平均**: 1,019万円 ← 高所得者1人に引っ張られている
* **中央値**: 475万円 ← より実態に近い

このケースでは中央値の方が「典型的な年収」を表しています。

## 練習問題

**問1**: 次のデータの平均、中央値、最頻値を求めてください:

```
[12, 15, 18, 18, 20, 22, 18, 25]
```

**問2**: なぜ収入データでは平均値よりも中央値が使われることが多いのでしょうか?

**問3**: 以下のデータで平均と中央値を比較し、どちらがより適切か考えてください:

```
住宅価格（万円）: [2500, 2800, 3000, 3200, 3500, 3800, 15000]
```

***

次のセクション: [2.2 散布度（分散・標準偏差）](https://ringa-hyjs-organization.gitbook.io/ringa_read_site/ji-chu-bian/chapter2/section2)
