# 2.3 データの可視化

「百聞は一見に如かず」データを視覚的に表現することで、傾向やパターンが一目でわかります。

## データ可視化の目的

* データの全体像を直感的に理解する
* 異常値や外れ値を発見する
* 変数間の関係性を探る
* 結果を効果的に伝える

## 主なグラフの種類

### 1. ヒストグラム（度数分布図）

データを階級（区間）に分け、各階級の度数を棒グラフで表示します。

**用途:** データの分布形状を把握

**例:** テストの点数分布

```
0-20点: ██ (2人)
20-40点: ████ (4人)
40-60点: ████████ (8人)
60-80点: ████████████ (12人)
80-100点: ██████ (6人)
```

**読み取れること:**

* 中心が60-80点あたり
* 左右対称に近い形状（正規分布に近い）

### 2. 箱ひげ図（Box Plot）

データの分布を5つの統計量で視覚化します。

**構成要素:**

* 最小値
* 第1四分位数（Q1）: 下位25%の位置
* 中央値（Q2）: 50%の位置
* 第3四分位数（Q3）: 上位25%の位置
* 最大値

**視覚イメージ:**

```
     最小値      Q1    中央値   Q3      最大値
       |         |       |      |         |
       ●---------|■■■■■■□■■■■■|---------●
                 |←  IQR  →|
```

**外れ値の検出:**

* Q1 - 1.5×IQR より小さい値
* Q3 + 1.5×IQR より大きい値

### 3. 散布図（Scatter Plot）

2つの変数の関係を点で表示します。

**用途:** 変数間の相関関係を探る

**例:** 勉強時間と成績の関係

```
成績
100|              ●
 80|         ●  ●   ●
 60|      ●   ●
 40|   ●  ●
 20| ●
  0+--------------------勉強時間
   0  2  4  6  8  10
```

**読み取れること:**

* 右上がりの傾向 → 正の相関
* 勉強時間が増えると成績も上がる傾向

### 4. 棒グラフ（Bar Chart）

カテゴリカルデータの比較に使います。

**例:** 支持政党の分布

```
A党: ████████████████ (40%)
B党: ████████████ (30%)
C党: ████████ (20%)
その他: ████ (10%)
```

### 5. 円グラフ（Pie Chart）

全体に対する各カテゴリの割合を表示します。

**注意:** カテゴリが多すぎる場合は棒グラフの方が読みやすい

### 6. 折れ線グラフ（Line Chart）

時系列データの変化を表現します。

**例:** 月別売上の推移

```
売上
100|    ●---●
 80|   /     \
 60|  ●       ●---●
 40| /             \
 20|●               ●
  0+--------------------
   1月 2月 3月 4月 5月 6月
```

## グラフの選び方

| データの種類   | 目的     | 適切なグラフ      |
| -------- | ------ | ----------- |
| 1変数（量的）  | 分布の確認  | ヒストグラム、箱ひげ図 |
| 1変数（質的）  | カテゴリ比較 | 棒グラフ、円グラフ   |
| 2変数（量的）  | 関係性    | 散布図         |
| 時系列      | 変化の把握  | 折れ線グラフ      |
| 複数グループ比較 | 群間比較   | 箱ひげ図、棒グラフ   |

## 良いグラフの条件

1. **明確な目的**: 何を伝えたいかが明確
2. **適切なスケール**: 軸の範囲が適切
3. **見やすいデザイン**: 色、フォント、線の太さが適切
4. **正確な情報**: タイトル、軸ラベル、凡例が付いている
5. **誤解を招かない**: 意図的に印象を操作しない

## 避けるべき例

### 誤解を招くグラフ

**問題1: Y軸が0から始まっていない**

```
売上（誤解を招く）
500|     ●
450|   ●   ●
400| ●       ●
   +----------
```

→ 変化が大きく見える

**正しい表現:**

```
売上（正しい）
500|     ●
400|   ●   ●
300|
200|
100|
  0+----------
```

**問題2: 3D効果で比較が困難**

平面の棒グラフの方が正確に比較できます。

## 実践例: データセットの可視化

以下のデータを複数のグラフで表現してみましょう:

**学生20人のテスト成績:**

```
65, 70, 72, 75, 75, 78, 80, 80, 82, 85,
85, 85, 88, 90, 90, 92, 95, 95, 98, 100
```

**ヒストグラム:**

```
60-70: ██ (2人)
70-80: ██████ (6人)
80-90: ████████ (8人)
90-100: ████ (4人)
```

**箱ひげ図の統計量:**

* 最小値: 65
* Q1: 76.5
* 中央値: 85
* Q3: 91
* 最大値: 100

**解釈:**

* データは比較的高得点側に集中
* 外れ値はなし
* 中央値は85点

## 練習問題

**問1**: 以下のデータに最も適したグラフを選んでください:

* a) 過去10年間の気温の変化
* b) 好きな果物のアンケート結果
* c) 身長と体重の関係

**問2**: Y軸を0から始めないことが許容される状況を考えてください。

**問3**: 次のデータのヒストグラムを手書きで作成してください:

```
[5, 8, 12, 15, 18, 22, 25, 28, 32, 35, 38, 42, 45, 48]
```

***

次の章: [第3章 確率の基礎](https://ringa-hyjs-organization.gitbook.io/ringa_read_site/tui-ce-tong-ji-bian/chapter3)
