2.2 散布度(分散・標準偏差)

代表値だけではデータの全体像を把握できません。データの「ばらつき」を表す指標が必要です。

なぜ散布度が重要なのか?

次の2つのクラスのテスト成績を考えてみましょう:

クラスA: [75, 78, 80, 82, 85] → 平均80点 クラスB: [40, 60, 80, 100, 120] → 平均80点

平均は同じ80点ですが、クラスBの方が成績のばらつきが大きいことがわかります。

主な散布度の指標

1. 範囲(Range)

最大値と最小値の差です。

計算式:

範囲=最大値最小値範囲 = 最大値 - 最小値

例: [40, 60, 80, 100, 120] 範囲 = 120 - 40 = 80

特徴:

  • 計算が簡単

  • 外れ値の影響を大きく受ける

2. 分散(Variance)

各データが平均からどれだけ離れているかの平均的な大きさを表します。

計算式(標本分散):

s2=1ni=1n(xixˉ)2s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2

計算手順:

  1. 各データと平均の差を求める

  2. その差を二乗する

  3. 二乗した値の平均を取る

例: データ [2, 4, 6, 8, 10]、平均 = 6

データ
差の二乗

2

-4

16

4

-2

4

6

0

0

8

2

4

10

4

16

分散 = (16 + 4 + 0 + 4 + 16) / 5 = 8

3. 標準偏差(Standard Deviation)

分散の平方根です。元のデータと同じ単位で表せます。

計算式:

s=s2=1ni=1n(xixˉ)2s = \sqrt{s^2} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}

上記の例では: 標準偏差 = √8 ≈ 2.83

特徴:

  • 元のデータと同じ単位(cm、円など)

  • 解釈しやすい

  • 最もよく使われる散布度の指標

標本分散と不偏分散

標本分散(n で割る)

s2=1ni=1n(xixˉ)2s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2

不偏分散(n-1 で割る)

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2

使い分け:

  • 標本そのものを分析: 標本分散(n で割る)

  • 母集団を推定: 不偏分散(n-1 で割る)

一般的には不偏分散がよく使われます。

標準偏差の解釈

正規分布の場合、標準偏差は以下のような意味を持ちます:

  • 平均 ± 1標準偏差の範囲: 約68%のデータが含まれる

  • 平均 ± 2標準偏差の範囲: 約95%のデータが含まれる

  • 平均 ± 3標準偏差の範囲: 約99.7%のデータが含まれる

実践例: テスト成績の比較

クラスA:

  • 成績: [75, 78, 80, 82, 85]

  • 平均: 80点

  • 標準偏差: 3.16点

クラスB:

  • 成績: [40, 60, 80, 100, 120]

  • 平均: 80点

  • 標準偏差: 28.28点

→ クラスBの方が成績のばらつきが約9倍大きい

変動係数(CV): 異なる単位のデータを比較

標準偏差を平均で割った値(パーセント表示):

CV=sxˉ×100%CV = \frac{s}{\bar{x}} \times 100\%

例:

  • 身長: 平均170cm、標準偏差8.5cm → CV = 5%

  • 体重: 平均65kg、標準偏差13kg → CV = 20%

→ 体重の方がばらつきが大きい

練習問題

問1: 次のデータの分散と標準偏差を求めてください:

問2: 平均が同じ2つのデータセットでも、標準偏差が異なる例を作ってください。

問3: なぜ分散では「差の二乗」を使うのでしょうか? 単純に差の合計ではだめでしょうか?


次のセクション: 2.3 データの可視化

Last updated