2.2 散布度（分散・標準偏差）

代表値だけではデータの全体像を把握できません。データの「ばらつき」を表す指標が必要です。

なぜ散布度が重要なのか?

次の2つのクラスのテスト成績を考えてみましょう:

クラスA: [75, 78, 80, 82, 85] → 平均80点 クラスB: [40, 60, 80, 100, 120] → 平均80点

平均は同じ80点ですが、クラスBの方が成績のばらつきが大きいことがわかります。

主な散布度の指標

1. 範囲（Range）

最大値と最小値の差です。

計算式:

範囲 = 最大値 - 最小値

例: [40, 60, 80, 100, 120] 範囲 = 120 - 40 = 80

特徴:

計算が簡単
外れ値の影響を大きく受ける

2. 分散（Variance）

各データが平均からどれだけ離れているかの平均的な大きさを表します。

計算式（標本分散）:

s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2

計算手順:

各データと平均の差を求める
その差を二乗する
二乗した値の平均を取る

例: データ [2, 4, 6, 8, 10]、平均 = 6

データ

差

差の二乗

-4

-2

分散 = (16 + 4 + 0 + 4 + 16) / 5 = 8

3. 標準偏差（Standard Deviation）

分散の平方根です。元のデータと同じ単位で表せます。

計算式:

s = \sqrt{s^2} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}

上記の例では: 標準偏差 = √8 ≈ 2.83

特徴:

元のデータと同じ単位（cm、円など）
解釈しやすい
最もよく使われる散布度の指標

標本分散と不偏分散

標本分散（n で割る）

s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2

不偏分散（n-1 で割る）

s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2

使い分け:

標本そのものを分析: 標本分散（n で割る）
母集団を推定: 不偏分散（n-1 で割る）

一般的には不偏分散がよく使われます。

標準偏差の解釈

正規分布の場合、標準偏差は以下のような意味を持ちます:

平均 ± 1標準偏差の範囲: 約68%のデータが含まれる
平均 ± 2標準偏差の範囲: 約95%のデータが含まれる
平均 ± 3標準偏差の範囲: 約99.7%のデータが含まれる

実践例: テスト成績の比較

クラスA:

成績: [75, 78, 80, 82, 85]
平均: 80点
標準偏差: 3.16点

クラスB:

成績: [40, 60, 80, 100, 120]
平均: 80点
標準偏差: 28.28点

→ クラスBの方が成績のばらつきが約9倍大きい

変動係数（CV）: 異なる単位のデータを比較

標準偏差を平均で割った値（パーセント表示）:

CV = \frac{s}{\bar{x}} \times 100\%

例:

身長: 平均170cm、標準偏差8.5cm → CV = 5%
体重: 平均65kg、標準偏差13kg → CV = 20%

→ 体重の方がばらつきが大きい

練習問題

問1: 次のデータの分散と標準偏差を求めてください:

[10, 12, 15, 18, 20]

問2: 平均が同じ2つのデータセットでも、標準偏差が異なる例を作ってください。

問3: なぜ分散では「差の二乗」を使うのでしょうか? 単純に差の合計ではだめでしょうか?

次のセクション: 2.3 データの可視化

Previous2.1 代表値（平均・中央値・最頻値）Next2.3 データの可視化

Last updated 2 months ago

hashtagなぜ散布度が重要なのか?

hashtag主な散布度の指標

hashtag1. 範囲（Range）

hashtag2. 分散（Variance）

hashtag3. 標準偏差（Standard Deviation）

hashtag標本分散と不偏分散

hashtag標本分散（n で割る）

hashtag不偏分散（n-1 で割る）

hashtag標準偏差の解釈

hashtag実践例: テスト成績の比較

hashtag変動係数（CV）: 異なる単位のデータを比較

hashtag練習問題