代表値だけではデータの全体像を把握できません。データの「ばらつき」を表す指標が必要です。
次の2つのクラスのテスト成績を考えてみましょう:
クラスA: [75, 78, 80, 82, 85] → 平均80点 クラスB: [40, 60, 80, 100, 120] → 平均80点
平均は同じ80点ですが、クラスBの方が成績のばらつきが大きいことがわかります。
最大値と最小値の差です。
計算式:
範囲=最大値−最小値 例: [40, 60, 80, 100, 120] 範囲 = 120 - 40 = 80
特徴:
2. 分散(Variance)
各データが平均からどれだけ離れているかの平均的な大きさを表します。
計算式(標本分散):
s2=n1i=1∑n(xi−xˉ)2 計算手順:
例: データ [2, 4, 6, 8, 10]、平均 = 6
分散 = (16 + 4 + 0 + 4 + 16) / 5 = 8
3. 標準偏差(Standard Deviation)
分散の平方根です。元のデータと同じ単位で表せます。
計算式:
s=s2=n1i=1∑n(xi−xˉ)2 上記の例では: 標準偏差 = √8 ≈ 2.83
特徴:
s2=n1i=1∑n(xi−xˉ)2 s2=n−11i=1∑n(xi−xˉ)2 使い分け:
一般的には不偏分散がよく使われます。
正規分布の場合、標準偏差は以下のような意味を持ちます:
平均 ± 1標準偏差の範囲: 約68%のデータが含まれる
平均 ± 2標準偏差の範囲: 約95%のデータが含まれる
平均 ± 3標準偏差の範囲: 約99.7%のデータが含まれる
クラスA:
クラスB:
成績: [40, 60, 80, 100, 120]
→ クラスBの方が成績のばらつきが約9倍大きい
変動係数(CV): 異なる単位のデータを比較
標準偏差を平均で割った値(パーセント表示):
CV=xˉs×100% 例:
身長: 平均170cm、標準偏差8.5cm → CV = 5%
体重: 平均65kg、標準偏差13kg → CV = 20%
→ 体重の方がばらつきが大きい
問1: 次のデータの分散と標準偏差を求めてください:
問2: 平均が同じ2つのデータセットでも、標準偏差が異なる例を作ってください。
問3: なぜ分散では「差の二乗」を使うのでしょうか? 単純に差の合計ではだめでしょうか?
次のセクション: 2.3 データの可視化
Last updated