2.1 代表値(平均・中央値・最頻値)

代表値は、データ全体の「中心的な傾向」を1つの数値で表すものです。

3つの代表値

1. 平均値(Mean)

全てのデータの合計をデータ数で割った値です。

計算式:

xˉ=x1+x2+...+xnn=1ni=1nxi\bar{x} = \frac{x_1 + x_2 + ... + x_n}{n} = \frac{1}{n}\sum_{i=1}^{n}x_i

例: 5人のテスト成績が [70, 80, 85, 90, 95] の場合

平均=70+80+85+90+955=4205=84平均 = \frac{70 + 80 + 85 + 90 + 95}{5} = \frac{420}{5} = 84

特徴:

  • 全てのデータの情報を使う

  • 外れ値の影響を受けやすい

2. 中央値(Median)

データを小さい順に並べたときの真ん中の値です。

求め方:

  1. データを昇順に並べる

  2. データ数が奇数の場合: 真ん中の値

  3. データ数が偶数の場合: 真ん中2つの平均

例1(奇数): [65, 70, 80, 85, 90] → 中央値は 80

例2(偶数): [65, 70, 80, 85, 90, 95] → 中央値は (80 + 85) / 2 = 82.5

特徴:

  • 外れ値の影響を受けにくい

  • 順序尺度以上のデータに使える

3. 最頻値(Mode)

データの中で最も頻繁に出現する値です。

例: [70, 80, 80, 85, 90, 90, 90, 95] → 最頻値は 90(3回出現)

特徴:

  • 名義尺度のデータにも使える

  • 複数存在する場合もある(多峰性)

代表値の比較例

データセット1: [60, 70, 80, 90, 100]

  • 平均: 80

  • 中央値: 80

  • 最頻値: なし(全て1回ずつ)

データセット2: [10, 70, 80, 90, 100]

  • 平均: 70

  • 中央値: 80

  • 最頻値: なし

→ 平均は外れ値(10)に引っ張られて低くなっています。

どの代表値を使うべきか?

状況
推奨される代表値

データが対称的で外れ値がない

平均値

外れ値が含まれる

中央値

カテゴリカルデータ

最頻値

収入などの歪んだ分布

中央値

実践例: 年収データ

あるクラスの年収データ(万円):

  • 平均: 1,019万円 ← 高所得者1人に引っ張られている

  • 中央値: 475万円 ← より実態に近い

このケースでは中央値の方が「典型的な年収」を表しています。

練習問題

問1: 次のデータの平均、中央値、最頻値を求めてください:

問2: なぜ収入データでは平均値よりも中央値が使われることが多いのでしょうか?

問3: 以下のデータで平均と中央値を比較し、どちらがより適切か考えてください:


次のセクション: 2.2 散布度(分散・標準偏差)

Last updated