中央値とは|簡単解説
中央値のカンタン語句解説
中央値とは、データを大きい順(もしくは小さい順)に並べたときに中央に位置する値です。メディアンもしくはメジアン(英 median)とも呼ばれます。データの総数が偶数の場合は、中央に最も近い2つの値の平均が中央値となります。異常値(外れ値)の影響を受けにくいのが最大の特徴です。
中央値の基礎知識
中央値は、データの総数が奇数か偶数かによって少々異なります。
奇数の場合は、データを大きい順(もしくは小さい順)に並べたときに真ん中にくる値が中央値です。偶数の場合は、中央に近い2つの値の平均値を計算した値が中央値となります。
推定値から極端に外れた異常値(外れ値)の影響を受けにくいため、異常値(外れ値)が多かったり値のバラツキが大きかったりするデータを取り扱う際に適しています。
中央値の求め方
中央値は以下の3ステップで求めることが可能です。
- データを大きい/小さい順に並べる
- データ数が奇数もしくは偶数かを確認する
- 真ん中の値を見つける
たとえば、100人に対して好きな和菓子を調査し、以下のような結果になったとします。
和菓子 | 団子 | 大福 | どら焼き | 羊羹 | わらび餅 | ぜんざい |
人数 | 29 | 20 | 7 | 5 | 22 | 17 |
この結果を大きい順に並べると、29・22・20・17・7・5の順番になり、中央に近い20と17の平均値を求めると中央値は18.5となります。
中央値をエクセルで求める方法
データ量が多い場合は、エクセルで中央値を求めるのが効率的です。
たとえば、以下のようなデータがあったとします。
氏名 | 職業 | 年収 |
---|---|---|
Aさん | エンジニア | 5400000 |
Bさん | プログラマー | 4300000 |
Cさん | ライター | 4500000 |
Dさん | 国家公務員 | 6600000 |
Eさん | 不動産経営 | 5500000 |
Fさん | アパレルショップ店員 | 3500000 |
Gさん | 地方公務員 | 6600000 |
Hさん | バー経営 | 3000000 |
Iさん | スポーツインストラクター | 3300000 |
年収の中央値を求めたい場合は、「=MEDIAN」と入力して、中央値を求めたいセルを選択します。
「Enter」をクリックすると、以下のように中央値が求まります。
上記より、年収の中央値は4500000円だとわかります。
中央値の注意点
中央値の注意点は、全体のデータをすべて反映していないことです。あくまでも中央に位置する値に注目するため、データの推移を把握したい場合には向いていません。
たとえば、以下のデータのように極端なデータの場合があったとします。
氏名 | 点数 |
---|---|
Aさん | 100点 |
Bさん | 100点 |
Cさん | 30点 |
Dさん | 10点 |
Eさん | 5点 |
このときの中央値は「30点」となり、両端の100点と5点を見逃しやすくなります。
平均値・最頻値との違い
中央値と平均値、最頻値はあるデータ群の代表値と言われます。代表値とは、データの傾向や特徴を説明する数値です。それぞれ特徴が異なり、向き・不向きのデータがあります。
ここでは、平均値と最頻値の特徴と中央値と異なる点を解説します。
平均値とは
平均値とは、データの数字を全て足してデータの個数で割った値のことです。
たとえば、以下のようなデータがあったとします。
氏名 | 点数 |
---|---|
Aさん | 90点 |
Bさん | 85点 |
Cさん | 70点 |
Dさん | 35点 |
Eさん | 80点 |
このデータの平均値を求めると、「(90点+85点+70点+35点+80点)÷5=72点」です。
平均値を求めると、データ全体の変化を把握できます。ただし、外れ値(異常値)の影響を受けやすく、値が真ん中からずれてしまう可能性がある点には注意が必要です。
たとえば、先述したデータに10点の人が加わると、平均値は61点と数値が大きく異なります。
最頻値とは
最頻値とは、最も多く出現する値です。たとえば、以下のようなデータがあったとします。
氏名 | 年収 |
---|---|
Aさん | 5000000 |
Bさん | 4300000 |
Cさん | 4300000 |
Dさん | 6500000 |
Eさん | 5500000 |
Fさん | 3500000 |
Gさん | 4300000 |
Hさん | 3000000 |
Iさん | 3300000 |
上記の場合、この中で最も出現した「4300000」が最頻値です。最多頻度が2つある場合は、両者ともに最頻値となります。
なお、最頻値はそのデータの中で出やすい値がわかり、中央値や平均値ではわからないような「◯◯という回答が多かった」のような数値化できないデータの集計にも適しています。
ただし、データ数が少ないケースではデータの特性が見にくくなってしまうため注意しましょう。
中央値のまとめ
中央値は、データの傾向や特徴を説明する代表値のひとつです。異常値(外れ値)の影響を受けにくい特徴があり、データ全体の中心の値を知りたい場合に向いています。
一方で、1人あたりの得点や年収などを知りたい場合は、平均値を求めるのがおすすめです。最頻値は、データのおおまかな傾向を把握したい場合に向いているなど、それぞれ向き・不向きがあるため、目的によって使い分けましょう。