最頻値とは|簡単解説
最頻値のカンタン語句解説
最頻値は、データ全体のなかで最も頻繁に現れる値のことです。平均値、中央値と合わせてデータ全体の中心を表す指標のひとつです。
最頻値の概要
最頻値は、基本統計量のひとつでデータのなかで出現した数が最も多い値のことを指します。平均値、中央値とともにデータ全体を要約するための代表値のひとつであり、データ分布の中心を表現する指標です。
データの要約とは
アンケート調査をはじめとして、数値として表されるデータを集めて分析することを量的調査といいます。データを分析する目的は集めたデータ全体の特徴や傾向を明らかにすることです。
分析するために集められるデータの数が多いと何らかの形でデータ全体の特徴を表す方法が必要です。データ全体を代表する数値を求めたり、表やグラフを使って表現したりすることをデータの要約といいます。
データを要約し、全体を特徴づける情報として簡潔に表現する方法を記述統計と呼びます。
データとは
量的調査で扱うデータは以下のような形で集められます。
観測対象(調査対象)✕ 変数
観測対象はデータを取得する対象のことであり、アンケート調査の場合は集められた一つひとつのサンプルのことです。
変数は各サンプルによって異なる特性のことであり、アンケート調査では質問に対する答えとして選択されたカテゴリーが該当し、数量や属性として示されます。
数値で要約する
データ全体を何らかの数値として表したものが基本統計量です。基本統計量はデータ全体のバラツキの中心を表す代表値と、バラツキの度合いを表す散布度にわけられます。
最頻値は代表値のなかのひとつです。
基本統計量 | 代表値 データ全体の中心的傾向を表す | 平均値 |
中央値 | ||
最頻値 | ||
散布度 データ全体のバラツキの度合いを表す | 範囲(レンジ) | |
分散 | ||
標準偏差 | ||
歪度 | ||
尖度 |
データ全体の中心的傾向といっても、何を中心と見るかが3つの代表値の違いです。平均値は全体のボリュームを均したものと考えられます。
中央値は最大と最小の真ん中を意味します。それに対し最頻値はデータが最も多い値であり、平均値や中央値よりも集団全体の実態を表していると考えることが妥当である場合も少なくありません。
実際には、代表値だけではデータ全体を判断するための情報としては不足しているため、散布度も考慮して全体を判断する必要があります。
図表で要約する
データ全体を図表を使って要約する場合に使われるのが、度数分布表、棒グラフ、ヒストグラムなどです。
度数分布表は、データをある範囲ごとに区切り、範囲ごとのデータの個数を表にしたものです。区切られた範囲を階級、データの個数を度数といいます。
グラフとヒストグラムの違いは、棒グラフが棒の長さが各階級の度数を表すのに対し、ヒストグラムは各階級の矩形の面積が度数を表しています。
この場合の最頻値は「8:20〜8:29」ということになります。
最頻値の特徴
基本統計量の代表値には最頻値のほか、平均値、中央値があります。この3つはデータ全体の中心付近を表現するための指標ですが、外れ値とデータのバラツキ具合によって中央付近の見え方に違いがあることを知っておく必要があります。
最頻値は外れ値の影響を受けない
「外れ値」とは、他のデータと比較して極端に大きい、または、小さい値のことです。3つの代表値のなかで外れ値の影響を最も受けるのが平均値です。外れ値の存在によって平均が大きく動いてしまうことがあるためです。
それに対し最頻値は度数が最も高い値なので少数の外れ値があっても最頻値の値は同じです。また、中央値も外れ値のデータ分だけ中央が移動するだけなので、中央値のデータは大きく変わらないことになります。
最頻値はひとつではない場合がある
最も頻繁に出現する値が最頻値であることから、異なる値が同じ数だけ出現することもあります。最頻値はヒストグラムを描いた場合の山の頂点を表します。山が複数ある場合には最頻値でデータ全体の中央付近を表すことができないことになります。
データの分布による最頻値、平均値、中央値の関係
データのバラツキ具合によって最頻値、平均値、中央値の現れ方に違いが生じます。わかりやすい例として所得の例が挙げられます。
上のヒストグラムを見ると所得金額の低いほうに相対度数の分布が偏っています。平均所得金額が552万3,000円であるのに対し、最頻値は200〜300万円の世帯です。また中央値は437万円であることから世帯数の半数以上が平均所得に達しておらず、平均所得よりも低い世帯が6割以上を占めています。
上記のグラフに見られるように、データの分布の山が左右非対称に偏っている度合いを歪度といいます。
これ以外にもデータの分布の仕方はさまざまなものが考えられます。
グラフの山の傾きの度合いが尖度です。尖度が大きいほど同質の集団であると考えることができます。また、山が複数ある場合、属性の異なる複数の集団が混在している可能性があります。
カール・ピアソンの経験則
カール・ピアソンの経験則は、ヒストグラムが単峰性の山を描く場合、平均値から最頻値に向かって1/3のところに中央値が存在するという経験則で、中央値 ≒ (平均値 ✕ 2 +最頻値)/ 3という式で表されます。データの分布の仕方によっては成り立たない場合もあるので注意が必要です。
最頻値を知るためには、基本統計量の特徴を理解する
最頻値をはじめとする基本統計量はデータ分析を行う際の重要な指標であり、なかでも平均値・中央値・最頻値の代表値は最も基本的なデータを要約する方法です。それぞれの特性を理解しデータに対するセンスを身につけましょう。