度数分布とは|簡単解説
度数分布のカンタン解説
データを一定の範囲ごとに区分したとき、それぞれの範囲に含まれるデータの個数を度数といいます。度数の散らばり具合を度数分布と呼び、度数分布表やヒストグラムを使って表します。
度数と度数分布
集められたデータはデータ全体の傾向や性質、特徴などを明らかにすることで価値を持ちます。そのためには、なんらかの方法で集計や分析を行う必要があります。
例えば、以下の30個のサンプルから観測されたデータが取得された段階では、30個の数値の羅列にすぎません。
サンプルNo. | データ | サンプルNo. | データ | サンプルNo. | データ |
---|---|---|---|---|---|
1 | 22.4 | 11 | 58.3 | 21 | 38.8 |
2 | 60.0 | 12 | 42.5 | 22 | 57.2 |
3 | 28.3 | 13 | 54.2 | 23 | 32.2 |
4 | 55.0 | 14 | 25.1 | 24 | 104.7 |
5 | 48.3 | 15 | 89.3 | 25 | 80.7 |
6 | 57.8 | 16 | 42.1 | 26 | 43.6 |
7 | 56.2 | 17 | 84.1 | 27 | 59.0 |
8 | 78.5 | 18 | 48.1 | 28 | 37.3 |
9 | 50.6 | 19 | 79.0 | 29 | 54.4 |
10 | 46.5 | 20 | 30.7 | 30 | 33.1 |
これを棒グラフに表すと以下のようになります。
グラフによって視覚化してみても、このままの状態では全体の傾向や特徴は見えてきません。
上記のデータを昇順で並べ替えると以下のようになります。
30個のデータを昇順という条件で並べ替えてみると、20.0から50.0の範囲ではなだらかに増加していること、50.0〜60.0までの範囲のデータが多そうだということ、60.0までと80.0より大きいグループに分けられそうだといったことがわかります。
度数分布表
さらに、縦軸の数値を10.0づつに区切ってデータの個数を集計すると、以下のような表ができあがります。
サンプルNo. | データ | サンプルNo. | データ | サンプルNo. | データ |
---|---|---|---|---|---|
1 | 22.4 | 26 | 43.6 | 6 | 57.8 |
14 | 25.1 | 10 | 46.5 | 11 | 58.3 |
3 | 28.3 | 18 | 48.1 | 27 | 59.0 |
20 | 30.7 | 5 | 48.3 | 2 | 60.0 |
23 | 32.2 | 9 | 50.6 | 8 | 78.5 |
30 | 33.1 | 13 | 54.2 | 19 | 79.0 |
28 | 37.3 | 29 | 54.4 | 25 | 80.7 |
21 | 38.8 | 4 | 55.0 | 17 | 84.1 |
16 | 42.1 | 7 | 56.2 | 15 | 89.3 |
12 | 42.5 | 22 | 57.2 | 24 | 104.7 |
【度数分布表】
階級(階級値) | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|
20~29(25) | 3 | 0.1 | 3 | 0.1 |
30~39(35) | 5 | 0.17 | 8 | 0.27 |
40~49(45) | 6 | 0.2 | 14 | 0.47 |
50~59(55) | 9 | 0.3 | 23 | 0.77 |
60~69(65) | 1 | 0.03 | 24 | 0.8 |
70~79(75) | 2 | 0.07 | 26 | 0.87 |
80~89(85) | 3 | 0.1 | 29 | 0.97 |
90~99(95) | 0 | 0.0 | 29 | 0.97 |
100~110(105) | 1 | 0.03 | 30 | 1.0 |
合計 | 30 | 1.0 | - | - |
各区切りごとのデータの個数を度数と呼び、データ全体から見た度数の散らばり具合を度数分布といいます。
度数分布表の表頭は以下のように定義づけられます。
階級 | 区切られたデータの範囲 範囲のことを区間と呼ぶ |
階級値 | 階級の上限と下限の中央値を取って階級を代表する値とする |
度数 | 階級に含まれるデータの個数 |
相対度数 | 各階級の度数の全体に占める割合 |
累積度数 | 階級ごとの度数の累積和 |
累積相対度数 | 階級ごとの相対度数の累積和 |
例のケースでは30個のデータを度数分布表にまとめることで以下のようなことがわかります。
- 30個のデータを9つの区間にわけると、50.0から60.0未満の階級の度数が9と最も多く、全体の3割(相対度数が0.3)を占めている。
- 20.0~60.0までの区間の度数の合計(累積度数)は23であり、全体の77%(累積相対度数が0.77)を占めている。
- 20.0~60.0までの区間と60.0~90.0までの区間は上位の階級ほど度数が大きい。
度数分布を見ることで、データの意味づけを見出し解釈することが可能になります。
このようなデータの要約や解釈、データの内容を特徴づける要素を見出すための統計手続きを記述統計といい、基本統計量と合わせて分析を行います。
ヒストグラム
度数分布表を視覚化したものがヒストグラムです。
横軸の階級を連続した区間として目盛に取ることで、度数が棒の面積として表されます。
基本統計量
度数分布のほかにも、与えられたデータを記述的に表現する方法として基本統計量があります。
エクセルのデータ分析から基本統計量を算出することができます。例に挙げた30個のデータの基本統計量は以下のとおりです。
平均
データの合計をデータの数で割って得られた数値が平均値です。例のケースでは平均値の53.3は度数の最も多い50.0~60.0の階級に位置しています。
標準誤差
標本平均の標準偏差を意味し、母集団から標本を抽出した場合の母集団の平均に対する標本平均のバラつきの度合いを表します。標本数が大きくなると標準誤差を小さくすることができます。
中央値(メジアン)
データを昇順または降順で並べた場合の中央に位置するデータです。データが偶数の場合は中央の2つの値の平均を取ります。平均値が偏った値を取る場合に中央値と比較することで偏りの度合いを見ることができます。
最頻値(モード)
データ全体のなかで最も頻繁に出現する値を指します。例のケースでは30個のデータのなかに同じ値は現れないのでエクセルでは#N/Aが返されます。このような場合は、最も度数の高い階級の階級値を最頻値とすることもあります。
分散
データのバラつき具合を示すのが分散です。すべてのデータと平均値の差(偏差)を求めて2乗したものを合計し、データ数で割ることで算出されます。
偏差は平均値と各データの差であり負の値も含まれることから合計することができません。偏差の平均を求められないため、2乗するという操作を行います。
標準偏差
分散の平方根が標準偏差です。分散は2乗することで値が大きくなり直感的に把握しづらいことから、分散の平方根の値を取ることでもとのデータと比較しやすくしたものです。
平均値と中央値と最頻値が一致する場合を正規分布といい、標準偏差が大きいとグラフに描かれた山はなだらかになり、小さいと尖った山になります。
尖度
データの分布が狭い範囲の区間に集中している場合、グラフに表すと尖った山を描きます。山の尖り具合を尖度といい、データのバラつきが一定の範囲に集中していることを表します。
歪度
データの集中している区間が偏っている場合には、グラフは左右方向にずれた山が描かれます。歪度が0の場合は正規分布となり、歪度が正の値を取るときは左に偏った分布、負の値を取るときは右に偏った分布となります。
データ分析の基本として押さえておく
度数分布を見ることでデータのばらつきを俯瞰することができ、基本統計量と合わせることで客観的な基準をもとにデータを要約し解釈することが可能になります。
度数分布や基本統計量は記述統計のなかでも基本的な統計処理ですが、実務のなかで活用できる場面は多岐にわたり、そこから得られる情報は少なくありません。基本を理解することでデータ活用の幅が広がります。