四分位とは|簡単解説

四分位のカンタン語句解説
四分位とは、データを昇順で並べて等分割した場合のデータの値を指し、データの最小値から最大値までの範囲を、m(mは整数)等分に分割した場合の区切りとなる点を指します。mが2である場合が中央値にあたり、範囲を4分割(mが4)する四分位数が多く用いられます。分位は、データの散らばりの度合いを示す代表値のひとつです。
分位数とは
具体的な例を使って、四分位数を求めてみます。
AクラスとBクラスのそれぞれ7人分の体重のデータがあります。
Aクラス | 54kg | 58kg | 59kg | 61kg | 62kg | 66kg | 67kg |
Bクラス | 46kg | 52kg | 53kg | 65kg | 68kg | 71kg | 72kg |
上記のデータを数直線上で表すと以下のようになります。
Aクラス、Bクラスそれぞれのデータの個数は7個です。7個のデータのちょうど真ん中にあたるのが最小値から数えて4番目、最大値から数えて4番目にあたるデータで、Aクラスの場合は61、Bクラスの場合は65です。
この真ん中に当たる数値が中央値であり、最小値から最大値までの範囲を2分割した第2分位数ということになります。
2分割したデータのうち最小値から中央値までのデータと中央値から最大値までのデータを、さらに2分割すると全体では4分割することになります。4分割した3つの点を小さい方から数えて、第1分位数、中央値(第2分位数)、第3分位数といいます。
分割する整数は任意に取ることができますが、分割する整数をmとした場合、それぞれの分割された点の最小値を第0m分位数、最大値を第mm分位数と言い表します。
100分割した場合についてはパーセンタイルといい、四分位数の場合の第1四分位数は25パーセンタイル、第3四分位数は75パーセンタイル当たります。
分位数は相対的な順位を分割する整数で表したものと考えることができます。
分位数とパーセンタイル、相対順位は以下のように対応します。
分位数 | 四分位数 | パーセンタイル | 相対順位 | |
---|---|---|---|---|
最小値 | 0分位数 | 第0四分位数 | 0パーセンタイル | 0/100 |
0.25分位数 | 第1四分位数 | 25パーセンタイル | 25/100 | |
中央値 | 0.5分位数 | 第2四分位数 | 50パーセンタイル | 50/100 |
0.75分位数 | 第3四分位数 | 75パーセンタイル | 75/100 | |
最大値 | 1分位数 | 第4四分位数 | 100パーセンタイル | 100/100 |
データが奇数個の場合は中央に当たる数値が中央値となりますが、データが偶数個の場合は中央の前後の数値の平均を取って中央値とします。
単に四分位数といった場合には、第1四分位数、第3四分位数を指すこともあり、中央値である第2四分位数に対して下側、上側と区別します。
四分位数の最小値、第1四分位数、中央値、第3四分位数、最大値の5つの代表値で全体のバラつきを見ることを五数要約といいます。
範囲と分位範囲
データの最小値と最小値の差を範囲といいます。範囲はデータのバラつきを見る場合の最も簡単な方法です。
前述のAクラスとBクラスのそれぞれの範囲は以下のとおりです。
【AクラスとBクラスのデータの範囲】 Aクラス:67(最大値)ー 54(最小値)=13(範囲)Bクラス:72(最大値)ー 46(最小値)=26(範囲) |
データの範囲を見るだけでも、AクラスとBクラスのデータのバラつきの大きさを比較することができます。
さらに、四分位数の第3四分位数と第1四分位数の差を四分位範囲といいます。
【AクラスとBクラスのデータの四分位範囲】
Aクラス:64(第3四分位数)ー 58.5(第1四分位数)=5.5(四分位範囲)
Bクラス:69.5(第3四分位数)ー 52.5(第1四分位数)=17.0(四分位範囲)
四分位範囲は、中央値を基準として±25パーセンタイルのデータを見ることで、データ数の50%が中央値付近にどれだけ集まっているかを把握できます。
AクラスとBクラスのそれぞれの四分位範囲は5.5と17.0であり、やはりAクラスのほうが個人差が少ないと判断することができます。
エクセルの分位数の求め方
エクセルで四分位数を求める場合にはQUARTILE関数、PERCENTILE関数。PERCENTRANK関数を使います。
QUARTILE(配列,戻り値) QUARTILE.INC QUARTILE.EXC | 配列:データ範囲の指定 戻り値: 0 を入力 → 第0四分位数が返される 1 を入力 → 第1四分位数が返される 2 を入力 → 第2四分位数が返される 3 を入力 → 第3四分位数が返される 4 を入力 → 第4四分位数が返される |
PERCENTILE(配列,率) PERCENTILE.INC PERCENTILE.EXC | 配列:データ範囲の指定 率:パーセンタイル(相対順位)を指定し分位数が返される |
PERCENTRANK(配列,X,有効桁数) PERCENTRANK.INC PERCENTRANK.EXC | 配列:データ範囲の指定 X:相対順位を知りたいデータの値を指定し、指定したデータが位置するパーセンタイルが返される 有効桁数:返されるパーセンタイルの桁数(省略可) |
上記の3つの関数にはそれぞれ.INCと.EXCの2種類があります。.INC(インクルーシブ)は「包括的」、.EXC(エクスクルーシブ)は「排他的」という意味です。
両者の違いは、.INCは最小値を0分位、最大値を1分位とするのに対し、EXCはデータの個数をnとした場合に、0分位と1分位を除外し最小値の相対順位を1/(n+1)最大値の相対順位をn/(n+1)とした場合の結果を返します。
そのため、QUARTILE.EXCを使う場合は戻り値に入力できるのは1、2,3のみということになります。
.INCと.EXCの使い分けについて特に決まりはなく、データの個数nが大きくなれば、どちらを使っても最大値・最小値以外の分位数の値はほとんど等しくなっていきます。データの個数nが小さい場合はどちらを使った結果かを明示したほうがよいでしょう。
分位数を可視化する箱ひげ図(ボックスプロット)
分位数を使ったデータのバラつきの見方として範囲と四分位範囲を挙げましたが、これをグラフ化すると、さらにデータのバラつきの度合いを直感的に把握しやすくなります。
以下のA、B、Cの3つのクラスの30人分の体重のデータがあるとします。
Aクラス | 85 71 95 97 73 52 43 74 43 56 55 89 60 97 59 77 83 60 49 46 92 81 73 90 71 93 45 43 63 94 |
Bクラス | 74 77 79 50 83 59 80 72 63 51 59 76 54 75 64 60 77 77 83 69 68 57 51 83 68 51 63 54 63 62 |
Cクラス | 77 50 55 66 70 79 53 49 76 51 65 67 76 49 49 46 56 57 54 84 79 85 85 61 63 80 83 67 48 83 |
それぞれの四分位数を求めると以下のようになります。
Aクラス | Bクラス | Cクラス | |
---|---|---|---|
最小値 | 43 | 50 | 46 |
第1四分位数 | 55.25 | 59 | 53.25 |
中央値 | 72 | 66 | 65.5 |
第3四分位数 | 88 | 76.75 | 78.5 |
最大値 | 97 | 83 | 85 |
四分位数を使って上記のデータをグラフにする方法として、箱ひげ図(ボックスプロット)があります。四分位範囲の上限と下限で長方形を描き、最大値と最小値を直線で表す描画方法です。
箱ひげ図はエクセルを使って描くことができます。関数で分位数を求める場合に.INCと .EXCを指定しましたが、箱ひげ図でも「包括的な中央値」と「排他的な中央値」を選択することができます。
また、箱ひげ図を描く場合、外れ値を含んでいると範囲(最大値ー最小値)が大きくなってしまうことから、ひげの長さの上限を四分位範囲の1.5倍とすることが一般的です。
四分位数はデータ要約の基本的方法のひとつ
分位数はデータのバラつきを概観するために役に立つ代表値であり、データ要約の基本的な方法のひとつです。
最小値、中央値、最大値が2分位数のことであり、さらにデータの個数を等分していったものが分位数であると考えるとわかりやすいでしょう。