規準化/基準化とは|簡単解説
規準化/基準化のカンタン語句解説
規準化/基準化とは、異なるデータ同士を比較しやすくするために平均値が0、標準偏差が1となるように変換することです。標準化と呼ばれることもあります。
規準化/基準化の詳細解説
規準化/基準化は、多種類のデータを同時に扱う「多変量解析」で取り入れられている手法です。たとえば、身長と体重のように異なるデータでも、規準化/基準化して平均値を0、標準偏差を1にすることで比較可能となります。
規準化/基準化とセットで覚えておきたい用語
以下では、規準化/基準化を理解するにあたって覚えておきたい用語を解説します。
平均
平均(算術平均)とは、データの中心位置を導くことです。式で表すと以下のようになります。
平均=各データをすべて足し合わせた数÷データの個数
たとえば、同じ英語のテストを10人に実施し、以下のようなデータになったとします。
実施者 | 英語のテストの点数 |
Aさん | 90 |
Bさん | 50 |
Cさん | 70 |
Dさん | 85 |
Eさん | 95 |
Fさん | 55 |
Gさん | 65 |
Hさん | 60 |
Iさん | 70 |
Jさん | 80 |
これを計算すると、
(90点+50点+70点+85点+95点+55点+65点+60点+70点+80点)÷10=72
で平均は72点です。
偏差
偏差は、データの平均値と個々の数値との差です。「平均値からどれくらい大きい(小さい)のか?」を表しています。偏差を式で説明すると、以下の通りです。
「偏差=個々の数値-データの平均値」
たとえば、先ほどの72点が平均点の例を見てみましょう。先ほどの式にあてはめると、以下のようになります。
・Aさんは90点なので、「90点-72点=18点」
・Bさんは50点なので、「50点-72点=-22点」
よって、Aさんの点数は平均点よりも18点大きく、Bさんの点数は平均点よりも22点小さいとわかります。
標準偏差
標準偏差とは、平均値からのズレを表す数値のことです。標準偏差を求めると、平均に対する数値のバラつき程度を知ることができます。式で表すと以下の通りです。
※S=標準偏差、n=データの総数、Xi=各データの値、x̄ =データの平均
標準偏差は上記の通り式が複雑であるため、自動計算ツールを活用するのがおすすめです。標準偏差が大きくなるほど、数字のバラつきが大きいことを意味します。
分散
規準化/基準化における分散とは、数値のバラつき具合を表した値です。分散を式で表すと以下のようになります。
分散=偏差×偏差÷度数(データ数)
正規分布
正規分布とは、左右対称の釣鐘型の分布です。横軸は確率変数、縦軸は確率密度を表します。分布は平均と分散で決まり、平均が異なる場合は分布が左右に動き、分散が異なる場合は 分布が伸び縮みする特徴があります。
規準化/基準化の計算方法
規準化/基準化の計算方法は以下の通りです。
偏差÷標準偏差
たとえば、以下のようなデータがあったとします。
・Aさん:英語のテスト点数90点、クラス全体の平均点72点、標準偏差15
これを式にあてはめると、「(90点-72点)÷15=1.2」となります。
正規化との違い
規準化/基準化が平均値を0、標準偏差を1となるように変換する手法である一方で、正規化とはデータの値を0〜1にすることです。
規準化/基準化は、データの分布が正規分析に従っている場合や、最小値と最大値が決まっていない場合などに用いることができます。一方で、正規化は最大値及び最小値が決まっている場合に有効な方法です。
【実践】規準化/基準化を用いて偏差値を求めよう
ここでは、実際に規準化/基準化を用いて偏差値を求めてみましょう。偏差値は「(個人の得点-平均点)÷標準偏差×10+50」で求められます。
たとえば、平均点が60点のテストで80点を取った場合は、「(80点-60点)÷20×10 + 50=60」で、偏差値は60だとわかります。
規準化/基準化のまとめ
規準化/基準化とは、データの平均値が0、標準偏差が1となるように変換することです。規準化/基準化すると、異なるデータでも比較できるようになります。規準化/基準化は、データの分布が正規分析に従っている場合や、最小値と最大値が決まっていない場合などに用いることが可能です。