分散とは|簡単解説

分散の意味とは

分散のカンタン語句解説

分散とはデータの散らばり具合を示す基本統計量のひとつです。データの偏差の二乗和をデータの個数で割ったものが分散で、標準偏差や共分散、相関係数の計算にも分散が使われます。

分散とは

基本統計量は平均や中央値などのデータ全体を一つの値に要約するための代表値と、データ全体のバラつき具合を表す散布度に分けられます。分散は散布度を表す基本統計量のひとつであり、偏差の二乗和の平均で求められます。

基本統計量代表値平均データの総和 / データの個数
中央値データ順位の中央の値
最頻値度数・確率が最大の値
最大値データのなかで最も大きい値
最小値データのなかで最も小さな値
散布度範囲最大値と最小値の差
分散偏差(平均値と各データの差)²の合計 / データの個数
標準偏差分散の平方根
歪度データのバラつきの偏り
尖度データのバラつきの集中度

分散は以下の公式で求められます。

S2:分散 、n:データ個数、データの値:xi、 平均値:xS2 = 1ni=1n(xiーx)2 =偏差2の合計データの個数

分散から標準偏差を求める

分散が偏差二乗和の平均を取るのは、偏差の合計は0になり平均を求めることができないためです。

2乗して求めた分散の値の平方根を取り、元の単位に戻したものが標準偏差です。標準偏差は平均を中心として、どの程度の範囲にデータが収束しているかを見る際に役に立ちます。

標準偏差とは|簡単解説

標準偏差は基本統計量のひとつ 標準偏差はデータのバラつきの度合いを表す基本統計量のひとつです。 基本統計量はデータ全体から得られる情報を1つの値で表現することを目…

共分散

分散が1組のデータの散らばり具合を表すのに対し、共分散は2組のデータ(2変量)を対象としてデータの散らばり具合(変動)が似ているかどうかを表します。

共分散は2変量の「偏差の積の平均値」で求めることができます。

2変量をx,y、x,yの共分散をSxyとすると、Sxyは以下の公式で表すことができます。

x,yの共分散:Sxy 、n:データ個数、データの値:xi,yi、平均値:x,ySxy =1ni=1n(xiーx)(yiーy) 

2変量の共分散の値によって以下の関係が成り立ちます。

共分散 > 0 → 2変量は一方が増加するともう一方も増加する。
共分散 = 0 → 2変量は関連性がない。
共分散 < 0 → 2変量は一方が増加するともう一方は減少する。

具体的な例として、地域別1人当たり県民所得と地域別県内就業者数のデータをもとに共分散を求めてみます。

1人当たり所得(万円)所得の偏差ー①就業者数(万人)②就業者数の偏差ー②①✕②偏差の積
北海道・東北286ー25805ー143.63,590.0
関東392812,5241,575.4127,607.4
中部3392897728.4795.2
近畿304ー71,050101.4ー709.8
中国300ー11374ー575.66,331.6
四国287ー24190ー758.618,206.4
九州269ー42720ー228.69,601.2
合計2,1176,640165,422.0
平均311948.623,631.7
内閣府「県民経済計算(令和元年度)1人あたり県民所得・県内就業者数」より作成

地域別1人当たり県民所得と地域別就業者数の共分散は、23,631.7と正の値であり、県民所得が高い県は就業者数も多いということがいえます。

共分散から相関係数を求める

共分散で求められる数値は2変量の単位に依存するため、共分散だけでは2変量に線形的な関係があるかどうかしか判断することができません。

一方が増加するともう一方も増加する(または、減少する)という2変量の線形的な関係を相関といいますが、共分散を正規化することで相関の強さを表せるようにしたものが相関係数です。

2変量をx,y、x,yの相関係数を r とすると、rは以下の公式を表すことができます。

x,yの共分散:Sxy、xの標準偏差:Sx、yの標準偏差:Syr (相関係数)=SxySx・Sy =x,yの共分散xの標準偏差✕yの標準偏差 

相関係数はー1≦ r ≦ 1 の範囲を取り、1に近いほど正の相関が強く、ー1に近いほど負の相関が強いことを表します。0に付近ではほとんど相関がないということになります。

地域別1人当たり県民所得と地域別就業者数の相関係数を求めると0.74となり、強い正の相関があることがわかります。

1人当たり所得(万円)所得の偏差ー①就業者数(万人)②就業者数の偏差ー②①✕②偏差の積
北海道・東北286ー25805ー143.63,590.0
関東392812,5241,575.4127,607.4
中部3392897728.4795.2
近畿304ー71,050101.4ー709.8
中国300ー11374ー575.66,331.6
四国287ー24190ー758.618,206.4
九州269ー42720ー228.69,601.2
合計2,1176,640165,422.0
標準偏差41.8-760.6--
平均311-948.6-23,631.7
内閣府「県民経済計算(令和元年度)1人あたり県民所得・県内就業者数」より作成
相関分析とは|簡単解説

相関分析の概要 相関分析は2つの変数間の関係性について分析します。 2種類のデータが線形的に変化する傾向が見られるときに、一方が増加してもう一方も増加する場合を正…

相関係数を応用したポートフォリオ分析

相関係数を使ったアンケート調査の分析方法にポートフォリオ分析があります。2つのカテゴリーデータの相関係数を算出し、相関係数からカテゴリーのポジショニングを行う方法です。

典型的なものとして顧客満足度調査(CS調査)のポートフォリオ分析が挙げられます。

以下は、スーパーマーケットの顧客満足度調査におけるポートフォリオ分析の事例です。

スーパーマーケットの顧客満足度を実施し、総合満足度を高めることに寄与している個別項目を相関係数を用いて可視化し、改善施策の優先順位付けを行うことを目的とします。

個別の評価項目の満足度率と総合満足度の相関係数を求めます。

評価項目満足度率(5段階評価の上位2つ)相関係数
惣菜が美味しい55.00.624
品揃えが豊富50.00.594
価格が手頃45.00.721
生鮮食品が新鮮40.00.608
レジの処理が速い40.00.556
店内が明るい40.00.286
陳列が見やすい25.00.442
品切れが少ない15.00.685
従業員の対応が良い10.00.238
総合評価45.01.000
平均35.60.528

クロス・マーケティング「ポートフォリオ分析」のデータをもとに以下のような散布図を作成し、個別項目の満足度率と総合満足度との相関係数をプロットします。

横軸に取った相関係数は総合満足度に対する影響の大きさを表し、縦軸の満足度率は個別評価項目の満足度の高さを表しています。

①重点改善項目(右下)

「品切れがない」は、総合満足度に大きく影響する項目であるにも関わらず評価を得られていません。個別項目のなかでは最優先で改善に取り組むべき項目に位置づけられます。

②重点維持項目(右上)

総合満足度と相関が強い個別評価項目(「惣菜が美味しい」「品揃えが豊富」「価格が手頃」「生鮮食品が新鮮」「レジの処理が速い」)は総合満足度を高めることにつながる個別項目です。個別項目としても高評価が得られているため、現状の水準を維持することに注力すべき項目です。

④改善項目(左下)

「陳列が見やすい」「従業員の対応が良い」は総合満足度への影響度、個別項目としての評価ともに低く、満足度の低いという点では改善が必要な項目ですが、総合満足度に対する影響度が低いため改善施策の優先度は低くなります。

③維持項目(左上)

「店内が明るい」は個別項目として評価は得られており、総合満足度への影響度も相対的に低いと考えられることから、改善への取り組みに対する優先順位は低くなります。

まとめ

標準偏差や相関係数など、よく用いられる統計量を理解するための基本となるのが分散です。また、統計的検定や確率を扱う際にも用いられる重要な統計量に位置づけられます。

ポートフォリオ分析で見たように、データのバラつきからさまざまな情報を取り出すことができるため、分散を理解しておくことは統計データを扱う際に役立ちます。