主成分分析とは|簡単解説
主成分分析のカンタン解説
主成分分析は、多くの変数で構成されるデータを、新たな少ない変数に置き換えて表現するための多変量解析の手法です。置き換えられた少ない変数のことを主成分と呼びます。多くの変数を少ない主成分に置き換えることを次元の縮約といい、多次元のデータを少ない次元に縮約することで、複雑な多次元データを解釈するいとぐちを見つけ出すことができます。
主成分分析のイメージ
アンケートのデータは質問と選択肢を変数として集計しますが、変数が多いとデータの全体像を理解することが難しくなります。より少ない変数を新たに合成することで、多次元データを解釈しやすくすることが主成分分析の目的です。
飲料の味の評価として上図のような選択肢を設けてアンケートを取ったとします。主成分分析を行うことで、それぞれの味覚の要素がユーザーのどんな感覚につながっているかを明らかにすることができます。
主成分分析では主成分となる変数を新たに合成しますが、「飲みごたえ」や「爽快感」という主成分の意味づけは、主成分に影響を与えている元の変数の割合と計算された指標をもとに分析者が解釈する必要があります。
次元を縮約する方法
もとのデータが持つ情報量をできるだけ失わないように、主成分となる変数を合成する必要があります。
左上①のような(xn,yn)という2次元のデータの次元を少なくすることを考えた場合、②は座標をynのみで表した場合、③はxnのみで表した場合です。②、③ではそれぞれxn,ynの情報が失われてしまうため、次元を縮約することにはなりません。
失われる情報を最小限にしてxn,ynの情報を1つの座標で表すとすれば、散らばり(分散)の大きい方向に合わせて新たな軸を作り、最もxn,ynとの距離が小さくなる④のような直線を引けばよいということになります。新たに作られた軸を主成分軸といいます。
主成分軸は、xn,ynの重心(xn,ynの平均)を中心として軸を回転させた場合に、重心から各座標までの距離が最小となるような直線です。
上の図で、座標から主成分軸までの距離bの総和を最小にするためには、aの長さの総和が最大になるようにすればいいことになります。重心(xn,yn)と(xi,yi)から主成分軸におろした点までの距離a2の総和は分散と等しいため、分散が最大となるように主成分軸を引くことが情報の損失を最小限にするということになります。
分散が最大となるように取られた主成分軸は、データの分布のバラつきが大きい方向に引かれ、それが第1主成分となります。
分散の大きい方向に沿って第1主成分を取ったことによって、主成分軸から離れる方向にあるデータの情報は相対的に失われることになります。できるだけ失う情報を少なくするために第1主成分軸に直交する⑤の第2主成分軸を引くことでそれを補い、次元を増やしていくことで失われる情報を少なくしていきます。
主成分の求め方
新たに合成する主成分Zは、次の式で求めます。Zを主成分スコア、元の変数に重み付けをする係数を主成分係数といいます。
この時に、求めるZの分散が最大、かつ、主成分係数の平方和が1になるような主成分係数を求めれば、最も特徴(分散)の大きい新たな変数を合成することができます。
主成分係数の平方和を1とするのは、合成された主成分がデータ全体のどの程度の割合を説明しているかについて、分散の比率として比較できるようにするためです。この割合のことを寄与率といいます。
主成分分析のアウトプット
一般的に主成分分析は統計ソフト等を使って計算を行います。その際のアウトプットとして得られる指標には以下のものがあります。
主成分スコア(主成分得点)
新たな変数として求める主成分は各変数に重み付けを行って計算を行います。元の観測データに重み付けを行って計算された数値が主成分得点です。合成された主成分を表頭、観測データを表側とするスコアとしてあらわされます。
主成分係数(主成分負荷量)
主成分係数はもとの変数に重み付けを行う係数のことです。与えられた係数が大きい元の変数が合成された主成分に大きな影響を与えていると考えることができます。
固有値
固有値は計算された主成分スコアの分散の値です。最も分散の大きいものが第1主成分、次に大きいものが第2主成分という形で数値が計算されます。元の変数の分散の合計と各主成分の分散の合計は等しくなります。分散が大きい主成分ほど元のデータの情報量を多く含んでいるということです。
標準化されたデータで主成分スコアを求めた場合、固有値が1より大きい主成分が元データの情報を多く持っているとされます。
寄与率
すべての固有値の合計に占める各主成分の固有値の割合が寄与率です。データ全体が持つ情報量に対する各主成分の情報量の割合を示しているため、合成された主成分がもとのデータの何%を説明できるかをあらわしています。
累積寄与率
各主成分の寄与率を第1主成分から順に足し上げていった時の合計値です。基準はありませんが、各主成分の累積寄与率が8割程度になるまで合成できれば、その時点で元のデータのほとんどをあらわしていると考えます。
例えば第1主成分と第2主成分の累積寄与率が90%程度であったとすると、2つの主成分で全データのほとんどを説明できるという意味です。
また、2つの主成分でデータ全体を説明できるということであれば、2次元のグラフに表現できるということになります。
主成分分析が意味を持たないケース
変数を主成分に縮約できるということは、いずれかの変数間に相関があるということです。元のデータにの各変数に相関がなければ、主成分分析を行ったとしても、固有値と寄与率は低い値となり、多次元を低次元に縮約することに意味がないということになります。
主成分の解釈
元の変数はアンケート調査の選択肢などのように名前があり、変数に対応するデータがどのような意味を持つのかは明確です。元の変数から合成した主成分は数値としてアウトプットされるだけなので、合成された主成分がどういう意味を持っているのかは主成分係数を見て解釈する必要があります。
主成分を解釈した結果は、冒頭に挙げた例の「飲みごたえ」や「爽快感」など、元の変数よりも抽象的な言葉であらわされることになります。
また、各主成分はそれぞれ相関しない軸によって算出されたものであることから、各主成分の意味づけは異なる概念となるのが自然です。
まとめ
主成分分析はマーケティング分野のほか、調査・研究や機械学習などにも応用される多変量解析の手法です。
アンケートの集計においても、イメージやブランドなどの多数の選択肢間の関連性や意味づけが見えてこない場合に、主成分分析を行ってみることでデータが持つ本質的な意味を解釈できる場合があります。
質問数と選択肢の多いアンケート調査では、変数を少なくした上で他の分析にかけるといった活用方法も考えられます。