相関分析とは|簡単解説
相関分析のカンタン語句解説
相関分析は2つの変数の関係性を調べるために使われる統計手法です。一方の変数の変化にともない、もう一方の変数もある程度の規則性を持って変化することを相関といい、相関係数や散布図を使って検証することを相関分析といいます。
相関分析の概要
相関分析は2つの変数間の関係性について分析します。
2種類のデータが線形的に変化する傾向が見られるときに、一方が増加してもう一方も増加する場合を正の相関、一方の増加に対してもう一方が減少する場合を負の相関があるといいます。関係性の強さは相関係数で表されます。
※多数のデータをグループ分けするための統計解析の手法である「クラスター分析」についての解説はこちらから。
相関とは
夏場の気温とビールの売上は、一方が高ければもう一方も高くなるという傾向が見られます。このような気温と売上という2つの変数に関係性が存在することを相関といいます。
相関は、一方が増加すればもう一方も増加する「正の相関」、一方が増加すればもう一方は減少する「負の相関」、2つの変数間に関係性が見られない無相関に分けられます。
正の相関 : 一方の変数(x)が増加すれば、もう一方の変数(y)も増加する場合 負の相関 : 一方の変数(x)が増加すれば、もう一方の変数(y)も減少する場合 |
また、一方の変化に対するもう一方の変化のバラツキの度合いが相関の強さであり、バラツキが小さい場合を「相関が強い」、大きい場合を「相関が弱い」と表現します。
相関が強い : 一方の変数(x)が増加に対するもう一方の変数(y)のバラツキが小さい 相関が弱い : 一方の変数(x)が増加に対するもう一方の変数(y)のバラツキが大きい |
因果関係との違い
相関関係と混同されがちなのが因果関係です。相関関係は2つの変数に関係性が存在すれば成立します。
それに対し、因果関係は変数の一方を「原因」、もう一方の変数をその「結果」として解釈できる場合に限られます。因果関係は相関関係に含まれる概念です。
気温とビールの売上の関係を例に挙げると、「気温」と「売上」は相関関係にありますが、「売上」が「気温」に対して因果関係を持つといえるのに対し、「気温」は「売上」に対して因果関係を持つとはいえません。
なぜなら、「気温」が上がるからビールの「売上」が増えるのであり、ビールの「売上」が増えるから「気温」が上がるわけではないからです。
疑似相関
見かけ上では相関関係があっても因果関係が認められない場合を疑似相関といいます。
ビールの売上と気温を相関関係の例として挙げましたが、水難事故の件数も気温と相関関係があります。
ビールの売上と水難事故の件数を変数として取り上げた場合、どちらも気温が高くなるにつれて増加することから、見かけ上は相関関係があることになります。
しかし、両者と因果関係を持つのは気温であり、ビールの売上と水難事故の件数を関連づけることは、それぞれに因果関係を持つ気温という因子を見落としていることになります。
疑似相関を作り出してしまう要因として、2つの変数以外の因子を見落としている場合以外に、抽出しているデータが一部分である場合や因果関係が逆の場合が挙げられます。
相関の測り方
変数のデータから相関関係の強さを算出することができます。相関関係の強さを示す指標を相関係数といいます。相関を確かめるには、相関係数を算出する方法と散布図を描いてデータの関係を視覚化する方法があります。
相関係数を算出する
相関係数は以下の式から求めることができます。
相関係数( r ) = 変数(x)と変数(y)の共分散変数(x)の標準偏差 ✕ 変数(y)の標準偏差 |
エクセルを使う場合はCORREL関数、または、PEARSON関数を用います。相関係数はピアソン積率相関係数のことであり、CORREL関数とPEARSON関数のエクセルの設定と動作は同じです。
以下は、高校生10人の「国語」「英語」「数学」「物理」「化学」の点数のデータをもとに、エクセルで相関係数を求めた例です。
①関数 fx から②「CORREL」を選択します。
③配列1に数学以下のセル、④配列2に物理以下のセルを指定します。
⑤相関係数 0.9808が求められます。
エクセルの分析ツールの「データ分析」を使うと複数の変数の相関係数を一覧できます。
データタブに「データ分析」がない場合は、オプションのアドインから「分析ツール」を追加します。
①データ分析から②「相関」を選択します。
③入力範囲のセルを指定します。
出力先に「新規ワークシート」を指定した場合は、新しいワークシートに各変数の組み合わせごとの相関係数の一覧が表示されます。
相関係数はー1から+1の間を取り、1に近ければ正の相関が強いこと、ー1に近ければ負の相関が強いことを表します。0に近い場合は相関がないということです。
この例では「数学」と「物理」の点数の相関が最も高く、「国語」と「数学」「物理」「化学」、「英語」と「物理」「化学」は負の相関を示しています。「英語」と「国語」、「数学」と「英語」には相関関係がないと判断できます。
散布図により可視化する
各科目の相関を散布図を使って表示すると各科目間の相関の強さを可視化することができます。
最も相関係数が大きいのは「数学」と「物理」の0.981です。散布図に表すと左側の図となり、プロットされた点は右上がりのバラツキの小さいグラフを描きます。
中央は相関係数ー0.882と負の相関を持つ「国語」と「数学」の散布図で右下がりにプロットされます。
右側の図が「国語」と「英語」の点数をプロットした散布図であり、0.157という相関係数が示すとおり、相関関係はないと考えることができます。
相関分析の活用
相関分析は2つの変数についてその関係性の有無を判別することが目的であり、相関係数と散布図を見ることで関連しそうなデータを特定することができます。
マーケティングに用いられる例として、商品名の検索数とSNSの書き込み件数の売上との相関関係を比較してマーケティング施策を絞り込む、購買に関連性が見られる商品を組み合わせてリコメンドするなど、さまざまな活用方法が考えられます。
また、相関分析により関連する変数を特定したうえで、回帰分析を行い販売予測を行う、共分散構造分析によって変数間の因果関係の強さを明らかにするなど、発展的に応用できるのが相関分析です。
相関分析の注意点
相関分析を行う際には以下の点を認識しておくことが重要です。
因果関係はわからない
前述したとおり、相関係数や散布図でわかるのは2つの変数に関連があるかどうかのみであり、因果関係はわかりません。
擬似相関に注意しないと、誤った変数を関連付けてしまう可能性があります。相関分析で仮説を立てることができますが、因果関係を説明するには検証が必要です、
非線形相関については当てはまらない
相関係数(ピアソンの積率相関係数)は一次式(y = ax+b)で表される線形的な相関についての指標として用いられます。
相関には非線形な相関もあり、相関係数は同じでも散布図を描いてみると、プロットされる点が一次式の近傍に散らばらないこともあるため、相関係数と散布図を用いて相関関係を見ることが重要です。
外れ値に影響される
相関係数は外れ値があると大きく変動するため、散布図でデータの分布を確認することの重要性が強調されます。
実用性の高い相関分析
相関分析は2つの変数のみに着目する分析手法であり、2種類のデータの関係性の強さを相関係数で客観的に評価することができます。
一方が増えればもう一方も増えるという現象を直感的に把握することができるため、さまざまな事象に応用できるという点で実用性の高い分析手法といえます。
その一方、擬似相関によって関連性のないものを結びつけてしまう危険性もあることから、因果関係に注意して慎重に分析することが必要です。