回帰分析とは|簡単解説
回帰分析のカンタン語句解説
回帰分析とは、まだ起こっていない未来の数値を予測するデータ分析手法です。回帰分析を活用すると売上予測や広告効果の予測、家賃予想などを行えます。なお、求めたい要素は「目的変数」、求めたい要素に影響を与える要素は「説明変数」と呼びます。
回帰分析の詳細説明
回帰分析では、求めたい変数を「目的変数(y)」、予測に使う側の変数を「説明変数(x)」と呼び、説明変数によって目的変数がどう変化するのかを「y=ax+b」の式を使用して表します。
たとえば、以下のようなデータがあったとします。広告にかけた費用を説明変数、集客数を目的変数として見ていきましょう。
広告にかけた費用(説明変数) | 集客数(目的変数) |
30万円 | 50人 |
40万円 | 45人 |
25万円 | 39人 |
60万円 | 70人 |
50万円 | 60人 |
45万円 | 46人 |
上記のデータをもとに点を打つと以下のようになります。
上記のグラフを見ると、広告費をかけるほど集客数が増えていることがわかりますね。また、上記の実測値の点から予測値の線を引くと以下のようになります。
このように、実測値の点から予測値の線を引く手法が回帰分析です。
直線で表せることから、回帰分析の式には「y=ax+b」が使用されます。
「a」と「b」は上記の直線を見ればわかるので、「35万円の広告費をかけたら集客数は50人前後」「55万円の広告費をかけたら集客数は65人前後」などと予測が立つわけです。
このように、回帰分析は未来の数値を予測できるデータ分析手法であるため、マーケティング戦略を練る際に役立ちます。
代表的な回帰分析
回帰分析は、「単回帰分析」と「重回帰分析」の2つに分類できます。両者の違いは「説明変数の数」です。
先ほどの例のように説明変数を「広告にかけた費用」と1つだけで用いることを、「単回帰分析」と言い、「広告にかけた費用」と「駅までの距離」「気温」などのように説明変数を複数用いる場合を「重回帰分析」と言います。
単回帰分析の式は「y=ax+b」ですが、重回帰分析は説明変数が多くなる分、「y=a1x1 +a2x2+a2x2+a3x3+…+b」と少々複雑になります。
Excelを用いたやり方
以下では、Excelで回帰分析を行う具体的なやり方を紹介します。
単回帰分析の場合
以下は「ホームズ世田谷区の賃貸」をもとに作成したデータです。このデータを使用してまずは単回帰分析を行ってみます。
面積(㎡) | 家賃・管理費(円) |
23.14 | 73,000 |
16.18 | 55,000 |
62.54 | 175,000 |
61.9 | 200,000 |
61.7 | 200,000 |
9.9 | 70,000 |
30.02 | 100,000 |
39.15 | 200,000 |
25.93 | 16,000 |
61.32 | 150,500 |
1.Excelに上記のデータを入力したらグラフ化したい範囲を選択し、「挿入」から散布図を選びます。
2.表をクリックし、「グラフデザイン」→「グラフ要素を追加」→「近似曲線」→「線形予測」をクリックすると以下のような直線を引けます。
3.y=ax+bの「a」と「b」を求めたい場合は直線をクリックし、右にタブが出てきたら「グラフに数式を表示する」をクリックします。
重回帰分析の場合
先ほどの家賃のデータに築年数を追加して、重回帰分析を行ってみましょう。
築年数(年) | 面積(㎡) | 家賃・管理費(円) |
50 | 23.14 | 73,000 |
38 | 16.18 | 55,000 |
6 | 62.54 | 175,000 |
5 | 61.9 | 200,000 |
2 | 61.7 | 200,000 |
34 | 9.9 | 70,000 |
2 | 30.02 | 100,000 |
2 | 39.15 | 200,000 |
2 | 25.93 | 16,000 |
7 | 61.32 | 150,500 |
1.Excelに上記のデータを入力したら「データ分析」→「回帰分析」をクリックします。
「入力Y範囲」には求めたい家賃・管理費の値を、「入力X範囲」には築年数と面積の値を選択して入力します。「ラベル」にもチェックを入れましょう。
2.新しいシートに以下のような結果が出たら完了です。
1番下の段にある係数の切片は、「y=a1x1 +a2x2+a2x2+a3x3+…+b」の「b」に該当する部分です。
上記の結果を式に当てはめると、「y=61.04102718×築年数+2773.42951×面積+14389.17147」のようになります。
重回帰分析について、クロス・マーケティングのページでも解説しています。
回帰分析を行うメリット
回帰分析を行うと、数値的根拠のある予測を立てられます。
データがない場合でも数式に当てはめることで予測を行えるため、精度の高いマーケティング戦略の構築が可能です。
また、散布図を用いるため、視覚的にわかりやすいというメリットもあります。
注意点
マーケティング戦略の構築に役立つ回帰分析ですが、活用する際にはいくつかの注意点があります。
説明変数の選び方に注意する
回帰分析では、説明変数の選び方に注意する必要があります。
特に、重回帰分析の場合は説明変数を複数用いますが、類似度の高いものを用いてしまうと「多重共線性」(マルチコ:multi-colinearlity マルチ コリニアリティ)が発生します。
多重共線性が発生すると予測モデルが安定せず、予測値が実測値と大きくかけ離れてしまうことがあるため注意しましょう。
たとえば、メートルとマイルで表した距離や摂氏と華氏で表した気温などを同じ予測モデルに組み込んでしまうと、正しい予測ができなくなってしまいます。
説明変数の数に注意する
重回帰分析を行う際は、説明変数の数にも注意しましょう。説明変数が多いからといって、正確な予測ができるとは限りません。
むしろ、説明変数を追加しすぎてしまうと、過学習によって予測値が実測値とかけ離れてしまうことがあります。
説明変数の数が適切であるかどうかは、「AIC」という手法を使うとわかります。AICは「データ数×log(1−寄与率)+2×(説明変数の数)」で求められ、AICが最小になるように説明変数の数を選びます。
語句解説のまとめ
回帰分析とは、まだ起こっていない未来の数値を予測するデータ分析手法です。売上予測や広告効果、家賃予想などができるため、マーケティング戦略に大きく役立ちます。
特に重回帰分析の場合は、多重共線性や説明変数の数に注意してデータの予測を行いましょう。