ロジスティック回帰分析とは|簡単解説

ロジスティック回帰分析の意味とは

ロジスティック回帰分析のカンタン語句解説

ロジスティック回帰分析は、ある事象の発生確率を予測するための多変量解析の手法です。商品が購入されるかどうか、サブスクリプションサービスの顧客の離脱の可能性など、マーケティング分野で活用されるほか、医療分野、製造業などでも使われることの多い分析手法です。

ロジスティック回帰分析とは

ロジスティック回帰分析は多変量解析の一手法です。回帰分析が量的変数から線形の予測モデルを導出するのに対し、ロジスティック回帰分析は非線形の予測モデルから、目的変数が質的変数である場合の確率を求めます。

ロジスティック回帰分析では質的変数が2値の場合(二項ロジスティック回帰)、3値以上の場合(多項ロジスティック回帰)、順序尺度である場合(序数ロジスティック回帰)を目的変数とします。一般的には、ある事象が起こるか/起こらないかという2値の場合の予測を行います。

回帰分析との違い

例えば、web広告は、出稿金額を増やして広告露出を増やせばコンバージョン数の増加が見込めます。回帰分析を行うことで、広告出稿金額の増加に対してどの程度のコンバージョン数を獲得できるかという対費用効果を分析できます。

回帰分析とは|簡単解説

回帰分析の詳細説明 回帰分析では、求めたい変数を「目的変数(y)」、予測に使う側の変数を「説明変数(x)」と呼び、説明変数によって目的変数がどう変化するのかを「y=…

一定期間当たりの出稿金額を変えた場合のコンバージョン数のデータを取り、出稿金額を説明変数(x)、コンバージョン数を目的変数(y)とすると、下図左のような散布図を描くことができます。

回帰分析では、説明変数(x)が増加すれば目的変数(y)も増加するという量的変数に対し、説明変数(x)と目的変数(y)の関係を、y=ax+b という一次式に近似させることで、予測モデルを作成します。

線形回帰分析とロジスティック回帰分析の図解

ロジスティック回帰分析の考え方

ロジスティック回帰分析で目的変数(y)とするのは、ある事象が起きるか/起きないかという2値の場合です。

例えば、耐久消費財のなかでも高額なハイエンドの商品は、年収が高い人ほど購入する可能性が高いと考えられます。

アンケート調査で、年収とハイエンド商品の所有の有無について聞いた場合に、説明変数(x:年収)と目的変数(y: 「所有している:1」・「所有していない:0」)の関係は上図右のような散布図に描かれます

ロジスティック関数(シグモイド関数)

この時、年収 x1の場合の、所有の有無 y1が「所有している:1」である確率pは、ロジスティック関数(シグモイド関数)であらわされます。

【ロジスティック関数(シグモイド関数)】
f(y)=11+e-y

オッズ

ある事象Aが起こる確率をpとすると、事象Aが起こらない確率は1ーpとなります。ここで、事象Aが起こる確率の事象Aが起こらない確率に対する割合をオッズといい、オッズは以下の式であらわします。

【オッズ】
オッズ:事象Aが起こる確率事象Aが起こらない確率=p1ーp

ロジット変換

ある事象Aが起こる確率をロジスティック関数から、p=11+e-y 、事象Aが起こらない確率を1ーp=1ー11+e-y=e-y1+e-yとして、オッズを求めると以下のようになります。

事象Aが起こる確率事象Aが起こらない確率=p1ーp=11+e-y1ー11+e-y=11+e-ye-y1+e-y=ey

これをyについて求めると、y=logp1ーp となり、発生確率pを対数オッズに変換することをロジット変換といいます。

ロジット変換を行うことで線形回帰分析と同様な予測モデルを構築することができます。

この時の、y=ax+bの aは回帰係数と呼ばれ、aを求めることでxの増分に対してyがどれだけ増加するかという分析を行うことが可能になります。

線形回帰分析では回帰係数を最小二乗法を使って求めますが、ロジスティック回帰分析では最尤法を使って求めます。

最小二乗法とは|簡単解説

最小二乗法とは 最小二乗法を「取得したデータを関数を用いて近似させる方法」と述べましたが、データの関係性を関数であらわすことができれば、データの誤差を除いたりデ…

オッズ比

説明変数の値が1単位増加した時に、発生する確率がどれだけ増加するかをあらわすのがオッズ比です。

オッズは事象Aが起こる確率事象Aが起こらない確率=p1ーpなので、オッズが1より大きければ事象Aが起こりやすく、1より小さければ事象Aが起こりにくいことを示しています。

年収とハイエンド商品の所有の有無で、年収が1,000万円以上のハイエンド商品を所有している確率が70%であるとすると、オッズは0.7/1-0.7=2.33です。

年収1,000万円未満のハイエンド商品を所有している確率が20%であった場合、オッズは0.2/1-0.2=0.25です。

この場合、年収1,000万円以上と年収1,000未満のオッズ比は2.33/0.25=9.32となります。仮に、住宅の所有の有無を説明変数とし、住宅の所有の有無のオッズ比が9.32より大きかった場合には、住宅の有無のほうがハイエンド商品を購入する確率に大きく関係していると推測できます。

ロジスティック回帰分析でわかること

ロジスティック回帰分析を使うことで、以下の分析を行うことができます。

  • 2値(1 or 0)の目的変数に分かれる理由を上手く説明できるか
  • 目的変数を予測する上でどの説明変数が重要なのか
  • 説明変数の差分に対して目的変数はどれだけ変化するか
  • 説明変数は目的変数の変化に対し有意といえるかどうか

ロジスティック回帰分析を行うためのツール

ロジスティック回帰分析は、エクセルでもソルバーを使うことで計算することはできますが、対数やべき乗の関数を使ったり、ソルバーの指定が煩雑だったりするため、実務で使うにはあまり現実的ではありません。

ほとんどは、SPSSやR、SASといった統計ソフトの機能を使うことが一般的です。また、機械学習分野ではPythonのライブラリが用いられます。

まとめ

ロジスティック回帰分析は、ある事象が起こるか/起こらないかという二択の確率を扱うことから、さまざまな分野でも用いられる汎用性の高い分析手法です。マーケティング分野では顧客の行動予測やマーケティング施策の効果測定、顧客セグメンテーションなどに活用できます。

アンケート調査の結果を分析し解釈する際、立てた仮説をロジスティック回帰分析によって検証するといった作業がよく行われます。

分析対象となるデータを収集する際に役立つのが、クロス・マーケティングのセルフ型アンケートツールQiQUMOです。データ収集の手段としてQiQUMOをご活用ください。