データから因果関係を明らかにする統計的因果推論とは?

データから因果関係を明らかにする統計的因果推論とは?

ダイエットや健康について発信されている広告は、ほとんどが食品や運動による劇的な改善効果が謳われています。それらのすべてに信憑性がないとはいえませんが、改善した結果がほんとうに食品や運動を原因とするものかどうかについては疑ってみることも必要があるかもしれません。

得られた結果に対する原因を特定したいというニーズは、個人の生活にとどまらず、ビジネスの意思決定や政策の立案など幅広い分野に存在します。

そのニーズに対して近年注目されているのが因果推論という統計を使って因果関係を明らかにする手法です。さまざまな分野での活用が広まっている因果推論について解説します。

因果推論とは

Aという原因のもとにBという結果が起こったと仮定するときに、起こったことBはほんとうにAという原因の結果と考えていいかどうかを統計学的に確かめることが因果推論です。

因果関係を明らかにするための自然実験という方法を確立したアメリカの経済学者3名に2021年ノーベル経済学賞が送られたことで、近年注目が集まっている研究分野であり、既に政策決定やビジネスの世界の課題解決と意思決定を支援するツールとして取り入れられています。

自然実験は、原因と結果という因果関係において、原因に当たる被験者への介入を人為的にコントロール(統制)できるランダム化比較試験(RCT)とは異なり、事後的に観察されたデータを用いて検証の目的とする原因の介入効果だけを抽出する統計学的手法です。

以前から医療や経済学で利用されてきたRCTに加えて、機械学習やAI技術による因果推論の新たな手法が開発されるにしたがって、GAFAMなどの大企業を中心に因果推論のアルゴリズムを使ったサービスの提供が既に行われています。

ランダム化比較試験(RCT)

因果関係を解き明かす手法として医療や心理学の分野で従来から用いられてきたのがランダム化比較試験(RCT)という分析手法です。RCTは無作為化比較試験とも呼ばれ、ビジネス分野ではA/BテストがRCTと同じ考え方で行われます。

薬の効果を評価するために、無作為に選んだ被験者を評価の対象となる薬を投与する実験群と偽薬を投与する対照群(統制群)の2つのグループに分け、2つのグループの治療効果を比較することで薬が効くかどうかを確かめるという実験のデザインがRCTの典型的な例です。

評価対象である薬を投与することが原因であり、治療効果があったかどうかが結果です。実験群と対照群の治療効果に有意な差が認められれば、薬を投与するという原因と治療効果という結果に因果関係があることが証明されます。

以下の点をコントロールできることが客観的な因果効果の評価手法として信頼性が高いとされている理由です。

①実験群と対照群の被験者を無作為に選ぶ

②評価する薬と偽薬が被験者にも医者にもわからない二重盲検法で薬が投与される

因果関係の検証を阻む要因

因果関係を見極めることが難しさは、さまざまな効果検証の取り組みにおいて、観測された結果の原因となる要素を正確に特定する方法の難しさでもあります。

因果関係の立証を難しくする要因としては以下のようなものが挙げられます。

交絡因子

交絡因子は、原因と結果の関係において、結果に影響を及ぼす他の原因のことです。交絡は見せかけの因果効果ともいわれ、因果関係を検証する過程において検証の目的とする原因以外に結果に影響を与える他の要因のことを指します。交絡因子は原因と関係があり、結果に影響を与える第3の要因です。

例えば、飲酒量とがんの発生率という一組の原因と結果について、両者に関連性があるというデータが得られたとします。他の生活習慣や生活環境などがんの発生に影響する要素が取り除かれている条件下で検証されたデータかどうかが問題となります。

日常生活でのストレスの度合いや他の生活環境が飲酒量に影響を与えていた場合に、がんの発生率という結果に対する交絡を見逃していることになります。

交絡は医療分野に関わらずビジネス領域や日常生活のなかのあらゆる場面で目にすることができます。

あるマーケティング施策の実施にともなって業績のKPIが向上したとして、それが純粋にマーケティング施策のみの効果といえるかどうか、交絡因子の存在がなかったかどうかを検証することが必要です。

健康改善効果を訴求するサプリメントや健康食品の広告は、ほんとうに商品の効果だけで健康改善がみられた結果かどうか判然としないものがほとんどです。

標本選択バイアス

結果に影響を与える他の因子を取り除くという点で、実験・検証の対象とする被験者が完全に無作為に選ばれているかどうかが重要になります。選択バイアスは標本調査につきまとうバイアスであり、排除することが難しいバイアスです。

Web広告を出稿して広告接触者と非接触者の広告効果を検証する場合、インターネット利用時間が長いユーザーほど広告接触率は高くなります。インターネット利用時間の長いユーザーほど購買行動もネットを利用する傾向が高いため、広告効果が高くなるというバイアスが生じます。

この場合、インターネットの利用時間が交絡因子であり、広告接触者と非接触者という標本選択によって広告効果にバイアスが生じることになります。

因果関係を正しく評価する場合には、検証のために使う変数を絞り込んでいくリサーチデザインが最も重要であり、その際のデータの質と量を吟味することが因果推論の根幹でもあります。

因果推論の方法

統計的因果推論は、ランダム化比較試験(RCT)を行うことができない場合に、集団から観測されたデータを使ってどのように推定するかという方法を提供するものです。主要な流れとしてはドナルド・ルービン氏の潜在反応モデルとジューディア・パール氏の構造的因果モデルが知られています。

反事実モデル(反実仮想モデル)

反事実モデルという考え方は、観測できたものを事実、観測できないものを反事実とし、両者を比較することで因果関係を推定します。

薬を飲んで病気が治ったという事実が観測された場合、薬を飲まなかった場合と比較すれば、薬は治療効果に因果関係があると判断することができます。この場合、薬を飲んだ場合に病気が治った確率と飲まなかった場合の確率の差分が因果効果の定義となります。

しかし、1人の個人で事実と反事実を検証することは不可能であり、個人レベル(個体レベル)で因果関係を検証することはできません。このことを因果推論の根本問題といいます。

個体レベルで因果の検証ができないため、因果推論では集団を対象とすることで因果関係を調べます。

集団レベルでの因果関係を数式で表現するためのフレームワークとして潜在反応モデルと構造的因果モデルがあります。

潜在反応モデル

潜在反応モデルは、観測できた事実と観測できない反事実それぞれについての結果を異なる潜在反応(ポテンシャルアウトカム)とし、集団を対象とした介入効果を確率を用いてあらわす方法です。

観測できない変数を推定するという点から欠損データの解析の枠組みとされています。

構造的因果モデル(SCM)

構造的因果モデルは、因果グラフ(DAG:Directed Acyclic Graph)という因果関係を矢印であらわす図を用いることに特徴があります。因果関係を関数を使って記述できるという考え方が基本となっています。

交絡を生む変数をバックドア基準を満たす変数と定義し、do計算法を用いた調整可公式を作成します。

因果推論で使われる統計手法

因果推論で扱われる統計的技法には傾向スコアや操作変数法、層別化、差分の差分法、回帰不連続デザインなどの統計手法が使われます。

傾向スコア

効果検証の対象とする被験者の集団に偏りがある場合に、集団内の個々の被験者ごとに重み付けの調整を行い、ランダム化比較試験(RCT)と同様な条件を作り出して因果関係を検証しようとする方法であり、その際の比較をするための基準値を与えるのが傾向スコアです。

【傾向スコアを用いた重み付けのイメージ】

Web広告の効果検証の例に当てはめると、交絡要因となる広告接触者と非接触者のインターネット利用時間に着目し、インターネット利用時間別の広告接触者に対する非接触者の構成比の逆数を係数として非接触者に重み付けをすることで、広告接触者と非接触者の属性条件を等しくして比較することが可能になります。

傾向スコアによる重み付けを用いた比較をIPW(Inverse Probability Weighting)といいます。

傾向スコアを用いたマッチングのイメージ

広告接触者と非接触者のインターネット利用時間が同じ人同士を比較するのが傾向スコアを用いたマッチングです。実験群の対照群から属性条件が同じか、または近い人どうしを組み合わせているため、この方法でもRCTと同様に同じ条件を作り出して比較することが可能になります。

差分の差分法

時系列での変化に着目し、因果効果を推定するのが差分の差分法(DID:Difference in Difference)です。

差分の差分法のイメージ

広告接触者の広告出稿前(事前)と広告出稿後(事後)の変化のすべて①を広告による効果と見なすのではなく、広告非接触者の広告出稿前後での変化分②を差し引いて広告の因果効果③であるとするものです。

差分の差分法が成立するためには、広告接触者と広告非接触者の時系列変化が同じである(平行トレンド仮定)という条件が必要です。また、推定された効果は実験群における平均介入効果(ATT:Average Treatment effect on the Treated)という指標になります。

まとめ

因果推論のさまざまな手法は、医学や心理学、経済学などの学術分野のほか、金融、保険、製造、農業、気象予測といった産業分野で既に導入が進んでいます。機械学習の分野に因果推論のフレームワークが取り入れられたことが適用領域の拡大に大きな貢献をもたらしています。

マーケティング領域でも施策効果の検証をはじめとして、消費行動の理解や顧客ロイヤルティの向上策検討などに活用されはじめています。

マーケティングリサーチとは|基礎から応用まで徹底解説

マーケティングリサーチの意味、目的、条件、方法、必要なことなどを詳細解説。マーケティングリサーチの必須情報が詰まっています。

実務に取り入れるためには統計の知識が必要となりますが、今後さらに広がりを見せていく分野でもあるため考え方を知っておくことが重要です。