カイ二乗検定とは|簡単解説
カイ二乗検定のカンタン解説
カイ二乗検定はカテゴリカル・データの変数について、観測された度数と期待される度数の差から検定統計量を求める仮説検定の手法です。アンケートのクロス集計表で表頭・表側の変数に関連があるかどうかを調べる際に用います。
カイ二乗検定とは
仮説検定の手法のひとつであるカイ二乗検定には以下の特徴があります。また、カイ二乗検定は「適合度の検定」「独立性の検定」「母分散の検定」に用いられます。
仮説検定の手続きを取る
カイ二乗検定は仮説検定の一手法であり、帰無仮説と対立仮説を設定し、設定した有意水準から求められるp値を求めます。検定統計量として求めるカイ二乗値(χ²)を比較することで、とり得る仮説を主張します。
カテゴリカルデータを対象とする
カイ二乗検定は、質的変数(カテゴリカル・データ)の度数を検定の対象とします。
カイ二乗分布による検定
カイ二乗分布は標準正規分布からランダムにデータ一定数取得して2乗和を計算した時に描かれる確率分布です。検定の対象となる変数から自由度を求め、自由度に応じた確率分布を基準として検定を行います。
適合度検定
適合度の検定は観測された度数分布が、期待される確率分布から計算される度数分布に当てはまるかどうかを確かめることです。
次のような例が適合度の検定に当てはまります。
【例】
サイコロの1〜6までの各目の出る確率は1/6ですが、実際にサイコロを60回振って、1〜6までのそれぞれの目が出た回数が以下のように観測されたとします。
サイコロの目 | 1 | 2 | 3 | 4 | 5 | 6 | 合計 |
各出た目の回数 | 9 | 9 | 13 | 11 | 10 | 8 | 60 |
各目の出る確率が1/6となるようにサイコロが正確に作られていると考えていいかどうかを、理論的な確率分布をもとに判定するのが適合度検定に当たります。
適合度検定は以下の手順で行います。
①帰無仮説と対立仮説を設定する
この場合の帰無仮説と対立仮説は次のようになります。
帰無仮説:
得られた観測結果は偶然(想定される確率分布に従う)対立仮説:得られた観測結果は偶然ではない(想定される確率分布とは異なる)
②期待度数を求める
正確に作られたサイコロの各目の出る確率は1/6です。これを理論的な確率とすると、60回試行した場合の各目の出る回数は10回づつであると考えられます。理論的な確率から計算される試行の結果が期待度数です。
適合度検定は観測度数と期待度数の差が確率分布の範囲内で偶然生じたものか、理論的な確率が当てはまらない何らかの理由があるのかを確かめるということです。
サイコロの目 | 1 | 2 | 3 | 4 | 5 | 6 | 合計 |
---|---|---|---|---|---|---|---|
観測度数(fi) | 9 | 9 | 13 | 11 | 10 | 8 | 60 |
理論的な確率(pi) | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1 |
期待度数(npi) | 10 | 10 | 10 | 10 | 10 | 10 | 60 |
③カイ二乗値(検定統計量)を求める
カイ二乗値(χ²)は観測度数と期待度数の差の2乗を期待度数で割ったものを合計して求めます。
サイコロの例でカイ二乗値(χ²)を計算すると以下のようになります。
χ²= (9-10)²10+(9-10)²10+(13-10)²10+(11-10)²10+(10-10)²10+(8-10)²10=1.1
この場合の自由度は、サイコロの目の数(カテゴリーの数)kから1を引いたものであり、自由度= 6 ー 1=5となります。
²(カイ二乗値) =i=1k(fi-npi)²npi 自由度=kー1
④カイ二乗分布表から棄却域を決める
カイ二乗値分布表を参照し、設定する有意水準と自由度(k-1)からp値を求めます。
【カイ二乗分布表】
自由度 | α:有意水準 | |||||||
v | 0.99 | 0.975 | 0.95 | 0.90 | 0.10 | 0.05 | 0.025 | 0.01 |
1 | 0.00016 | 0.00098 | 0.0039 | 0.016 | 2.71 | 3.84 | 5.02 | 6.63 |
2 | 0.02 | 0.051 | 0.10 | 0.21 | 4.61 | 5.99 | 7.38 | 9.21 |
3 | 0.11 | 0.22 | 0.35 | 0.58 | 6.25 | 7.81 | 9.35 | 11.34 |
4 | 0.30 | 0.48 | 0.71 | 1.06 | 7.78 | 9.49 | 11.14 | 13.28 |
5 | 0.55 | 0.83 | 1.15 | 1.61 | 9.24 | 11.07 | 12.83 | 15.09 |
有意水準を0.05と設定する場合、自由度5のp値は11.07です。
有意水準0.05の場合のp値11.07は、自由度5の場合に想定されるカイ二乗分布のなかで5%(0.05)しか起こり得ない稀な事象となる境界の値を示しています。
観測度数と理論的な確率から求めたカイ二乗値(χ²)は1.1なので、χ²=1.1<p値=11.07となり、設定した帰無仮説である「得られた観測結果は偶然(想定される確率分布に従う)」は受容され、サイコロは正確に作られているという結論が得られます。
独立性の検定
独立性の検定は2つの事象が独立であるかどうかを統計的に確かめることです。クロス集計表(分割表)で表される2つの変数を持つデータについて、2つの変数に関連がなければ独立であり、関連があれば独立ではないと結論づけられます。
次のような例が独立性の検定に当てはまります。
【例】
ワクチンの効果を調べるため、予防接種実施の有無とインフルエンザの罹患状況について600人を対象に調査を行い、以下の結果が得られたとします。
インフル罹患 | インフル感染せず | 合計 | |
---|---|---|---|
予防接種あり | 70 | 80 | 150 |
予防接種なし | 330 | 120 | 450 |
合計 | 400 | 200 | 600 |
この時、予防接種を受けたかどうかとインフルに罹ったかどうかが独立した事象であれば、予防接種はインフルに効果がないことになりますし、独立でなければ予防接種はインフル予防に効果があることになります。
独立性の検定は以下の手順で行います。
①帰無仮説と対立仮説を設定する
この場合の帰無仮説と対立仮説は次のようになります。
帰無仮説:
2つの変数は独立(予防接種の有無とインフル罹患に関連がない)対立仮説:2つの変数は独立ではない(予防接種はインル罹患に効果がある)
②期待度数を求める
帰無仮説が成り立つとした場合の理論的な確率にもとづく期待度数は、予防接種の有無に関わらず、調査対象全体に対するインフル罹患の割合と変わらないということになります。
インフル罹患(m1) | インフル感染せず(m2) | 合計 | |
---|---|---|---|
予防接種あり(n1) | 400×150600=100 | 200×150600=50 | 150 |
予防接種なし(n2) | 400×450600=300 | 200×450600=150 | 450 |
合計 | 400 | 200 | 600 |
③カイ二乗値(検定統計量)を求める
独立性検定の場合のカイ二乗値は、2×2のセルそれぞれについての観測度数と期待度数の差の2乗を期待度数で割った値の総和で求めます。
χ²=(70-100)²100+(80ー50)²50+(330ー300)²300+(120ー150)²150=36
独立性検定の場合の自由度は(mー1)×(nー1)で求められます。この場合の自由度は(2-1)×(2-1)=1となります。
²(カイ二乗値) =(観測度数-期待度数)²期待度数 自由度=(mー1)(nー1)
④カイ二乗分布表から棄却域を決める
カイ二乗分布表を参照し、設定する有意水準と自由度(m-1)×(nー1)からp値を求めます。
自由度 | α:有意水準 | |||||||
v | 0.99 | 0.975 | 0.95 | 0.90 | 0.10 | 0.05 | 0.025 | 0.01 |
1 | 0.00016 | 0.00098 | 0.0039 | 0.016 | 2.71 | 3.84 | 5.02 | 6.63 |
2 | 0.02 | 0.051 | 0.10 | 0.21 | 4.61 | 5.99 | 7.38 | 9.21 |
3 | 0.11 | 0.22 | 0.35 | 0.58 | 6.25 | 7.81 | 9.35 | 11.34 |
4 | 0.30 | 0.48 | 0.71 | 1.06 | 7.78 | 9.49 | 11.14 | 13.28 |
5 | 0.55 | 0.83 | 1.15 | 1.61 | 9.24 | 11.07 | 12.83 | 15.09 |
有意水準を0.05と設定する場合、自由度1のp値は3.84です。
カイ二乗分布表を参照して得た、有意水準0.05とした場合のp値3.84は、自由度1の場合のカイ二乗分布のなかで5%(0.05)しか起こり得ない稀な事象との境界を示しています。
求めたカイ二乗値(χ²)は36なので、χ²=36 > p値=3.84となり、「予防接種の有無とインフル罹患に関連がない(2つの変数は独立)」とした帰無仮説は棄却され、予防接種はインフルに効果があるという結論が得られます。
まとめ
カイ二乗検定はマーケティング分野以外にも、医療機関や製造業をはじめとしてさまざまな分野で用いられる仮説検定の手法です。
カイ二乗分布のp値はエクセルの関数CHISQ.DISTで求めることができるため、実務にも取り入れやすい検定手法であるといえます。