推定とは|簡単解説
推定のカンタン語句解説
推定とは、標本として得られたデータから母集団の平均や比率、分散などの値を推測する統計的な手法です。推定には、1つの値を求める点推定と、値が含まれる範囲を求める区間推定があります。
推定とは
推定とは、調べたい集団(母集団)の特徴をあらわす数値(特性値:平均、分散、標準偏差など)を、集団から取り出した一部のデータ(標本)から推測する手法のことです。
標本のデータから母集団の特性値を推測するのが推定であるのに対し、母集団の特徴に関する仮説を立てて、標本のデータをもとに仮説が正しいかどうかを統計的に判定することを検定といいます。母集団の特性値を推測する統計学の分野を推測統計といい、推測統計は推定と検定という分野に分かれます。
推定には特性値を1つの数値であらわす点推定と数値の幅(間隔)であらわす区間推定があります。
母集団と標本
例えば、アンケート調査では、20~40代の女性など、特定の消費者層のニーズやライフスタイルを調べることを目的とします。しかし、すべての20~40代の女性にアンケートを取ることは現実的ではないため、条件に当てはまる一部の人を調査対象とします。
この時に、調べたい対象全員のことを母集団、アンケートの対象に選んだ20〜40代・女性のなかの一部の人を標本(サンプル)といいます。
また、母集団の個数をN、標本の個数をnとするとき、Nを対象に算出した統計量(平均や分散、標準偏差など)を母数、nを対象に算出した統計量を推定量、さらに、推定量の具体的な数値を推定値といいます。
Nを対象に算出した母数は一意の数値として存在しますが、母集団すべてを調べることはできないため直接知ることはできません。一方、推定量は標本から算出することができますが、選ぶ標本が異なれば算出される値も異なります。つまり、点推定には誤差が生じます。
点推定
点推定を行う場合、推定量は母数の真の値に近いほど望ましいわけですが、推定量は一致性と不偏性という性質を持つことが必要とされます。
標本平均は一致性と普遍性を持ちますが、標本分散は不偏性を持たないため不偏分散を用います。
一致性
一致性とは、標本サイズが大きくなるにつれて推定量が母数に近づくという性質であり、大数の法則から導き出されます。
不偏性
不偏性とは、推定量の期待値(平均)が母数と一致するということです。母集団がどのような分布であっても、標本サイズが大きくなれば標本平均の分布が正規分布に近づくという中心極限定理から導かれます。
母平均μ、母分散σ2の母集団の標本平均xは、平均μ、分散σ2nの正規分布に近づく ・標本平均の期待値(平均)は母平均に一致する ・母集団の分布に関係なく、標本平均の期待値(平均)は正規分布に従う |
不偏分散
標本平均は一致性と不偏性を持つ推定量です。標本分散は一致性を持ちますが、不偏性を持つ推定量ではありません。
標本分散の期待値(平均)は母分散のnー1n倍になることがわかっているため、標本分散に逆数nnー1をかけて標本分散が不偏性を持つように補正した推定量を不偏分散といいます。
標準誤差
点推定を行った結果にどの程度のバラつきがあるかは推定値の標準偏差を見ればわかります。標準誤差は標本平均の標準偏差のことを指します。サンプルサイズが大きいほど標準誤差は小さくなります。
区間推定
1つの値として母数を推定する点推定に対して、区間推定は、母数が含まれる範囲(間隔)と、その範囲に含まれる確率をあらわします。
母数が含まれるであろう範囲のことを信頼区間、母数が信頼区間のなかに入っている確率のことを信頼係数といいます。
一般的に信頼係数は95%が用いられます。信頼係数を95%とする場合、区間推定の意味は、「母数が95%の確率で信頼区間に含まれる」ということです。
信頼区間
標本平均を求める試行を数多く繰り返した場合、標本平均は正規分布に従います。区間推定はこの性質を利用しています。
下の図は正規分布に従う母平均μの確率密度関数です。曲線に囲まれた部分の面積が母集団の観測値が出現する確率をあらわしています。
母分散σがわかっている場合、母平均からのバラつき(標準偏差σ2n)の大きさによって母平均μに対する標本平均xiの取る確率を決めることができます、信頼係数を95%とする場合、標準正規分布表から片側2.5%点が1.96という値を得ることができるので、求めた標本平均の両側σ2n(標準偏差)×1.96分の区間が信頼区間となります。
標本平均xiの観測値はさまざまな値を取りますが、標本平均の観測値も正規分布に従います。信頼係数を95%として区間推定を行った場合、標本から母数を求める試行を100回行った場合、そのうちの95回は信頼区間のなかに母数が含まれている(推定が成功した)と考えてよいということです。
信頼係数による違い
上の例では信頼係数を95%として区間推定を行いましたが、信頼係数を95%より大きくすれば、信頼区間の幅が広くなり母平均が信頼区間に入る確率が高まります。反対に信頼係数を小さくすれば母平均が信頼区間に入る確率が低くなるということです。
これが何を意味するかというと、信頼係数を大きく取る場合、区間推定の信頼性は高まりますが、推定の精度は低くなるということです。反対に信頼係数を小さく取ると信頼性は低くなるものの、推定の精度は高まるということになります。
サンプルサイズによる違い
上に示した信頼区間の式を見ればわかるとおり、サンプルサイズによっても信頼区間の幅が変動します。サンプルサイズnが大きいほど信頼区間の幅は狭くなり、小さければ広くなり、区間推定の信頼性と精度は信頼係数を変えた場合と同様になります。
また、ここまでに例に挙げた母平均の区間推定では、母分散が分かっているときに母平均μが正規分布に従う場合についての区間推定を行いましたが、母分散が分かっていない場合、かつ、サンプルサイズnが小さい場合(概ね30以下)の場合は、t分布を使って区間推定を行います。
しかし、母集団がわかっていない場合でも、サンプルサイズnが十分大きければ(概ね数百以上)中心極限定理が成り立つとみなせるため正規分布を使うことができます。
まとめ
点推定はシンプルな推定の方法であり、さまざまな場面で用いられる推定方法です。それに対し、区間推定は推定値の信頼性と精度を担保していることを示すことができます。実務では、母集団の特性を鑑みた上で、点推定で事足りるのか、区間推定をする必要があるのかを判断する必要があります。
また、区間推定では信頼係数を95%とすることが一般的ではありますが、95%の意味を理解して、適切な信頼区間を設定することが重要です。