標本(サンプル)とは|簡単解説
標本(サンプル)のカンタン語句解説
統計における標本(サンプル)とは、母集団から抽出した一部のデータを指します。母集団から標本を抽出することを、「標本抽出」または「サンプリング」と言います。
標本(サンプル)の概要
標本(サンプル)は、調査対象から取り出された一部のデータです。標本抽出(サンプリング)は、おもに母集団全体の調査が難しい場合に行われます。
たとえば、ある市の人口を調査する場合、全市民を調査することはコストや時間がかかるため困難です。そのため、ある程度の標本を取り出し、その結果から全市民の人口動態を推測します。
標本抽出(サンプリング)との違い
標本は、母集団か抽出された一部のデータの集合体であり、母集団を推測するための情報源として利用されます。
一方で標本抽出とは、母集団から標本を抽出することです。つまり、標本抽出は標本を取得する手順であり、標本は標本抽出の結果得られるものです。
母集団との関係性
母集団とは、調査の対象となるすべての集合体です。母集団から抽出された標本は、母集団を適切に表すための大切な要素となります。標本が母集団を正確に表現するためには、適切なサンプリング手法を用いることが大切です。
サンプル数とサンプルサイズの違い
サンプル数はサンプルの抽出を実施した回数で、サンプルサイズは1回のサンプル抽出での観測データの個数です。
たとえば、母集団から一度に100個のデータを取り出す場合、サンプル数は1で、サンプルサイズは100です。100個のデータを5回繰り返して取り出した場合、サンプル数は5となります。
サンプリングを実施する際は、サンプル数およびサンプルサイズが必要です。
サンプル数とサンプルサイズの違いを図解
- 母集団
- 調査する対象を含む全体の集団のこと。
図解では両手を挙げている子供の全体=「帽子をかぶっていない子供の赤・青・白」と「帽子をかぶっている子供の赤・青・白」の16名。通常は大文字のNで表現する。母集団=母数ではないことに注意が必要。
- 抽出
- 母集団の中から、調査対象のみを選び出すこと
- サンプル
- 母集団の中から抽出した調査を実施する集合体=標本のこと。
図解では右側上の「帽子をかぶっていない赤い子供の集合体=標本1」と「帽子をかぶっている青い子供の集合体=標本2」が該当。サンプルの抽出を何回実施したか=サンプル数となる。図解の場合のサンプル数は、「帽子をかぶっていない赤い子供の集合体=標本1」と「帽子をかぶっている青い子供の集合体=標本2」の2回のため、サンプル数は2。
- サンプルサイズ
- 1回で抽出した標本(サンプル)の中に含まれるデータの個数のこと
図解では、「帽子をかぶっていない赤い子供の集合体=標本1」のサンプルサイズは5。「帽子をかぶっている青い子供の集合体=標本2」のサンプルサイズは4。通常は小文字のnで表現する。
標本(サンプル)のおもな抽出方法
標本の抽出方法には、複数の方法があります。ここでは、標本のおもな抽出方法を5つ紹介します。調査の目的や母集団の特性、利用可能なリソースなどに適した方法で抽出しましょう。
1.単純無作為サンプリング
単純無作為サンプリングは、バイアス(偏り)の影響を受けないランダムな抽出方法です。
母集団のすべての要素が等しい確率で選ばれるため、標本が母集団を代表するという特徴があります。
どのような場面にも利用できますが、サンプルサイズが小さい場合は調査の信頼性が低下する可能性があるため注意が必要です。
2.層別サンプリング
層別サンプリングは、母集団をいくつかのカテゴリーに分類し、各カテゴリーごとでサンプルをランダムに抽出する方法です。
母集団が多様な属性を持っている場合や、標本調査の目的に応じて異なる属性を持つグループのデータを取得する場合などに適しています。
たとえば、ある製品を購入した顧客の性別や年齢、地域などの属性に基づいて顧客のニーズや嗜好に関する情報を収集したい場合、各層からランダムにサンプルを抽出することで、製品の改善点や販売戦略の見直しを検討できます。
この方法を用いると、母集団全体からサンプルを抽出する方法に比べて、標本誤差を最小限に抑えることが可能です。
3.多段サンプリング
多段サンプリングは、単純無作為サンプリングを任意の回数繰り返す方法です。大規模な母集団からの標本抽出に適しています。
たとえば、国全体の人口を調査対象とする場合、まず都道府県ごとに標本を抽出し、さらに市区町村や地域ごとに標本を抽出します。
4.集落(クラスター)サンプリング
集落(クラスター)サンプリングは、母集団をいくつかの集落に分け、ランダムに抽出した部分をすべて調査する方法です。広い範囲に分布する集団を調査する場合に向いています。
たとえば、日本全国の中学生の身長を調査する場合、すべての中学校の生徒を一度に調査するのは現実的ではありません。
この場合、まずはランダムに選択された地域(都道府県、市区町村など)を「クラスター」として選び、そのクラスターから一定数の中学校を無作為に抽出して調査します。
5.系統(等間隔)サンプリング
系統(等間隔)サンプリングは、一定の間隔で配置された母集団から無作為にサンプルを抽出する方法です。
たとえば、ある市の人口を調査する場合、市全体の地図を用意して一定間隔ごとに目印をつけます。その目印に該当する住所の住民からデータを抽出する方法が、系統(等間隔)サンプリングです。
母集団が一定のパターンで並んでいる必要がありますが、データの偏りが少なく、調査コストが低く済む特徴があります。
まとめ
標本は母集団の一部分であり、標本から母集団を推測することができます。標本の抽出方法については、単純無作為サンプリングや層別サンプリング、多段サンプリングなどがあります。
なお、適切な抽出方法を選択したり正確な調査結果を得たりするためには、専門家のアドバイスを参考にするのがおすすめです。