サンプルを集めたら次にすることは?アンケート集計の手順とポイント
セルフ型アンケートツールを使うと集計結果から自動的にグラフが作成され、集めたサンプルデータを視覚的に確認できます。その時に見過ごされがちなのが、アンケートの設計どおりの回答が集まったのか、集計データ全体におかしいところがないかどうかをチェックすることです。
グラフを描いた段階でデータの欠損や矛盾を発見することもありますが、手順を踏んで集計を行うことが集計作業の効率化につながります。
セルフ型アンケートツールを使う場合のアンケートの集計手順について解説します。
集計の手順
セルフ型アンケートツールは単純集計の結果をグラフとして表示させる機能がついているものがほとんどです。
アンケートの目的が各選択肢の多い・少ないだけがわかればよいというものであれば、それで十分です。しかし、アンケート調査の信頼性を高め、データを加工してより高度な分析を行う場合にはローデータを取得できるものが適しています。
最初に取得するのはローデータ
ネットアンケート実施した場合、回答の結果はローデータとして記録されます。ローデータは、表頭に質問と選択肢のカテゴリ、表側に回答者のIDを取り、各セルに回答結果が記録されたデータテーブルとして出力されたものです。
大手調査会社が提供するセルフ型アンケートツールは、それぞれの会社が提供する集計ソフトにローデータを読み込ませてから集計を行うものがほとんどです。
データクリーニング
セルフ型アンケートツールは質問項目と選択肢を作成する段階で、必須回答や複数回答の個数の指定、条件付き質問の整合性などを設定することができます。また、ツールのプロバイダーによっては不正回答をアンケートの実施段階で取り除くことができるシステムの整備やモニターの定期的なメンテナンスを行っており、集めたアンケートデータの不備を少なくする取り組みが講じられています。
しかし、場合によっては、設計段階では防げない不正回答や無効回答が発生してしまう場合があります。
例えば、下図の上の赤い囲みは無回答の項目が多すぎる回答者、下の囲みはすべての選択肢で「2」を選んでいる回答者です。
大量のサンプルを扱う場合には、人の手で無効サンプルを見つけ出すことは容易ではありません。しかし、回答データの点検を行っておくことは集計の精度を高める上で必要な作業の1つとなります。
また、単純集計やクロス集計の結果から、異常値や整合性のない回答が見つかるケースもあります。集計ソフトにデータを読み込ませて集計する作業は何度でも繰り返せるので、ローデータを取得して加工できるようにしておく必要があります。
単純集計表の作成
ローデータのままではデータの全体像を理解することはできないため、次の段階として単純集計を行います。
単純集計は質問の選択肢ごとの選ばれた数と割合を算出したものです。単純集計はGT(Grand Total)表ともいわれます。
【単純集計のイメージ】
SQ1.あなたの性別をお知らせください。(単一回答)
値 | % | ||
全体 | 1,112 | 100 | |
1 | 男性 | 537 | 48.3 |
2 | 女性 | 575 | 51.7 |
SQ2 .あなたの年齢をお知らせください。(単一回答)
値 | % | ||
全体 | 1,112 | 100.0 | |
1 | 10代 | 207 | 18.6 |
2 | 20代 | 246 | 18.6 |
3 | 30代 | 233 | 21.0 |
4 | 40代 | 265 | 23.8 |
5 | 50代 | 161 | 14.5 |
SQ3.あなたの年収をお知らせください。(数値回答)
値 | ||
全体 | 1,112 | |
1 | 最小値 | 280 |
2 | 最大値 | 1,500 |
3 | 平均値 | 432.6 |
4 | 標準偏差 | 43.8 |
単純集計を出力した段階でグラフを出力してみて、集計結果に特徴的な傾向はないかどうかを確認します。ほとんどの集計ソフトでは単純集計の結果もグラフに出力できるため、グラフによって視覚的に確認することも合わせて行ったほうがよいでしょう。
数量データの場合
数量データの集計では平均や中央値、最頻値などの代表値を計算してデータを要約します。数量データをカテゴリカルデータに変換してヒストグラムを作成してみるとデータの分布状況を可視化することができます。
平均値は異常値によって大きく変動するため、ヒストグラムと合わせて代表値の妥当性を検証します。
グラフの出力
単純集計の段階で把握するのは、データ全体の大まかな分布状況です。各質問の選択肢ごとにどれくらいの回答数があったのかを視覚的に確認します。
単数回答の選択肢の場合は構成比を把握するために帯グラフや円グラフを使います。
複数回答の選択肢は棒グラフを使って表示させます。回答数の大きい順番に並べ替えると傾向を把握しやすくなります。
年代や年収など階級で表されるカテゴリーについては、順番があるためヒストグラムを使います。度数分布を見ることでデータ全体のバラつきを把握することができます。
クロス集計表の作成
男女別や年齢別などの属性別や特定の質問の選択肢ごとに他の質問とかけあわせて集計を行うのがクロス集計です。アンケートの企画・設計段階で想定した仮説や、単純集計の結果に見られるデータの特徴を踏まえて、分析者がどの質問項目をかけあわせるか決めていきます。
上の図は4段階評価の質問を男女別に集計した結果です。
また、下の図の赤枠の部分は表頭のQ4_1の選択肢の回答結果を男女別×年代別の3重クロスで集計したものです。
集計ソフトの設定によって集計の軸とかけあわせる質問項目を決めてクロス集計表を出力することができます。
集計の軸(基準)には説明変数(原因)となる項目を設定しますが、国内では表側(横軸)に設定されることが多い一方で、海外では表頭(縦軸)に設定される傾向があります。
集計表の加工
クロス集計もグラフを出力して視覚化することにより直感的に理解することができます。その前の段階でクロス集計表に次のような加工を加えてみると、よりデータの見通しがよくなります。
セルの色付け
数値の多いセルに色をつけることで比較対象の傾向をわかりやすくすることができます。
例えば、自動車の車種についての評価を比較した以下のようなクロス集計表を作成するとします。
評価ポイント | 車種別 | ||
A車 | B車 | C車 | |
デザイン | 36 | 24 | 29 |
性能 | 30 | 20 | 18 |
燃費 | 15 | 33 | 39 |
室内の広さ | 21 | 38 | 28 |
維持費 | 20 | 26 | 36 |
環境への配慮 | 12 | 24 | 37 |
その他 | 12 | 21 | 9 |
車種ごとに数値の大きいセルの1位と2位に色をつけてみると、A車が評価されているのはデザインや性能でありスポーツタイプの車種として評価されていると考えられます。B車については室内の広さと燃費が評価されており、ファミリーカーとしての要素が評価されていると考えることができます。燃費と環境への配慮の数値が高いC車はエコカーとして位置づけられる車種であることがわかります。
項目の並べ替え
表頭となるカテゴリーが多い場合に、カテゴリーを並べ替えてみると回答傾向を見出すことにつながる場合があります。
以下はブランドAからJの10ブランドについて購入経験と年代をかけあわせたクロス集計表です。
A | B | C | D | E | F | G | H | I | J | |
20~39歳 | 23 | 10 | 9 | 16 | 15 | 11 | 8 | 11 | 5 | 21 |
40~59歳 | 11 | 19 | 11 | 7 | 21 | 14 | 17 | 19 | 10 | 15 |
60歳以上 | 6 | 14 | 17 | 3 | 24 | 21 | 8 | 8 | 15 | 8 |
各ブランドについて最も数値の大きいものに色付けしています。これを年代別に並べ替えたものが以下の表です。
A | J | D | H | B | G | E | F | C | I | |
全体 | 40 | 44 | 26 | 38 | 43 | 33 | 60 | 46 | 37 | 30 |
20~39歳 | 23 | 21 | 16 | 11 | 10 | 8 | 15 | 11 | 9 | 5 |
40~59歳 | 11 | 15 | 7 | 19 | 19 | 17 | 21 | 14 | 11 | 10 |
60歳以上 | 6 | 8 | 3 | 8 | 14 | 8 | 24 | 21 | 17 | 15 |
年代ごとのブランドの購入経験が明確になるほか、年代ごとにまとめられたブランドのなかでの各年代の傾向が、よりわかりやすくなります。
自由記述回答の集計
自由記述回答は数値データとテキストデータに分けられます。数値データは単純集計の段階で代表値が計算されますが、テキストデータは回答者のIDごとに記入されたテキストがそのまま出力されます。
アフターコーディング
サンプルの数が数百程度の場合には、自由記述回答に記入のあった回答者の属性を付記してリストを作成し、分析者の主観にもとづいて分析を行います。
また、記述された内容を把握した上で回答の内容が分類できる場合には、自由回答の内容別に新たな質問項目とカテゴリーを作成し、ローデータに質問項目と分類した回答結果を追加し、数量データとして再集計します。この作業をアフターコーディングといいます。
分類のための基準や方法は質問項目の内容によって一概には決められませんが、記述内容のテーマ別の分類のほか、類似した回答ごとにまとめる、ポジティブ・ネガティブなどの評価別にまとめるといった方法が考えられます。
テキストマイニング
サンプル数が多くまた、テキストのボリュームが大量な場合、人の手で分析することには無理があるので、テキストマイニングの専用ツールやサービスを利用します。
国内各社から提供されているテキストマイニングサービスは、クラウドサービスとして提供されるものやパッケージソフトとして販売されるもの、また、オープンソースで提供されるものなど数多くの種類があります。
無料で利用できるオープンソースのソフトウェアと、パッケージソフトとして販売されているものは、扱う際に専門知識が求められるものが多く、導入のハードルが高めです。
機械学習やAI分野の知見が少ない場合には、クラウドサービスで提供されるテキストマイニングツールが使いやすいでしょう。
各社から提供されるテキストマイニングサービスは大まかに、SNSの投稿を対象とするもの、音声認識と合わせてコールセンター業務に特化したもの、データマイニング全般の機能を備えたものなどの種類があります。
テキストマイニングでは、単語の出現頻度によるワードクラウドの作成や単語同士の関係性の分析、文節から回答者の感情や態度を判定するといった分析を行います。
テキストマイニングの分析結果を見ただけでは、インサイトとなる解釈や意味付けにつながらない場合もあるため、ローデータとして記録されたテキストにも目を通しておくことも重要です。
まとめ
アンケートの集計・分析は、多変量解析など高度な統計手法を使った分析やAIによるテキストマイニングなどに目が行きがちですが、集計の基本である単純集計とクロス集計を上手に行うことで、新たなインサイトを発見できるケースも少なくありません。
そのためには、ローデータの不備を修正したうえで単純集計の段階でデータ全体を概観し、どんな分析をする必要があるのかを見極めることが重要です。
セルフ型アンケートツールQiQUMOは、無料で提供されるCrossFinder2を使うことでさらに集計・分析の幅が広がります。CrossFinder2は質問の加工からグラフ・レポートの出力、自由記述回答のリスト作成、さらに、多変量解析まで十分な機能を備えた集計分析ツールです。
QiQUMOとCrossFinder2を手に入れて、インサイト発見の瞬間を体験してみましょう。