質的データとは|簡単解説
質的データのカンタン語句解説
質的データは単位を持つ量として把握することを前提としない情報です。質的変数を指す場合は区別や分類のみが可能なデータを指し、質的情報を指す場合は数値ではなく、主にテキストで記述されたデータを指します。
質的データの概要
質的データはデータを分析の観点から分類したデータの種類のことであり、単位を持つ数値として表される数量データ以外の情報のことです。データを統計的に集計・分析する場合は質的変数ともいわれ、名義尺度と順序尺度を用います。
また、アンケート調査の自由回答やSNSの投稿なども調査・分析の対象となる質的データですが、コーディングして集計する場合と、集計せずに調査対象の生の声として参考にする場合があります。
そもそもデータとは
データとは、「実験・観察・計測・手続きなどによって得られた客観的、かつ、再現性のある事実や数値」のことです。
国際標準化機構(ISO)および日本工業規格(JIS)はデータを次のように定義しています。
"An interpretable representation of information in a formalized manner suitable for communication, interpretation, or processing." 「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの」 |
マーケティングリサーチでは、アンケート調査の集計表がデータの代表例です。
その他に、POSデータ、Web閲覧履歴、商品・サービスの販売数量・金額など数値として数えることができるもののほか、インタビューの記録やSNSの書き込み、アンケートのフリーアンサーといった数えられないものもデータに含まれます。
データと変数
データを使って統計処理を行う際、覚えて置かなければならないのが「変数」です。アンケート調査では質問項目や選択肢が変数として扱われます。
以下の表は、ある企業の取引先別の営業データです。集計表の表頭の項目である「取引先」~「値引き率」が変数にあたります。変数以下の具体的な値すべてを変量と呼び、データは変量それぞれの値を指します。
変数、変量、データがそれぞれ何を指すかという点では上記の区別がありますが、変数と変量、変数と変数が取る値であるデータを厳密に区別しないほうが便利な場合が多いので、変数といった場合には変数の取る値のデータを含めた意味としても使われています。
尺度水準とは?
上に示した表の各変数は、質的データと量的データに分けられます。量的データは単位を持ち、数値が意味を持つデータであるのに対し、質的データは他のデータとの区別しか表していません。
質的データに分類した取引先のデータはそれぞれ1つしか存在しないデータです。統括エリアのデータは複数存在するので、関東4、関西3、北海道2、九州1といった形で数えることができます。
統括エリアと同様に売上規模もデータが複数存在するので数えることが可能であり、統括エリアと異なるのは売上規模は大小関係があることです。売上規模順に取引先を並べ替えたときに、ある取引先が何番目かを知ることができます。
量的データの取引額、訪問回数、値引き率は、データを比較したときに比率が意味を持ちます。それに対し、営業マン満足度は4点の取引先は2点の取引先よりも2段階満足度が高いと説明できますが、2倍満足度が高いという意味にはなりません。
このように、統計として扱われるデータには特徴があり、特徴にもとづいて4つに分類したものを尺度水準といいます。
【尺度水準によるデータの分類】
統計データ | 質的データ | 名義尺度 |
順序尺度 | ||
量的データ | 間隔尺度 | |
比例尺度 |
質的データ
質的データは、カテゴリーデータ、定性データ、属性変数などともいわれます。数値や量で測ることができない区別を表すデータです。質的データには「名義尺度」が当てはまるものと「順序尺度」が当てはまるものがあります。
名義尺度
他のデータと区別して分類することにしか意味を持たない尺度です。データそのものが同じであるかどうかのみに意味があります。【営業データ】の図表であげた取引先、統括エリアがこれにあたります。
統計量としては度数・計数、頻度、最頻値を取ることができます。
【名義尺度の具体例】
名前、性別、血液型、電話番号、住所、地域、所属学部、職業、認知ブランド、好きな食べ物、など |
順序尺度
【営業データ】の図表で挙げた「売上規模」が順序尺度を使えるデータです。売上金額であれば数量データですが、売上を「1未満」~「100以上」までの5段階のカテゴリーに分けているため質的データとして扱います。名義尺度と異なるのは5つのカテゴリーには大小関係があることです。
順序尺度は大小や順序、優劣などの方向性は持っていますが、カテゴリーの和や差を求めることに意味がありません。
統計量としては、中央値、パーセンタイル、四分位数を使うことができます。
【順序尺度の具体例】
順位、ランキング、学年、好き/普通/嫌い、成績の5段階評価、がんのステージ、など |
量的データ
量的データは数値や量として表される単位を持つデータです。定量データや量的変数ともいわれます。量的データの尺度には「間隔尺度」と「比例尺度」があります。
量的データには尺度による分類のほか、小数点以下の数値を持つかどうかという点でも分類されます。
物理的な長さや重さ、速度など計測された値が連続しているものを連続型データ、または連続型変数、人数や点数など整数値でしか数えることができないものを非連続型データ、または離散型変数と呼びます。
グラフで表す際に連続型データはヒストグラム、非連続型データは棒グラフで表します。
間隔尺度
データ同士が単なる優劣関係だけでなく、優劣の差にも量的な意味があるのが間隔尺度です。【営業データ】の例では営業マンの満足度が間隔尺度にあたります。
量的データには間隔尺度と次に説明する比例尺度がありますが、間隔尺度のゼロは原点としての0を表さず、任意に選んだものと考えることも可能です。比例尺度のゼロは原点を表しており0以下の値は存在していないことが異なる点です。
典型的な例としては温度が挙げられます。温度を摂氏・華氏で表す場合は間隔尺度となるのに対し、絶対温度で表す場合は比例尺度となります。
統計量は平均、分散、標準偏差を使うことができます。
【間隔尺度の具体例】
温度(摂氏、華氏)、西暦、時刻、テストの点数、段階評価、偏差値、など |
比例尺度
単位の間隔が等しく原点を持つと同時に、データ間の比率にも意味を持つのが比例尺度です。【営業データ】の例では、具体的な金額として示される取引額、営業マンの訪問回数、比率として示される値引き額が比例尺度を用いることができます。
前述のとおり、【営業データ】の例の間隔尺度を用いる営業マンの満足度は、4点が2点の2倍の満足度として評価することはできませんが、比例尺度を用いる金額や回数、は数値が2倍であれば、量的に2倍であることを確かめることができます。
統計量として使えるのは平均、比の計算です。
【比例尺度の具体例】
長さ、重さ、速さ、時間などの物理量、金額、販売数量や金額、来場者数などの人数、割合、比率、密度、など |
質的データの分析方法
調査のなかで質的データを扱う場合、コーディングして集計するのかテキストデータのまま活用するのかは、調査の目的とデータの量、求めたい結果などによって適宜選択します。
プリコーディング
アンケート調査の質問項目を設定する際に、性別・年齢・居住地などの属性情報は、回答と集計を容易にするためにコード化(符号化)を行います。また【営業データ】の例で見た売上規模のように、量的データを質的データとして取得したほうがよい場合があります。
アフターコーディング
アンケート調査の自由回答や数値を記入する質問項目、また、SNSの投稿といったテキストデータや数値として記入された情報は、アンケート調査を回収した後にコード化する場合があります。
テキストとして記入された情報の内容について、肯定的な内容か否定的な内容か、何について言及したものかといった基準を設けてコード化したり、特定のキーワードを含むか否かによってコード化したりすることを行います。
数値の場合は比例尺度であれば直接集計することが可能ですが、分析する内容に合わせてコード化が必要になる場合もあります。
生データとして活用
テキストで回答された情報は、数量として集計することを前提とせずに、語りやメッセージ、意見として分析に取り入れることが有効な場合があります。
調査対象の持つ認識や事実、意見、考え方について、調査する側があらかじめ想定できないケースも少なくありません。そういった場合に自由回答に記述された内容から、新たな気付きや新しい発見を得られる可能性があります。
質的データと量的データは分析の両輪
収集した質的データから新たな仮説が導かれてそれを量的データで検証するケース、反対に、量的データでは把握できない点をフォローするために質的データを使って裏付けを行うといったケースなど、質的データと量的データの両方を有効に使うことが重要です。
質的データと量的データは使い分けと同時に、互いに補完し合う形で活用することが、より深い理解とより望ましい課題解決につながります。