クラスター分析とは|簡単解説

クラスター分析のカンタン語句解説

クラスター分析は多数のデータをグループ分けするための統計解析の手法です。データ全体を特徴の似ているもの同士に分け、分けられたそれぞれの集団の特徴や傾向に意味づけを行います。マーケティングリサーチでは、顧客のセグメンテーションやブランドのポジショニングなどを行う際に使われます。

クラスター分析の概要

クラスター分析は多変量解析のなかの1手法です。多変量解析は変数が3つ以上ある場合に、それぞれの変数の関連性を見出すための統計手法のことです。

個々のサンプルが持つ異なる値を変数と呼びます。アンケート調査の場合は回答者属性やカテゴリー(選択肢)が変数に当たります。

多変量解析には数多くの種類がありますが、原因となる変数(説明変数)と結果となる変数(目的変数)の因果関係を導き出し予測を行う目的に使われるものと、変数間の類似性に着目し変数をまとめて要約することを目的するものにわけられます。

さらに、目的変数と説明変数のデータの型に着目すると以下のように分類できます。

主な多変量解析の分析手法

目的目的変数説明変数
量的変数質的変数
予測量的変数重回帰分析
共分散構造分析(SEM)
正準相関分析
数量化Ⅰ類
コンジョイント分析
AID
質的変数判別分析
ロジスティック回帰分析
数量化Ⅱ類
要約なし主成分分析
因子分析
クラスター分析
多次元尺度分析(MDS)
数量化Ⅳ類
コレスポンデンス分析
数量化Ⅲ塁
潜在構造分析

クラスター分析は量的な説明変数を持つデータを要約するための多変量解析のひとつです。

クラスター分析の考え方

クラスター分析はデータが似ているかどうかを基準にグループ分けを行います。アンケート調査では、変数(カテゴリー 、列)の選び方が似ているサンプル(回答者、行)を分類する場合と、回答パターンが似ている変数を分類する場合のどちらも行うことができます。

データが似ているかどうかの物差しとなるのがデータ間の「距離」という考え方です。データ間の距離を計算する方法はいくつかの種類がありますが、「ユークリッド距離」という測定方法で各サンプルの距離を計算した場合の簡単な例で見てみます。

以下は、3人の回答者に、ファッションの志向性を5つの選択肢について5段階評価で聞いた結果を示したものです。

サンプルNo..モードシックトラッドスポーティカジュアル
(1)54323
(2)45333
(3)54245

サンプル(1)と(2)、(1)と(3)、(2)と(3)の各選択肢の違いを、各選択肢の差として求めると以下のようになります。

①と②の各選択肢の違い

サンプルNo.モードシックトラッドスポーティカジュアル
(1)54323
(2)45333
(1)ー(2)1ー10ー10

①と③の各選択肢の違い

サンプルNo.モードシックトラッドスポーティカジュアル
(1)54323
(3)54245
(1)ー(3)001ー2ー2

②と③の各選択肢の違い

サンプルNo.モードシックトラッドスポーティカジュアル
(2)45333
(3)54245
(2)ー(3)ー111ー1ー2

(1)と(2)、(1)と(3)、(2)と(3)のそれぞれの距離を各選択肢の差の、2乗和の平方根として計算します。

(1)と(2)の距離=√( (1)2 + (ー1)2 + (0)2 + (ー1)2 + (0)2 )= 1.732

(1)と(3)の距離=√( (0)2 + (0)2 + (1)2 + (ー2)2 + (ー2)2 )= 3.000

(2)と(3)の距離=√( (ー1)2 + (1)2 + (1)2 + (ー1)2 +(-2)2 )= 2.828  

(1)と(2)の距離(1.732)<  (2)と(3)の距離(2.828)< (1)と(3)の距離(3.000)

(1)〜(3)の距離を比較すると(1)と(2)の距離が最も近いので、(1)と(2)を似ているものとしてグルーピングします。

この例では「ユークリッド距離」を距離の測定方法として採用しましたが、距離の測定はデータの性質によってさまざまな方法が使われます。

  • ユークリッド距離標準化
  • ユークリッド距離
  • マハラノビス距離
  • マンハッタン距離
  • チェビシェフ距離
  • ミンコフスキー距離

クラスター分析は階層的クラスタリングと非階層的クラスタリングの2種類

上に示した例では、最初の段階として(1)と(2)を同じグループにまとめましたが、より大きなまとまりをつくるために、(1)と(2)のグループに近い距離を持つ他のグループをさらにまとめていくという手順を繰り返します。これを視覚化すると以下のようなデンドログラム(樹形図)ができあがります。

クロス・マーケティング「クラスター分析」から引用

(1)と(2)のグループと他のグループとの距離を測るためには、(1)と(2)を代表する値を新たに作る必要があります。その際の距離の計算にもいくつかの種類があり、以下のような手法が使われます。

  • ウォード法
  • 最短距離法
  • 最長距離法
  • 群平均法
  • 重心法

デンドログラムの枝分かれしている部分の高さは結ばれたグループ間の距離を表し、どの高さで区切るかによってクラスター(グループ)の数が決まります。

ここまで述べた、個々のサンプルを距離の近いものから漸次結びつけていく方法を階層的クラスタリングといいます。

もうひとつのクラスター分析の方法として非階層的クラスタリングがあります。

非階層的クラスタリングは基準とする任意のサンプルをあらかじめ選び、選んだサンプルからの距離の近さによってグループを作っていく方法です。非階層的クラスタリングでは主にk-means法(k平均法)という手法が使われます。

k-means法では最初に選ばれたサンプルからの距離によってクラスターを作成し、各クラスターの重心点を求めます。

重心点からの距離を再度計算し新たなクラスターを作ることを繰り返し、重心点が移動しなくなったところが最適なグループ化が行われた結果とするものです。

階層的クラスタリング非階層的クラスタリングのメリット・デメリット

階層的クラスタリングと非階層的クラスタリングはそれぞれ以下のようなメリット・デメリットを持っています。

階層的クラスタリングのメリット・デメリット

階層的クラスタリングの分け方を端的にいえば、似ているものからくっつけていくという考え方です。

非階層的クラスタリングのように最初に分ける数(クラスター数)を決める必要がなく、クラスタリングの過程をデンドログラムを見ながら直感的に解釈することができます。

デメリットは選択する手法によってクラスタリングの結果が大きく異なること、サンプル数が大量の場合、出来上がるクラスターの数も多くなるため、分類や解釈をすることが難しくなることなどが挙げられます。

非階層的クラスタリングのメリット・デメリット

非階層的クラスタリングは、大量のサンプルであってもクラスターに分けることが可能であり、解析結果が安定しています。

一方で、事前に分類するクラスターを決めなければならず、また、解析結果は数値から判断する必要があるため、階層的クラスタリングのような直感的な解釈はできないことがデメリットです。

マーケティングリサーチのなかでのクラスター分析の活用方法

クラスター分析を行うことで、生活意識や価値観、イメージといった変数を設定し、デモグラフィック属性以外の切り口でセグメンテーションとターゲティングを検討することが可能になります。

また、顧客層の分類だけではなく、ブランドや商品イメージのポジショニングを行う際にも有効な手法です。

さらに、データを分類することから見えてくる新たなインサイトを得ることも多変量解析を使う目的のひとつといえます。

ネットリサーチならQiQUMO