8.1 本章の概要

本書ではこれまで、統計的な推定や検定を用いて仮説を検証する方法を説明してきた。しかしながら、マーケティングでは、データを探索的に分析することで洞察を得ることへの関心も高まっている。データ分析のアプローチにおいても、検証のようなプロセスを経ずに、データの持つ情報を集約・整理することで探索的に分析結果を得るものが存在する。このような探索的なデータ分析手法として、マーケティング領域で広く使われているものに、クラスター分析がある。

クラスター分析は、複数の量的変数情報に基づいて、データのサンプルをいくつかのグループに分類する方法である。この手法は、「セグメンテーション」というマーケティング実務的枠組みと関連している。マーケティングの基本的な戦略方針として、セグメンテーション、ターゲティング、ポジショニングがある。これは、市場を構成する消費者を細分化し、標的とするグループを特定化したうえで、具体的なマーケティング要素をそのグループに合わせて調整することで、市場におけるポジションを確立するという、実務的方針である。しかしながら人間が自身の認知能力によって数多く存在する消費者の中からセグメントを発見・弁別するのは容易ではない。

このような限界を克服するため、消費者に関する情報を集めたデータセットを用いて、消費者間の類似性をもとにグループ分けを行うことに活用できるデータ分析手法がクラスター分析である。クラスター分析では、回帰分析のように着目する目的変数を用いず、入力されたデータそのものに着目する。このようなアプローチでは、分析者の判断が重要な役割を担う。そのため、本章では、クラスター分析の実行方法に加え、分析手法そのものの概要についても理解することを目的とする。

この目的を達成するために、本章では、主なクラスター分析アプローチとして、階層的クラスター分析と非階層的クラスター分析(K-means法)を紹介する。階層的クラスター分析はデータの中から類似している観測値を段階的にクラスター(観測値の集団)としてまとめていき、最終的にすべてのデータが1つのクラスターになるまでそれを繰り返す方法である。この方法では、観測値同士の類似性(距離)やクラスター同士の類似性に基づき似たものから順にまとめていく。階層的クラスター分析では、デンドログラムと呼ばれる樹形図のような図が主な結果として出力され、この結果をもとに、研究者がいくつのクラスター数でこのデータをまとめ上げることが良いのかを判断する。

しかしながら、いくつのクラスター数が良いのかという点については、多くの場合研究者が分類結果の「効率性」と「有効性」のバランスから判断することになる。効率性は分類によってどれだけ多くの情報を集約し説明できているかを表しており、より少ないクラスター数で多くのデータを説明できたほうが情報の集約による効率性が高いと考えられる。しかしながら、得たクラスター分類が役に立たないと意味がない。そこで、分類結果がどの程度現実的な含意につながるかを捉えたのが有効性である。効率性を意識しすぎて少ないクラスター数による分類を採用しても、あまりに大雑把過ぎる分類だと分析結果が有益にならないため、ある程度クラスター数を増やしたほうが有効な分類になるかもしれない。クラスター分析では、これらの基準によっていくつのクラスター数でデータをまとめ上げることが好ましいのかを研究者自身が判断することになる。

非階層的クラスター分析は、階層的クラスター分析などによってクラスター数の目ぼしをつけた後に実行することが一般的である。それは、非階層的クラスター分析を実行するためには、研究者が事前にクラスター数を指定することが必要なためである。そのため、非階層的クラスター分析に加え、エルボー法などの手法を併用し、クラスター数を決定すること多い。そのうえで非階層的クラスター分析では、指定されたクラスター数を所与として、各観測に対してクラスターを割り当てる計算・分析が実行される。その際、似た(距離の近い)観測同士は同じクラスターに、似ていない観測同士は違うクラスターに割り当てられ、全ての観測データがどれか一つのクラスターに所属するような結果を得る。その割り当て結果を用いて、各クラスターの特徴を確認することが可能になる。

クラスター分析の概要を説明したあとは、Rを用いた分析手法を紹介する。本書では、吉田秀雄記念事業財団によって2023年に実施され、オンライン上に公開されている消費者調査アンケートデータを用いて消費者クラスターを発見することを試みる。ここでは、クラスター分析の実行に関するコードに加え、プレゼンテーション等で活用できる図示化の方法についても紹介する。