Chapter 4 データの種類とアンケートデザイン
研究においては、変数間の関係について分析、記述することが多い。仮説を提示する際の注意点においても、分析に用いる変数と整合的であることが重要であると述べた。そこで重要なのは、自身が用いる変数がどのような特徴を持つ尺度であり、どのように事象を測定しているかを理解することである。以下の表は、主な尺度のタイプとその特徴をまとめたものである。
尺度 | 特徴 | 例 |
---|---|---|
名義 | 対象の識別と分類 | 性別・職種 |
順序 | 対象の相対的ポジション | 好み順位・ランキング |
間隔 | 対象間の大小関係比較(原点は定まっていない) | 態度・指数・気温 |
比率 | 連続的関係(原点が定まっており、比率計算も可能) | 所得・売上 |
上表における間隔尺度や比率尺度は一般的に量的尺度と分類される。売上高はマーケティング研究における最も典型的な「比率尺度」の例である。この尺度は大小にも間隔にも意味があり、かつ比率にも意味があるため、四則演算に対応する尺度である。一方で「間隔尺度」は正の整数で表される尺度であり、その値の大小関係と間隔にも意味があるものの、原点が定まっておらず、比率計算に耐えない尺度である。マーケティング研究においては、アンケート調査における質問項目や、質問項目の合計値(およびそれを項目数で割ったもの)である合成変数が間隔尺度の典型的な例である。
一方でマーケティング研究においては、必ずしも量的ではない情報に着目して分析を行うことも多い。そのような場合には、質的尺度を用いて観察対象のカテゴリを分類することで分析可能にする。例えば、消費者の購買行動に関する東京、大阪、北海道という地域(都道府)間の差を分析する場合を考える。このとき、「地域の違い」に数量的な違いは存在しないものの、地域の違いを表すために東京 = 1, 大阪 = 2, 北海道 = 3 のような地域コードを用いる事が多い。しかしながら、この変数がとる数値そのものに本来的な意味はなく、東京が大阪と北海道よりも低い値を取っているという解釈は適切でない。この変数はあくまで異なる地域に分類されることを示しているのみである。このような属性の分類や有無を表すための尺度を「名義尺度」と呼ぶ。また、観測対象が特定の属性に対応する場合(例、男性)には 1 を、そうでない場合には 0 を取るような、1 と 0 で分類された名義尺度のことを特に「ダミー変数」と呼ぶ。ダミー変数は分析結果の解釈が容易になる利点もあるが、詳しくは後述する。質的尺度のもうひとつの例が「順序尺度」である。順序尺度は、観察対象の序列や大小関係を表す尺度であるが、その数値の間隔に意味はない。例えば 1 が最低であり、4 が最高となるような金融商品の等級において、商品 A は ランク 4、商品 B はランク 1 だとする。このとき、 B は A よりも高い評価を受けているということは言えるが、A は B の 4倍優れているという議論は不適切である。このように、各対象間の推移性を表現するときに用いるのが、順序尺度である。
次に、データの収集や取得という観点に基づくデータ分類基準を提示する。研究の遂行においては、研究者の関心や研究課題のために収集されたデータを用いることもあれば、別の目的で収集されたデータを用いることもある。前者のようなデータを「一次データ」、後者を「二次データ」と呼ぶ。一次データは研究上の問いに回答するために実施された調査、実験や観察に基づき収集形成されたデータある。一方で二次データは、業務上蓄積されたデータ、民間リサーチ会社の統計データや、政府統計などに代表される他の目的で収集された、ないし継続して収集されているデータを指す。現在は、様々な二次データがアクセス可能であり、二次データを利用することで研究上の問いに回答できる可能性も十分にある。例えば、企業の視点にたてば、組織内部の二次データ(業務活動で得たデータ: Point of sales (POS) データ、webサイトへのアクセス記録など)と外部の二次データ(民間リサーチ会社の統計データや政府統計など)が存在する。その他にも、オープンソース化されているデータも様々存在する。そのため、本書では一時データを収集する前に、関連する二次データとしてどのようなものが存在しアクセス可能なのか検討することを勧める。しかしながら、二次データではすでに集計や加工をされたデータしか入手できず、raw データ(収集されたまま加工されていないデータ)にアクセスできない場合もある。そのため、入手可能な二次データが本当に自身の研究課題や仮説で議論されている内容および集計レベルと整合的なのか、という点については慎重に検討する必要がある。
データのタイプは、集計レベル(分析単位)に基づいて分類することもできる。この分類では、個人の行動や回答を捉えた「非集計データ」と、非集計データをある単位でまとめ、計算や整理を施した「集計データ」とを捉えることができる。非集計データの例としては、ID-POSデータ(ロイヤルティカード(アプリ)などによる顧客の個人IDと、購買製品、価格、数量などの情報が含まれたPOSデータを結合したもの)や、消費者個人を対象としたアンケートデータなどが挙げられる。一方で企業成果・業績などの財務データは、企業レベルで集計されたデータだと言える。自身の研究課題や仮説がどのような集計レベルのデータに対応するものなのかを考え、研究内容と一貫したデータを用いることが必要になる。