4.1 本章の概要

本章では、基礎的な統計学と、統計的推定・検定について説明する。前章では、データを集めて分析を行うことで、ある変数の平均値などの統計量を計算できることを学んだ。しかし、その計算された数値にどのような意味があるのかを解釈するのが難しい場合もある。例えば、ある変数の平均値を異なるグループ(例えば、性別)それぞれで計算したとする。このとき、ほとんどの場合においてグループ間で同じ値を取ることはないと考えられる。しかしながら、この違う値が誤差の範囲なのか、意味のある(誤差を考慮しても無視できないほど大きな)差なのかについて検討することは重要である。このような目的を達成するために利用されるのが、、統計的な分析(区間推定や検定)である。

Rを用いて、統計的な分析(区間推定や検定)を実行すること自体はさほど難しくない。基本的な分析に必要な関数は基本パッケージに搭載されており、コードの書き方(引数の設定など)もネット上で検索すれば容易に知ることができる。しかしながら、自身もしくは他者が実行した分析をきちんと理解するためには、基礎的な統計学の内容を理解している必要がある。本章では、基礎統計学に関する説明を提示する。なお、本書で紹介する内容はあくまで簡易的な内容であるため、統計学を未習の場合は基礎統計学の図書を用いて学習することを強く推奨する。また、章末に統計学や計量経済学の学習に役立つ参考文献を提示しているので、各自の学習に役立ててほしい。

本章で扱う内容は主に、標本から得た情報に基づき母集団の性質について推測するアプローチを想定したものである。具体的には、以下の内容を含める:

  1. 確率モデルと期待値・分散
  2. 統計的推測と点推定・区間推定
  3. 統計的仮説検定
  4. 平均値に関する検定・分散分析
  5. 検定力分析とサンプルサイズ

本章の後半では様々な検定方法を紹介するが、本書ではこれらの分析手法について記憶するよりも、マーケティング領域の学生において特に誤解の多い統計的分析に関する基本的な性質について理解してほしいと考えている。第一に、確率変数によって定義された統計量もまた確率変数であるという点である。データを収集し、分析を実行し統計量を計算すると、自身が観察した値が唯一の値であると考えてしまうかもしれない。しかし、母集団とは確率分布であり、標本はその確率分布に従う確率変数、データはその確率変数の実現値だと解釈できる(倉田・星野、2024)。そのため、自身が観察した推定値もまた確率変数の実現値であるということを理解することが大切である。

第二に、信頼区間についてである。統計的な分析では、信頼区間の計算を行うことも多い。しかしながら、信頼区間は誤解のもとで解釈される場合も多いため、注意が必要である。信頼区間は、未知パラメータ(母平均等)を一定の確率(信頼水準)で含む区間を示す。信頼区間には確率を割り当て、例えば95%信頼区間のようなものを計算するのだが、よくある誤った解釈として「母集団の期待値(未知パラメータ)は95%の確率でxx以上、yy以下という区間に含まれる」というものである。基礎的な統計学の枠組みでは、未知パラメータは確率変数ではない。そのため、未知パラメータに確率を割り当てるような表現は誤りである。確率変数であるのは、推定された区間の両端である。

第三に、統計的仮説検定についてである。統計的仮説検定ではまず、母集団の統計的特徴に関する記述である「帰無仮説」と「対立仮説」を定める必要がある。特に帰無仮説は検定における分析や考察の基準となり、帰無仮説を棄却するか否かによって仮説検定の判断を行う。通常、「棄却する」という言葉は帰無仮説に対してのみ用いるため、論文の中で利用している理論仮説や作業仮説に対しては使わない。また、統計的仮説検定では、帰無仮説が真であるにもかかわらず帰無仮説を棄却してしまう第一種の誤りと、帰無仮説が真ではないにもかかわらず、帰無仮説を採択してしまう第二種の誤りとが存在する。第一種の誤りを起こす確率は有意水準という。統計的仮説検定では、事前に設定した有意水準の分だけ(慣習として5%や1%といった基準が採用される)第一種の誤りを起こす確率を許容したうえで帰無仮説が正しいか否かを判断する。一方で、「帰無仮説を棄却できない」という結果を得た際には注意が必要である。具体的には、帰無仮説を棄却できない(統計的に有意でない)からと言って、帰無仮説が正しいと結論づけることはできない。そのため例えば、統計的に有意でない結果をもとに「〇〇は××に影響がない(もしくは、差がない)ことが明らかになった」という解釈を行うことは適切ではない。

第四にp値についての解釈である。Rや他のソフトウェアで統計的検定を実行すると “p-value”(p値)という値を得る。p値にも誤解が蔓延しており、「値が小さければ仮説が真であることを示す指標」や「小さいほど結果の重要性を示す指標」といった解釈を行うべきではない(Baker, 2016)。p値は、帰無仮説が正しいと仮定したときに,手元のデータから計算した検定統計量以上に極端な値を取る確率だと定義できる(豊田, 2017)。そしてp値が有意水準よりも小さい場合には、帰無仮説が間違っていたという判断を下すというのが、p値に基づく帰無仮説棄却の判断である。

本章では、上記の注意点について理解するための統計的な原理原則と、それに対応するRを用いた統計的分析手法を提示する。