4.9 平均値に関するその他の検定
これまでは、母平均が特定の値を取るか否かに着目し、統計的仮説検定の基礎について説明した。しかしながら本章の冒頭でも例に挙げた通り、平均値をあるグループ間で比較したいと考えることも多い。本節では、期待値の比較に着目し、平均の差の検定と、分散分析について説明する。これらの検定では、用いる検定統計量は先述のものと異なるが、統計的仮説検定そのものの手順や、肝となる考え方は共通である。
前節で考えた、「女性に比べ男性の方が新製品購買意図が高い。」という作業仮説を再度考える。このとき、我々が観察可能なのは男性グループの標本平均(\(\small \bar{X}\))と女性グループの標本平均(\(\small \bar{Y}\))であるが、検定においてはそれぞれの期待値(\(\small \mu_x\) と \(\small \mu_y\))に着目し、帰無仮説を作成する。なお、\(\small X_1,...,X_n\) は\(\small N(\mu_x,\sigma^2_x)\)に従う母集団からの無作為標本であり、\(\small Y_1,...,Y_n\) は\(\small N(\mu_y,\sigma^2_y)\)に従う母集団からの無作為標本であるとする。また、\(\small X_1,...,X_n\) と \(\small Y_1,...,Y_n\) は互いに独立であり、母分散は未知であるとする。
先述の男女間の購買意図の差に関する作業仮説について、男性における購買意図の期待値を \(\small \mu_x\)、女性における購買意図の期待値を \(\small \mu_y\)とすると、帰無仮説と対立仮説は以下のように示すことができる。
\[H_0:~\mu_x=\mu_y,~~H_1:~\mu_x\neq\mu_y\] 統計的検定の手順と直感的な検定統計量の作り方は前節の内容と同じである。そのため、検定における推定量と帰無仮説条件下での未知パラメータの値を特定し検定統計量を定義したい。この検定ではグループ間の平均の差を捉えているため、標本上での情報として \(\small \bar{X}-\bar{Y}\) という関係を捉える。したがって、上記の帰無仮説と対立仮説は以下のように書き直すことができる。
\[H_0:~\mu_x-\mu_y=0,~~H_1:~\mu_x-\mu_y\neq0\] また、母分散が未知である場合にはt検定を行うということも前節と同様である。このことから、以下の検定統計量を用いる。
\[ t=\frac{(\bar{X}-\bar{Y})-(\mu_x-\mu_y)}{\sqrt{s^2\left(\frac{1}{m}+\frac{1}{n}\right)}}\sim t(𝑚+𝑛−1) \]
ただし、\(s^2\) はプールされた標本分散8と呼ばれる母集団の分散の推定量である。なお、\(s^2\)は母分散を捉えた推定量であるが、母分散が両群で等しい(等分散: \(\small \sigma^2_x=\sigma^2_y=\sigma^2\))である場合には上記の検定統計量を自由度(\(\small m+n-1\))のt分布として分析可能である。一方で等分散ではない場合には、Welchのt検定と呼ばれる、自由度の計算を修正した分析方法を用いる。なお、Welchのt検定で用いられる自由度の詳細はここでは省略する。
このとき、帰無仮説が正しいという仮定のもとでは、\(\small \mu_x-\mu_y=0\)である。そのため、上記の検定統計量は以下のように観察可能な情報のみで構成される形で書き換えることができる。また、帰無仮説が正しければ、この検定統計量は自由度(\(\small m+n-1\))のt分布に従うと考えられる。
\[ t=\frac{(\bar{X}-\bar{Y})}{\sqrt{s^2\left(\frac{1}{m}+\frac{1}{n}\right)}}\sim t(𝑚+𝑛−1) \]
そのため、データに基づき計算された検定統計量tの実現値を用いて、以下の方式で検定を行う。
\[
\begin{cases}
|t|>t_{\alpha/2}(m+n-1) & \Rightarrow \text{H0を棄却する。}\\
|t|\leq t_{\alpha/2}(m+n-1)& \Rightarrow \text{H0を採択する。}
\end{cases}
\]
Rにおいて平均の差の検定を行うことはさほど難しくない。先程の等分散性についても、var.equal=TRUEまたはvar.equal=FALSEという引数で設定できる。var.equal= 引数についてはTRUEが等分散性を仮定するが、デフォルトでは、FALSEとなっている。
平均の差の検定では、 t.test(outcome ~ category) のように、はじめに着目する成果変数を、その後 ~(チルダ)のあとに着目するカテゴリ変数を指示することで、どの変数(outcome)の平均の差をどのカテゴリ変数(category)で検定するのかが特定化できる。ここでは、以前の章で利用した `firm2018’ データを利用して、広告集中度の高い企業と低い企業とで売上高の平均値に差があるか否かを以下のように分析する。なお以下では、等分散性について異なる仮定を置いた分析を続けて行っている。
library(tidyverse)
firmdata <- readxl::read_xlsx("data/MktRes_firmdata.xlsx")
firm2018 <- firmdata %>%
filter(fyear == 2018) %>%
mutate(ad_dummy = ifelse(adint > median(adint),1, 0))
t.test(sales ~ ad_dummy, data = firm2018)##
## Welch Two Sample t-test
##
## data: sales by ad_dummy
## t = -3.3989, df = 85.686, p-value = 0.001029
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## -1674283.1 -438496.1
## sample estimates:
## mean in group 0 mean in group 1
## 725009.7 1781399.3
##
## Two Sample t-test
##
## data: sales by ad_dummy
## t = -3.4555, df = 145, p-value = 0.0007207
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## -1660616.4 -452162.8
## sample estimates:
## mean in group 0 mean in group 1
## 725009.7 1781399.3
出力結果の見方は、先述のt検定の場合と同様である。分析の結果、等分散性を仮定するか否かで、計算結果は微妙に異なるが、どちらの検定結果においても1%有意水準で帰無仮説を棄却できた。そのため、グループ間で売上高には差があり、広告集中度の高いグループのほうが売上高が高い(もしくは、売上高の高い企業ほど広告集中度が高いグループに属している)といえる。
なおRにおいては、等分散性に関する検定もvar.test(outcome ~ category)で以下のように実行可能である。
##
## F test to compare two variances
##
## data: sales by ad_dummy
## F = 0.10863, num df = 74, denom df = 71, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.06821636 0.17258882
## sample estimates:
## ratio of variances
## 0.1086276
等分散性の検定では、ひとつのグループの分散ともう一方のグループの分散の比が1(等分散)であるという帰無仮説を設計する。詳細は割愛するが、帰無仮説が正しい場合には両グループの不偏標本分散の比が自由度(\(m-1\), \(n-1\))のF分布に従う。これまでと異なる出力結果として、検定統計量の実現値F = 0.10863、分子の自由度num df = 74、分母の自由度 denom df = 71が提示される。なお、分析の結果、帰無仮説は棄却されたため、等分散とは言えないと結論づけることができる。そのため、平均の差の検定においては、Welchのt検定を利用した分析結果を採用して議論することが好ましい。
\(s^2=\frac{1}{m+n-1}\{(m-1)s_x^2+(n-1)s_y^2\}\)↩︎