9.3 係数比較

マーケティング領域においては、異なる説明変数のうちどちらの係数のほうが大きいのかを比較するような議論を行う研究がしばしば見られる。しかし、その多くの場合において、（1）係数の推定値をそのまま比較することや、（2）片方の検定結果が有意でありもう一方は有意でないというような検定結果の比較をもとに大小関係を論じている。しかしながら、たとえ説明変数の単位を（標準化などで）統一していたとしても、これら二つのような比較によって大小関係を結論づけるのは不十分である。係数の大小比較に関する現実的な方法のひとつは、説明変数の単位を統一した上で信頼区間を計測することである。以下では、もうひとつの方法として、大小比較に関する統計的検定を実行するための工夫を紹介する。

まず、以下のような被説明変数を\(Y\)、説明変数を \(X_1,~X_2\)とする重回帰モデルを考える。

\[ Y = \alpha_0 + \alpha_1 X_1 + \alpha_2 X_2 + u \] 係数の大小比較において重要となるのは、上式内の \(\alpha_1\) と \(\alpha_2\) の差である。つまり、\(\alpha_1 - \alpha_2 = 0\) であれば両者に差がないことになる。ここで、\(\theta = \alpha_1 - \alpha_2\) と定義し、回帰モデルを以下のような修正版モデルに書き換える。

\[ Y = \alpha_0 +(\theta - \alpha_2) X_1 + \alpha_2 X_2 + u \\ = \alpha_0 +\theta X_1 + \alpha_2 (X_1 + X_2) + u \]

つまり、この式のように \(X_1\) と \((X_1 + X_2)\) という二つの説明変数を用いた重回帰モデルを推定すると、修正版における\(X_1\)の係数は \(\theta = \alpha_1 - \alpha_2\) として解釈する事が可能になる。そしてこの修正版モデルにおける \(X_1\)の係数を検定することで、\(\alpha_1 - \alpha_2=0\)を帰無仮説とした検定と同義の結果を得ることができ、大小関係に関する含意を得ることができる。

ここでは例として、企業の広告投資とR&Dへの投資が売上に与える影響について比較する。分析にはfirmdata19を用いる。このデータの広告とR&D変数の単位はともに百万円であり揃っているが、本書では教育的意図から変数を標準化するプロセスを提示し、標準化した変数を用いる。そのため、分析結果の係数解釈には注意が必要になる。本書ではまず、以下の通り変数を作成した後、通常の重回帰モデルを実行する。

firmdata19 <- firmdata19 %>% 
  mutate(adv = (adv -mean(adv))/sd(adv),
         rd = (rd -mean(rd))/sd(rd),
         ad_rd = adv +rd)

fit_linear <- lm(sales ~ adv + rd, data = firmdata19)
summary(fit_linear)

## 
## Call:
## lm(formula = sales ~ adv + rd, data = firmdata19)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -4356502  -459524  -238384   126951  2695201 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1194514      73839  16.177   <2e-16 ***
## adv          1627341      74544  21.831   <2e-16 ***
## rd             30111      74544   0.404    0.687    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 895200 on 144 degrees of freedom
## Multiple R-squared:  0.7709, Adjusted R-squared:  0.7677 
## F-statistic: 242.3 on 2 and 144 DF,  p-value: < 2.2e-16

これを見ると、一見広告投資のほうが係数が大きそうである。では次に、ad+rd を用いた係数比較モデルを分析することでこの差が統計的に有意かを検討する。

fit_comp <- lm(sales ~ adv + ad_rd, data = firmdata19)
summary(fit_comp)

## 
## Call:
## lm(formula = sales ~ adv + ad_rd, data = firmdata19)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -4356502  -459524  -238384   126951  2695201 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1194514      73839  16.177   <2e-16 ***
## adv          1597230     111072  14.380   <2e-16 ***
## ad_rd          30111      74544   0.404    0.687    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 895200 on 144 degrees of freedom
## Multiple R-squared:  0.7709, Adjusted R-squared:  0.7677 
## F-statistic: 242.3 on 2 and 144 DF,  p-value: < 2.2e-16

分析の結果、adv の独立項の係数が有意であったため、二つの係数は有意に異なると理解できる。しかしながら、このような係数の比較を行う際には、その背景にある社会的実務的比較可能性について考慮する必要がある。例えば、特定の産業において、広告への投資もしくはR&Dへの投資をしづらい状況はないだろうか。反対に多くの企業が広告への投資を行っているが、R&Dには投資がされていないという状況は無いだろうか。仮に多くの企業がすでに広告への投資を十分に行っているならば、その中で広告支出額が1単位（1標準偏差）増やすことの意味は非常に大きいはずである。したがって、たとえ分析上変数間の比較が可能であったとしても、その比較がどのような意味をもつのか、もしくはその比較はフェアなものなのかという点については慎重に議論・検討する必要がある。