5.5 単回帰モデルと重回帰モデルの比較
先述のパーシャル効果という重回帰モデルの特徴は、どのように応用できるのだろうか。多くの実証研究では、重回帰モデルの特徴を利用し、「コントロール変数」を用いた分析を行っている。本節では、先程の企業データを用いて、「企業の広告支出が営業利益に与える影響を明らかにする」という問いを考える。まずは、学習的意図から以下のように単回帰分析を実施してみる(通常の論文・レポートであればこのような過程は必要ない)。
##
## Call:
## lm(formula = operating_profit ~ adv, data = firmdata19)
##
## Residuals:
## Min 1Q Median 3Q Max
## -450526 -55552 -40672 -791 599084
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.708e+04 1.057e+04 5.401 2.68e-07 ***
## adv 1.257e+00 2.159e-01 5.823 3.61e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 117600 on 144 degrees of freedom
## Multiple R-squared: 0.1906, Adjusted R-squared: 0.185
## F-statistic: 33.91 on 1 and 144 DF, p-value: 3.613e-08
## 2.5 % 97.5 %
## (Intercept) 36189.311039 77968.894422
## adv 0.830362 1.683719
分析の結果、広告支出(adv)の係数は正に有意であり、その95%信頼区間は [0.83, 1.68] であることが確認できた。
しかしながら、このモデル化は不十分であり他の要素も考慮すべきである。営業利益に影響を与えうる要因は色々とあり、実際の研究においては先行研究を参照しつつ、コントロールすべき変数を含める形で回帰モデルを特定する必要がある。ここでは便宜上いくつかの要因にのみ焦点を合わせて簡単に特定化する。本データは主に小売・サービス産業の企業に焦点を合わせている。そのため、対人サービス水準は企業のパフォーマンスに影響を与えうる要因である。そのため、従業員に関する変数(従業員数: emp、パートタイム従業員数: temp)と人件費(labor_cost)をモデルに含める。また、資産合計(total_assets)、研究開発費(rd)もモデルに含める。今回の回帰モデルは以下のように示される。
\[
\text{opretating_profit}_i = \beta_0 + \beta_1 adv_i + \beta_2emp_i+\beta_3temp_i+\beta_4\text{labor_cost}_i+\beta_5\text{total_assets}_i+\beta_6rd_i+u_i
\]
Rにおいて重回帰分析を実行するのは簡単である。lm(y ~ x1 + x2 + x3) のように \(+\) 記号と変数を追加すれば、重回帰モデルとして分析を実行してくれる。
reg3 <- lm(operating_profit ~ adv + temp + emp + labor_cost + total_assets + rd, data = firmdata19)
summary(reg3)##
## Call:
## lm(formula = operating_profit ~ adv + temp + emp + labor_cost +
## total_assets + rd, data = firmdata19)
##
## Residuals:
## Min 1Q Median 3Q Max
## -360544 -27618 -15279 3467 284094
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.209e+04 8.114e+03 2.723 0.00731 **
## adv -1.431e+00 2.954e-01 -4.845 3.34e-06 ***
## temp -1.878e+00 6.313e-01 -2.975 0.00346 **
## emp -1.510e+00 7.036e-01 -2.146 0.03358 *
## labor_cost 8.808e-01 1.692e-01 5.207 6.76e-07 ***
## total_assets 3.516e-02 5.840e-03 6.020 1.47e-08 ***
## rd 1.385e+00 5.268e-01 2.629 0.00953 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 78940 on 139 degrees of freedom
## Multiple R-squared: 0.6479, Adjusted R-squared: 0.6327
## F-statistic: 42.63 on 6 and 139 DF, p-value: < 2.2e-16
## 2.5 % 97.5 %
## (Intercept) 6048.51599480 3.813231e+04
## adv -2.01511513 -8.470054e-01
## temp -3.12602311 -6.298318e-01
## emp -2.90144939 -1.190356e-01
## labor_cost 0.54637427 1.215313e+00
## total_assets 0.02361376 4.670793e-02
## rd 0.34334525 2.426472e+00
見ての通り、結果の出力方式そのものは単回帰分析のものとほぼ同様である。回帰係数の結果の下にあるモデル適合度については前節を参照して欲しい。
分析の結果、広告支出の係数は「負」に有意であり、その信頼区間も [-2.01, -0.85] であった。したがって、本データの分析によると、労働や資産に加え研究開発といった側面を一定とすると、広告支出は営業利益に対して負の関係を持っていることがわかった。他の変数に着目すると、従業員数に関する変数はどちらも負に有意であった。一方で、人件費と総資産、研究開発費は正に有意な影響を与えることが示された。これらの結果から、単純に従業員数を増やしても営業利益には負の影響を与える一方で、従業員数を一定とした上で人件費を上げるほうが営業利益が高いことが示された。また、資産や研究開発費も営業利益につながることが示された。
このように、重回帰モデルを採用し複数の説明変数を含めることで、各係数の持つ含意が大きく変わることに注意して欲しい。また、reg2 と reg3の比較のように、特定の説明変数に対応する係数の符号が変わることも珍しくない。そのため、回帰モデルの定式化には非常に慎重になる必要があり、先述の通り、先行研究を参照して必要な変数をコントロールすることが求められる。