5.2 分析準備

本章では、変数間の関係を捉える回帰分析について、そのモデルの基礎と統計的推測に基づく解釈を説明する。回帰分析結果から得られる含意は、「予測」と「検証」の二つに大別することができる。その上で特に本書では、「検証」という側面、特に「研究上関心のある説明変数の係数の解釈」を重視する立場を取る。立場が異なれば、回帰分析において何を重視するかという観点も異なるため、注意してほしい。

なお本章では、3 章でも利用した MktRes_firmdata.xlsxという企業データを用いた分析を行う。次節に移る前に以下の要領でデータを読み込んでほしい。

firmdata <- readxl::read_xlsx("data/MktRes_firmdata.xlsx")

本章では主に、firmdata における2019年のデータを抽出し、クロスセクショナルデータとして用いる。以下の様に全データから2019年の情報を抽出してほしい。

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.2     ✔ tibble    3.3.0
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.4     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

firmdata19 <- firmdata %>% 
  filter(fyear == 2019)

データを用いた分析を行う場合、取得したデータの記述統計や分布を確認する必要がある。本来であれば研究上重要な変数を対象にデータの特徴を整理するが、ここでは複数の変数の特徴を一括で整理、図示化する方法を提示する。この方法では、GGallyというパッケージのggpairs()という関数を用いるため、以下のようにパッケージをダウンロードしてほしい。

install.packages("GGally")

firmdata19 データセットから、例として四つの変数を抽出して、ggpairsを実行する。これにより、各変数のヒストグラム（密度形式）と、それぞれの変数間の相関係数と散布図が同図内で示されている。また、ggpairs()内の引数設定によって様々な図示形式を指定できるため、興味のある人は調べてみてほしい。

firmdata19 %>% 
  select(sales, mkexp, emp, operating_profit) %>% 
GGally::ggpairs()+ labs(title = "ggpairs example")

なお、記述統計については既出の summary()関数にデータフレームを指定することで、データセット全体の記述統計を出力する。ここでは例として先程と同じ変数の記述統計を以下のように出力してみる。

ds1 <- firmdata19 %>% 
  select(sales, mkexp, emp, operating_profit) %>% 
  summary()
knitr::kable(ds1, align = "cccc")

sales	mkexp	emp	operating_profit
Min. : 11333	Min. :0.01137	Min. : 163	Min. :-40469
1st Qu.: 183525	1st Qu.:0.16714	1st Qu.: 3454	1st Qu.: 7743
Median : 464450	Median :0.25448	Median : 7826	Median : 23904
Mean :1199403	Mean :0.29868	Mean : 20249	Mean : 81088
3rd Qu.:1164243	3rd Qu.:0.37506	3rd Qu.: 24464	3rd Qu.: 63068
Max. :9878866	Max. :0.75650	Max. :160227	Max. :656163