6.1 記述統計

記述統計の利用においては、データのタイプ別に利用すべき統計量が異なることに注意が必要である。「データのタイプ」という節で確認したように、データには量的変数とカテゴリ(を示す質的)変数がある。量的変数は数値で測定できるものであり、その計算結果を解釈することも可能である。一方でカテゴリ変数は、各観測個体が属している状態やグループを表す指標であり、それを計算してもそこから含意を得るのが難しい。Rのような統計ソフトは非常に素直なので、たとえカテゴリ変数であってもそこに数値が入力されていれば、記述統計に必要な計算を実行し、結果を返してくれる。しかしながら研究においてはそれらの結果を適切に解釈する必要があり、自身が用いている変数のタイプに応じた分析を実行する必要がある。

その上で本節ではまずひとつの量的変数の情報を要約するための記述統計を紹介する。一つの数値によってデータ全体を代表させるような数値を代表値と呼ぶ。代表値はおもにデータの中心を示す指標と考えられる。本節ではデータの中心を表す指標として中央値 (median) と平均値 (mean) を紹介する。中央値は、データのすべての観測値において、その値より小さな観測値の数と大きな観測値の数が等しくなるような真ん中の値を表す。そのため、(1, 3, 2, 5, 4)というデータにおける中央値は3である。これは、このデータを、1, 2, 3, 4, 5 と並べ替えると、3よりより小さな観測値の数と大きな観測値の数が等しくなっていることから確認できる5

d <- c(1, 3, 2, 5, 4)
median(d)
## [1] 3
d2 <- c(1, 3, 2, 5, 4, 6)
median(d2)
## [1] 3.5

平均値(算術平均と呼ばれる)は、最もよく使われる代表値の一つである。平均値は、n個のデータ、\(\small x_1,x_2,...,x_n\) に対して以下のように定義される。

\[\bar{x} = \frac{1}{n}\sum_i^n x_i\]

観測値と平均値の差(\(x_i - \bar{x}\))は偏差と呼ばれ、偏差の和はゼロである(\(\sum_ix_i - \bar{x}=0\))という性質を持つ。つまり、平均値を中心として、データの正の方向へのばらつきと負の方向へのばらつきが釣り合いが取れているということが伺える。この点が、平均値がデータの中心を表す代表値として用いられるひとつの理由である。また、平均値にはいくつかの好ましい統計的性質があるのだが、それについては後述する。Rにおいては、mean() 関数を用いることで分析が可能である。例えば、9人の生徒に対して行われた数学(x)と国語(y)のテスト(10 点満点)の結果が、それぞれ以下の通りであったとしよう。

  • 数学: (3,3,5,5,5,5,5,7,7)
  • 国語: (2,3,3,5,5,5,7,7,8)

このときの平均値は以下のように求まる。

math <- c(3,3,5,5,5,5,5,7,7)
jpn <-  c(2,3,3,5,5,5,7,7,8)

mean(math)
## [1] 5
mean(jpn)
## [1] 5

計算の結果、どちらも平均値は5であった。データの中心を表す代表値の値が等しかったため、これら2科目のテスト結果は同じ分布を持つと判断して良いのだろうか。自明かもしれないが、そのような解釈は不適切である。具体的には、データの「ばらつき」についても確認する必要がある。分布のばらつきは、平均値からの離れ方(平均値からの偏差) によって判断される事が多く、これが大きなデータが多い場合は、よりデータは散らばっ て分布していると解釈される。一方でデータが平均の近くに集まって分布している場合、ばらつきが小さいと捉えられる。この分布のばらつきは主に、分散や標準偏差という指標で測られる。

分散 (Variance, \(S^2\)で定義する) は以下のように、平均からの偏差の二乗の和をデータ数で割ったものだと定義される。平均からの偏差の和を計算すると、正の方向へのズレとマイナス方向へのずれがあるので、互いに相殺しあって合計は 0 になる。そこで、偏差の二乗和を用いることでデータ全体がどの程度平均からばらついているかを把握する。 \[S^2 = \frac{1}{n}\sum_i^n (x_i-\bar{x})^2\]

しかしながら、分散は元の値を二乗しているのでもとのデータと単位が異なる。そのため、分散の正の平方根 (\(\sqrt{\cdot}\)) を取った値を標準偏差と呼び、この標準偏差を用いることも多い6。なお、Rでは var()sd() によって分散と標準偏差をそれぞれ求める。ただし、Rの関数による計算では \(s^2=\frac{1}{n-1}\sum_i^n (x_i-\bar{x})^2\) で定義される「不偏標本分散」および「不偏標準誤差」という指標を用いる。これは、これらの指標のほうが統計的に好ましい性質を持っているためであるが、Rを用いた分散の計算値が、nで割った際の手計算値と異なることがあるのでその点には注意が必要である。

var(math)
## [1] 2
var(jpn)
## [1] 4.25

先程の数学と国語のテスト結果データを用いて分散を計算すると、国語の方が分散が大きいことがわかる。つまり、両テストとも平均値は同じであるものの、国語のほうがそのスコアのばらつきが大きいことがわかる。このように、代表値とともにデータのばらつきに関する情報も踏まえてデータの特徴を把握することが好ましい。

観察されたデータと標準偏差を用いて、特定の観測結果がデータ内において「相対的に」どのような位置にいるのかを捉えることも可能になる。具体的には、任意の量的変数 \(x_1,...,x_n\) に対して、標準化されたスコア \(z_1,..,z_n\) は以下のように定義できる。

\[ z_i=\frac{(x_i-\bar{x})}{\sqrt{(S^2)}} \]

ただし、 \(S^2\) は変数 \(x\) の分散である(不偏標本分散を用いることもある)。上記定義の通り、標準化スコアは観測値の平均からの偏差を標準偏差で割っており、ある観測が平均値から標準偏差何個分ズレているかを示していると解釈できる。なお、標準化スコアは、平均が0、分散が1になることも知られている。


  1. 一方でデータの観測数( \(n\) )が偶数である場合、\(\small n/2\) 番目と、\(\small (n/2)+1\) 番目が中央となるため、n個のデータの観測値を、\(x_1,x_2,...,x_n\) とすると、これらふたつの値の平均値( \(\small \frac{x_{\frac{n}{2}}+x_{ \frac{n}{2}+1}}{2}\) )が中央値となる。Rにおいてはmedian() 関数によって以下のように計算することができる。↩︎

  2. 偏差の二乗和のかわりに偏差の絶対値を用いた平均偏差という指標も存在する。しかしながら、分散や標準偏差のほうが好ましい統計的性質を持つことから、二乗和が用いられることが多い。↩︎