標本調査をわかりやすくまとめてみた。

      2016/07/09


統計を勉強していて皆が最初につまずくところといえば標本調査だと思います。

標本調査とは

標本調査とは、全数調査をすることが困難な場合に、抽出した集団の性質から母集団の性質を推定する、というものです。

例えば、工場の生産ラインで作られるネジの長さのバラつきを知りたい場合、全数調べるのは困難なため、何本かを抽出して全体のバラつきを推測したりします。

まずは標本分布を作ろう

この時の大事な考え方に「標本分布」があります。

標本分布とは、たくさんの標本の抽出を繰り返して集めた標本の平均値統計量の分布のことです。

(追記。r-de-rさんにご指摘いただきました。標本分布は標本の平均値の分布とは限らないようです。以下、ご指摘いただいた箇所は全て訂正しております。)

よく間違えやすいのですが、標本分布はひとつの標本の中のデータの分布ではなく、あくまでもたくさんの標本の平均値などを集めた分布のことです。

ちなみに、n個のデータを持つ一つの標本から得られた値の平均値を標本平均といいます。標本平均は$\bar{X}$と表されます。

標本平均は、1つの標本から得られた数を足しあわせ、それをデータ数nで割った値になります。

$
\bar{X} = \frac{X_1+ X_2+ X_3+... X_n}{n}
$

例えば、ある学校のクラスから5人を抜き出して数学のテストの結果の平均を求めた時、その点数が60点だったとすると、この60点が標本平均です。

これらを複数回繰り返して、平均値の分布を作ったのが標本分布です。

つまり、標本平均の確率分布が標本分布になるのです

もう一つ、標本分布の大切な統計量(標本から抽出される量)に不偏分散があります。

不偏分散$s^2$は一つの標本から得られる数と標本平均との差(偏差)を二乗して足しあわせ、データ数nから1引いた数で割った数になります。

$
s^2 = \frac{(\bar {X} - X_1)^2 + (\bar {X} - X_2)^2 + ...(\bar {X} - X_n)^2}{n - 1}
$

先ほどのテストの例だと、5人の点数から60点(標本平均)を引いて二乗し足しあわせ、最後に(5-1)=4で割った数が不偏分散となります。

母平均を推定する(正規母集団、分散既知の場合)

母集団が正規分布している場合、その母集団のことを正規母集団といいます。

母集団が正規分布するといることがわかっていると、正規母集団の標本平均についての定理が使えます。

正規母集団の標本平均についての定理

  • 標本平均$\bar{X}$の分布(標本分布)は正規分布となり、その標本分布の平均は母平均μと等しい
  • 標本分布の分散は母分散$\sigma^2$をデータ数nで割った数になる
  • 標本分布の標準偏差は母標準偏差σをルートnで割った数になる

この性質のおかげで母集団が正規分布(かつ母分散既知)の時は、標本平均から母平均を推定することが可能になります。

ただし、標本の平均は母平均と多少ズレ(標本誤差)が存在するので、母平均を推定する時はそのズレも合わせて述べることが習慣となっています。これを95%信頼区間といいます。これは、100回データを抽出しても95回はこの範囲に収まるよ、というものです。

先の正規母集団の平均の性質より、標本分布の標準偏差は母標準偏差σをルートnで割った数です。1標準偏差が求まったので、これを1.96倍すると標本の95%がこの間に収まるということになります。

例えば、100個のネジの長さを調べて、その平均値(標本平均$\bar{X}$)が100mmで母標準偏差σが10とわかっていたら、母平均μは$100±1.96×\frac{10}{\sqrt{100}}$を計算して、98.04 〜101.96mmという95%信頼区間が求められます。

母分散μを推定する(正規母集団、母平均既知の場合)

母標準偏差σを求めるには、「標準正規分布する母集団から出てきたn個のデータの二乗の和」は自由度nのカイ二乗分布する。という性質を利用します。

母集団が標準正規分布でないと使えないので汎用性が低そうですが、ここは逆転の発想で、母集団が標準正規分布になるような標本を抽出したと考えれば一気に汎用性が高くなります。

実はとても簡単で、標準正規分布は標準偏差の値が1になるような分布なので、標本から得られたデータを母標準偏差σで割ればよいのです。

標本から得られたデータについては、各標本$x_n$と母平均μの差(偏差)ということにして、偏差を母標準偏差σで割った値zという統計量を与えます。

$
z = \frac{X_n - \mu}{\sigma}
$

すると、zの母平均は標準正規分布なはずなので、zを二乗した和はカイ二乗分布するはずです。

これを統計量Vと定義します。

$
V = (\frac{X_1 - \mu}{\sigma})^2 +  (\frac{X_2 - \mu}{\sigma})^2 +...  (\frac{X_n - \mu}{\sigma})^2
$

あとは、カイ二乗分布の度数分布表から95%以上の値になる数字を調べて、Xとの不等式を解いて、母分散$\sigma^2$を区間推定します(母平均μは既知)。

母分散$\sigma^2$を推定する(正規母集団、母平均未知の場合)

母集団の性質を推定する際は、母平均μもわからないケースが普通だと思います。

統計量Vはカイ二乗分布に従うという性質がありましたが、母平均μを標本平均$\bar{X}$にした統計量Wも、ほんの少しの変更を加えるだけでカイ二乗分布に従うことが知られています。

母平均μを標本平均$\bar{X}$に変更した時の統計量をWと定義すると、

$
W = (\frac{X_1 - \bar{X}}{\sigma})^2 + (\frac{X_2 - \bar{X}}{\sigma})^2 +... (\frac{X_n - \bar{X}}{\sigma})^2
$
となります。

また、Wは以下のように理解することもできます。

$
W = \frac{s^2}{\sigma^2}×(n-1)
$

この時、Wは自由度n-1のカイ二乗分布に従います。先ほどの変更とは、標本平均$\bar{x}$を用いる場合は自由度を1下げるということです。

あとは、先ほどと同様に、カイ二乗分布の度数分布表から95%以上の値が含まれるWを探し、母分散σについて不等式を解きます。これで母分散の95%信頼区間が求められます。

例えば、6人のテストの平均点(標本平均$\bar{x}$)が60点、不偏分散$s^2$が20だとすると、

$
W = \frac{20 × (6-1)}{\sigma^2}
$

になります。

Wは自由度(6-1)=5のカイ二乗分布するので度数分布表から95%以上のデータが含まれる値を調べて、母分散σの95%信頼区間を求めます。

母平均を推定する(正規母集団、母分散未知の場合)

母平均μ 、母標準偏差σの正規母集団から観測したn個のデータの標本平均の分布が、平均μ 、標準偏差σの正規分布に従います。

したがって、標本平均$\bar{X}$から母平均μを引いて、標準偏差$\frac{\sigma}{\sqrt{n}}$で割った統計量zは標準正規分布に従います。

$
z = \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}
$
しかし、今回は、母標準偏差σの値がわからないため、標本標準偏差sに置き換え、調整のためnをn-1にします。

$
T = \frac{\bar{X}-\mu}{\frac{s}{\sqrt{n-1}}}
$

この時のTは自由度n-1のt分布に従うため、度数分布表からデータの95%が含まれる数字を見つけて、μに関する不等式を解きます。

参考

標本分布 - ど素人の統計学ノート(順不同)

おすすめ記事

1
2016年買って良かったモノを紹介します!

2016年もあとわずか。毎年恒例の買って良かったモノシリーズ、2016年版を紹介 ...

2
英語ができなかった僕がバイリンガルになるまでの5つの英語上達プロセス

英語ができなかった僕がバイリンガルと呼ばれるようになるまでに経験した過程を5つに分けて紹介します。

 - 統計学 , , , ,