機械学習を行うにあたって統計は避けて通れず、その中でも基礎部分の標本についてです。標本平均の期待値は母集団の期待値に等しくなります。果たして本当なのか疑問に思ったため、備忘録として残しておきます。
この式と、なんとなくの直感でなんとなく標本平均の期待値が母集団の期待値に等しくなるのだなあ、と思っていました。
しかし、標本分散の期待値は母集団の分散とは異なることが分かっています。
このことを知ったときに、「感覚でそうなのかと思っていたけど、標本平均の期待値は母集団の期待値に本当に等しいのか?」という疑問が現れました。
そこで式で正確に証明してみようと思います。
独立な確率変数の和の期待値と定数倍の期待値の性質が成り立っていることは前提にしておきます。
上式の証明は割愛します。この性質を利用すると
と証明できました。
しかし!
ぼくを混乱させたのは、3行目から4行目への変換です。
ここで具体例を出させていただきます。
裏表が同じ確率(母平均
(表、裏、表)のとき
となると思います。この結果を先ほどの証明の式に代入してみると
となってしまい、母平均
余談ですが、今求めているのは標本平均ではなく標本平均の期待値なので本来、今回の具体例でいうのであれば、標本平均は
(表、表、表)= 1 ( 3 ÷ 3 ), (表、表、裏)=
(表、裏、表)=
(表、裏、裏)=
(裏、裏、表)=
この8通りが標本平均の取り得る値です。その期待値なので、これらの標本平均を取り得る確率は
となって母平均と等しくなることが分かります。
しかしこれは母平均から考え得る全てのサンプルを持ってきて計算することになります。
日本人の身長が知りたかった場合に1000人の身長を標本数とした場合、その母平均の算出に
では先ほどの自分の誤った式のどこが誤っていたのか
それは、標本
なので先ほどのコインの例で言うと(表、裏、表)といった取得したデータを式に代入するのはNGであってそれぞれの施行が確率変数となっていることに注意しないといけません。
そしてその取得する確率変数
なので
となるのはこの仮定のもの成り立っているんですね。
たいていの教科書にて
コメント