標本平均の期待値が母平均と等しくなることの証明

機械学習を行うにあたって統計は避けて通れず、その中でも基礎部分の標本についてです。標本平均の期待値は母集団の期待値に等しくなります。果たして本当なのか疑問に思ったため、備忘録として残しておきます。

$$
E(\overline{X}) = \mu~~~(\overline{X}:標本平均,~~\mu:母平均)
$$

この式と、なんとなくの直感でなんとなく標本平均の期待値が母集団の期待値に等しくなるのだなあ、と思っていました。

しかし、標本分散の期待値は母集団の分散とは異なることが分かっています。

$$
E(s^2) = \frac{n-1}{n}\sigma^2~~~(s^2:標本分散,~~\sigma^2:母分散,~~n:サンプル数)
$$

このことを知ったときに、「感覚でそうなのかと思っていたけど、標本平均の期待値は母集団の期待値に本当に等しいのか？」という疑問が現れました。

そこで式で正確に証明してみようと思います。

独立な確率変数の和の期待値と定数倍の期待値の性質が成り立っていることは前提にしておきます。

$$
\begin{align*}
E(X + Y) &= E(X) + E(Y)\\
E(aX) &= aE(X)
\end{align*}
$$

上式の証明は割愛します。この性質を利用すると

$$
\begin{align*}
E(\overline{X}) &= E(\frac{1}{n}(X_1 + … + X_n))\\
&= \frac{1}{n}E(X_1 + … + X_n)\\
&= \frac{1}{n}(E(X_1)+…+E(X_n))\\
&= \frac{1}{n}(\mu+…\mu)\\
&= \frac{1}{n}(n\mu)\\
&= \mu
\end{align*}
$$

と証明できました。

しかし！

ぼくを混乱させたのは、3行目から4行目への変換です。

ここで具体例を出させていただきます。

裏表が同じ確率(母平均$\frac{1}{2}$)で出るコインを3回投げたとき表を1、裏を0とします。
(表、裏、表)のとき

$$
\begin{align*}
X_1 &= 1\\
X_2 &= 0\\
X_3 &= 1\\
\end{align*}
$$

となると思います。この結果を先ほどの証明の式に代入してみると

$$
\begin{align*}
E(\overline{X}) &= \frac{1}{3}(E(X_1)+E(X_2)+E(X_3))\\
&= \frac{1}{3}(E(1)+E(0)+E(1))\\
&= \frac{1}{3}(1 + 0 + 1)\\
&= \frac{2}{3}
\end{align*}
$$

となってしまい、母平均$\frac{1}{2}$と異なってしまいました。結論から言うとこの式は大きな過ちを犯しています。

余談ですが、今求めているのは標本平均ではなく標本平均の期待値なので本来、今回の具体例でいうのであれば、標本平均は

（表、表、表）= 1 ( 3 ÷ 3 ), （表、表、裏）= $\frac{2}{3}$ ( 2 ÷ 3 ),
（表、裏、表）= $\frac{2}{3}$ ( 2 ÷ 3 ), （裏、表、表）= $\frac{2}{3}$ ( 2 ÷ 3 ),
（表、裏、裏）= $\frac{1}{3}$ ( 1 ÷ 3 ), （裏、表、裏）= $\frac{1}{3}$ ( 1 ÷ 3 ),
（裏、裏、表）= $\frac{1}{3}$ ( 1 ÷ 3 ), （裏、裏、裏）= 0 ( 0 ÷ 3 )

この8通りが標本平均の取り得る値です。その期待値なので、これらの標本平均を取り得る確率は$\frac{1}{8}$(全部で8通りあるから)であることから

$$
\begin{align*}
E(\overline{X}) &= \frac{1}{8}(1 + \frac{2}{3} + \frac{2}{3} + \frac{2}{3} + \frac{1}{3} + \frac{1}{3} + \frac{1}{3} + 0)\\
&= \frac{1}{2}
\end{align*}
$$

となって母平均と等しくなることが分かります。

しかしこれは母平均から考え得る全てのサンプルを持ってきて計算することになります。

日本人の身長が知りたかった場合に1000人の身長を標本数とした場合、その母平均の算出に$_{日本人} C _{1000}$をすることになりあまりにも非現実的です。

では先ほどの自分の誤った式のどこが誤っていたのか

それは、標本$X_i$を実際の取得したデータ値を使用していることが大きな誤りです。

$X_i$は実データではあるもののその実態は確率変数にすぎないということです。（これがイメージしにくい原因）

なので先ほどのコインの例で言うと（表、裏、表）といった取得したデータを式に代入するのはNGであってそれぞれの施行が確率変数となっていることに注意しないといけません。

そしてその取得する確率変数$X_i$は母集団の確率変数$X$と同じ分布に従うと仮定されているのです。

なので

$$
E(X_i) = \mu
$$

となるのはこの仮定のもの成り立っているんですね。

たいていの教科書にて$X$と大文字が使用された場合は確率変数だと思っておいたほうがいいと思います。実データなら$x$と小文字で表記するはずです。（違うこともあるので常に$X$が確率変数なのか、データ値なのか気にしておいたほうが良いと思う。そしてそのほうが理解が深まる気がする。）