大数の法則とは? ~ 解説と証明 ~

具体例による解説 (大数の法則)
  サイコロを通じて大数の法則を考察する。
一つのサイコロを振る場合
  歪みの無いサイコロの一つだけ振る。 出目の値を確率変数 $X_{1}$ で表すと、 $X_{1}$ の取りうる値は
の $6$ 通りである。 それぞれの出目が現れる確率は $\frac{1}{6}$ であるので、 期待値 $\mu$ は、
である。 一つだけ振るので、 標本平均 $\overline{X}$ は、
である。したがって、 $\overline{X}$ の取りうる値は
である。以上より、次の表を得る。

したがって、 標本平均 $\overline{X}$ と期待値 $\mu=\frac{7}{2}$ の差の絶対値
が $\frac{7}{4}$ よりも大きくなるのは、
の $2$ 通りのみである (ここで $\frac{7}{4}$ は議論が分かり易くなるように適当に選んでいる)。 これらが起こる確率を
と表すことにすると、
である。
二つのサイコロを振る場合
  続いて、独立なサイコロを二つ振る場合を考える。 この場合、 標本平均 $\overline{X}$ は、
である。 それぞれの $X_{1}$ と $X_{2}$ の出目が
であることから、 標本平均の取り得る値は、
の $11$ 通りである。ここで、例えば、$\overline{X} = \frac{3}{2}$ となるのは、
の二通りがあり、それぞれが $\frac{1}{36}$ の確率で起こるので、
である。同じように考えると、次の表を得る。
この中で標本平均 $\overline{X}$ と期待値 $\mu=\frac{7}{2}$ の差の絶対値
が $\frac{7}{4}$ よりも大きくなるのは、
の $4$ 通りのみである 。これらが起こる確率を
と表すことにすると、
である。
まとめと考察
  サイコロを一つだけ振る場合、 標本平均 $\overline{X}$ と期待値 $\mu=\frac{7}{2}$ の差の絶対値 が $\frac{7}{4}$ よりも大きくなる確率は、
であった。 一方、サイコロを二つ振る場合には、
であった。これらより、
が成り立つ (括弧の部分を省略した)。
  実は、同じように三つ振る場合、四つ振る場合を考察すると、 振る数が多くなればなるほど、確率が小さくなることが示される。 すなわち、
が成り立つ。 さらに、サイコロの数を増やしてゆくと、ますます確率が小さくなり、 次第に $0$ に近づいて行く。 すなわち、$n$ 個振る場合の確率を $\mathrm{Pr}_{n}$ と表すと、
が成り立つ。
  ここではサイコロの例を取り上げたが、 どんな確率分布の場合でも同様の性質が成り立つことが知られている。 すなわち、 標本平均 $\overline{X}$ と期待値 $\mu$ との差の絶対値が特定の値 $\epsilon$ よりも大きく観測される確率
は、 標本数 $n$ を大きくすると $0$ に収束する。 これを大数の法則という。
  一般論とその証明を以下に記す。
大数の法則 (一般論と証明)
  $n$ 個の確率変数
が互いに独立で、同一の分布に従うとする。 このとき、各 $X_{i}$ の期待値が同じ値になるので、
と表すことにする。 また 標本平均
と表すことにする。 このとき、任意の $\epsilon \gt 0$ に対して、 標本平均と期待値 $\mu$ の差の絶対値が $\epsilon$ 以上の値で観測される確率
は、標本数 $n$ が大きくなればなるほど $0$ に近づく。 すなわち、
大数の法則
が成り立つ。 これを大数の法則といい、 $X_{i}$ の従う確率分布に依らない一般的な法則である。
証明
  定数倍の期待値の性質和の期待値の性質により、 標本平均の期待値 $E(\overline{X})$ は、
$$ \tag{1} $$ と各確率変数の期待値 $\mu$ に等しい。 また、各 $X_{i}$ が 同一の確率分布に従うことから、 $X_{i}$ の分散 $V(X_{i})$ は同じ値になる。 そこで、 \begin{eqnarray} v = V (X_{i}) \end{eqnarray} と表すことにすると、 定数倍の分散の性質 と、 独立な確率変数の和の分散の性質により、 標本平均の分散 $V(\overline{X})$ は、
$$ \tag{2} $$ である。
  標本平均 $\overline{X}$ に対して、 チェビシェフの不等式を適用すると、
が成り立つ。ここで $\lambda$ は $1$ より大きな任意の数である。 この不等式は $(1)$ と $(2)$ により、
と表される。 ここで、
と置くと、
と表せる。 $\epsilon$ を固定して、 $n$ を十分に大きくすると ($\epsilon$ が固定されるように、 $n$ を大きくすると同時に $\lambda$ も大きくすると) 、 任意の $\delta \gt 0$ に対して、
を満たされる。 このような $n$ に対しては、
$$ \tag{3} $$ が成り立つ 。平たく言うと、$n$ を大きくすると、 $(3)$ の左辺の確率を幾らでも小さくすることが出来る。 したがって、
が成り立つ。