標本平均と標本分散

  統計学的標本論の基本事項を具体例を挙げながら説明しています。
母集団・母平均・母分散

母集団
  ある対象に対して観測を行って得られる観測値の全体を 母集団といい、 $\Pi$ で表す。
:
  • 歪みのないサイコロ:
  • 表が $1$、裏が $0$ の歪みのないコイン:
  • $N$ 個製品の中の不良品の数:
  • 製品の重さ:
  • ある物体の $x$ 座標:
母集団確率変数と母集団分布
  母集団のそれぞれの値をとる変数 $X$ を母集団確率変数という。 母集団確率変数にはそれぞれの値をとる確率 $\mathrm{Pr}(X)$ が割り当てられている。 これを母集団分布という。

  • 歪みのないサイコロ:
  • 表が $1$、裏が $0$ の歪みのないコイン:
  • 正規分布 $N(\mu, \sigma^2)$ に従う物体の $x$ 座標:
母平均と母分散
  母集団確率変数 $X$ の期待値 $E(X)$ を母平均 $\mu$ といい、 分散 $V(X)$ を母分散 $\sigma^2$ という。


母平均と母分散の例

補足:
  このように、母集団にまつわる諸定義は母集団分布が分かっていれば求めること出来る。 しかしながら、 実際には母集団分布が分からない問題が殆どであり、 以下に述べる標本論を用いて、母集団の特徴づけを行うのが統計(推定)学の一つの目的となる。
標本確率変数
標本確率変数
  ある母集団 $\Pi$ を持つ観測対象に対して $n$ 回の観測を行って得られた結果をそれぞれ
$$ \tag{1} $$ と表す。 それぞれの $X_{i}$ $(i=1,2,\cdots,n)$ は固定された値ではなく、 母集団 $\Pi$ のいずれかの値を (もしくは区間)をとる(確率)変数である。 また、 それぞれの $X_{i}$ は母集団確率変数 $X$ と同じ確率分布 (母集団確率分布) に従うとする。 このような $(1)$ を大きさ $n$ の標本確率変数という。
  • 歪みのないサイコロ:
    サイコロを $3$ 回振って得た観測値(実現値)が $\{1,6,2\}$ の場合、
    と表す。
      それぞれの $X_{i}$ の確率分布は母集団確率変数 $X$ と同じ確率分布に従うので、
    である。
標本確率変数の期待値と分散
  標本確率変数 $(1)$ のそれぞれの確率変数 $X_{i}$ は、 母集団確率変数と同一の確率分布に従うので、 期待値は母平均に等しく、 分散は母分散に等しい。すなわち、
が成り立つ。

  • 歪みのないサイコロ:
    ここで、二つめの等号では 標本確率変数 $X_{i}$が母集団確率分布と同一の確率分布に従うこと
    を用いた。

標本平均と標本分散
標本平均と標本分散
  標本確率変数の平均を標本平均 $\overline{X}$ という。 標本確率変数の分散を標本分散 $S^2$ という。 観測回数が $n$ 回の場合、それぞれ
と定義される。
  標本平均は観測値の平均値の値をとる確率変数である。 また、 標本分散は観測値の分散の値をとる確率変数である。

歪みのないサイコロ:
サイコロを $3$ 回振って得た観測値(実現値)が $\{1,6,2\}$ の場合、
であるので、 標本平均と標本分散の値は
である。
統計量と独立性
  標本平均や標本分散といった標本確率変数の関数として定義される確率変数を一般に統計量という。 統計量が議論されるときには、各観測が独立に行われることが仮定されるのが殆どである。 その結果、 標本確率変数の 和の分散には
の加法性が成り立つ。
標本平均の期待値 = 母平均
  標本平均 $\overline{X}$ の期待値は母平均に等しい。 すなわち、
標本平均の期待値 = 母平均
が成り立つ。

証明
  和の期待値定数倍の期待値の性質
を用いると 標本平均の期待値は、
と母平均に等しいことが分かる。 四つめの等号では標本確率変数の期待値が母平均に等しいこと
を用いた。

標本平均の分散
  標本平均 $\overline{X}$ の分散 $V(\overline{X})$ は
標本平均の分散
である。ここで $\sigma^2$ は母分散である。

証明
  定数倍の分散の性質
標本確率変数の和の分散
と分けられることを用いると、 標本平均の分散は、
と表せるが、 標本確率変数の分散は母分散に等しいので、 すなわち、
であるので、
が成り立つ。

標本分散の期待値
  標本分散 の期待値は
標本分散の期待値
であり、 母分散とは等しくない。

証明
  定数倍の期待値の性質
標本分散の定義から、 標本分散の期待値は
$$ \tag{1} $$ と表せる。 ここで 標本平均の定義 から
が成り立つことを用いると、 $(1)$ の確率変数は 母平均 $\mu$ を用いて
と表せる。 これより $(1)$ を
と書き直せるが、 和の期待値の性質によって、 さらに
$$ \tag{2} $$ と書き直せる。
  ここで 標本確率変数の期待値が母平均に等しいこと
および、標本平均の期待値が母平均に等しいこと
によって、
$$ \tag{3} $$ と表せる。 ここで 三つめの等号では、 分散の定義
を用いた。
  また、 標本確率変数の分散が母分散に等しいこと
と、 標本平均の分散が 母分散 $\sigma^2$ によって
と表されることを用いると、 $(3)$ から
を得る。

不偏分散の期待値 = 母分散
  次の統計量
不変分散という。 不偏分散の期待値は母分散に等しい。 すなわち、
が成り立つ。

証明
  不偏分散の定義
標本分散の定義
の間には
の関係がある。 したがって、 定数倍の期待値の性質 から
を得る。 なお、 三番目の等号では標本分散の期待値
であることを用いた。

補足:   不偏推定量
  以上のように、 標本分散の期待値は母分散と等しくはないが、 不偏分散の期待値は母分散に等しくなる。 不偏分散はいわば期待値が母分散と等しくなるように定義された統計量である。
  このように期待値があるパラメータ(推定量)と等しくなる統計量を 不偏推定量 (unbiased estimator) という。 したがって、 不偏分散は母分散を推定する不偏推定量である。
  不偏推定量を用いて推定するときには、 ある限界があることが知られている。 それを表す不等式を Cramer-Rao の不等式という。