最尤法の幾つかの例題

最尤法とは
  母集団の確率分布がパラメータ $\theta$ に依存する確率分布 $p(x, \theta)$ であることは分かっているが、 $\theta$ の値が何であるかが分からない。 そのような状況で、 $n$ 回の観測を行って、観測値
$$ \tag{1.1} $$ を得たとする。 この結果を使って、 $\theta$ の値を推定したい。
  このとき、 尤度と呼ばれる次の関数
尤度
$$ \tag{1.2} $$ を定義し、 この関数を最大にする $\theta$ を求め、 その値を観測値から得た推定値とする方法を最尤法 (maximum likelihood method) という。
尤度とは?
  観測結果全体が $(1.1)$ となる確率を
と表す。 各観測が独立に行われたすると、
が成り立つ。 右辺は尤度 $(1.2)$ そのものである。 このように、 尤度とは観測が独立に試行された場合に 観測結果 $(1.1)$ を得る確率である。
  最尤法では、 文字通り尤度を最大にするパラメータが求まる。 パラメータが求まれば、確率分布 $p(x,\theta)$ が定まる。 ゆえに、 最尤法によって求まるものは、 観測結果 $(1.1)$ が得られる確率が最も高まる確率分布 $p(x,\theta)$ である。
  なお、 連続型確率分布の場合には、 確率密度関数によって尤度が定義されるが考え方は変わらない。 パラメータが複数であっても同様である。

正規分布の最尤推定
  正規分布
$$ \tag{2.1} $$ を定義するパラメータ $\mu$ と $\sigma^2$ の最尤推定量は、 それぞれ 観測値
$$ \tag{2.2} $$ の平均値と分散である。 すなわち、
正規分布の最尤推定値
である。
正規分布のパラメータ推定
  母集団の確率密度関数が正規分布 $(2.1)$ であることは分かっているが、 パラメータ $\mu, \sigma^2$ の値が何であるかは分かっていない。 そういう状態で $n$ 回の観測を行ったところ、 観測値 が $(2.2)$ であったとする (正確には観測値が $(2.2)$ を含む小区間内であったとする)。 この結果を使って、 母集団のパラメータ $\mu, \sigma^2$ の値が何であったかを推定したい。 これが正規分布のパラメータ推定である。 パラメータ推定には、 様々な方法があるが、 正規分布の最尤推定では、 尤度
$$ \tag{2.3} $$ が最大になるようにパラメータ推定を行う。 すなわち、 観測結果 $(2.2)$ から計算される尤度 $L$ が最大になる $\mu$ と $\sigma^2$ を求め、 それらを推定値とする。
最尤推定値の導出
  尤度 $(2.3)$ を確率分布 $(2.1)$ によって表すと、
$$ \tag{2.4} $$ である。 $L$ が最大になる $\mu,\sigma^2$ は、 $L$ を $\mu$ と $\sigma^2$ で微分して $0$ になる条件
から求められる。 ただし、 最尤法では尤度が $ L(\mu, \sigma^2) \gt 0 $ を満たすことから、 $\log L$ を $\mu$ と $\sigma$ で微分して、 $0$ になる条件
$$ \tag{2.5} $$ から求められる (「 $\log f(x)$ が $x=x_m$ で最大 $\Longrightarrow$ $f(x)$ もまた $x=x_m$ で最大」 を参考)。 $(2.4)$ から尤度の対数は、
と表されるので、 各偏微分が
$$ \tag{2.6} $$ となることから、 条件 $(2.5)$ は、
と表される。 第1式から
$$ \tag{2.7} $$ を得る。 ここで、 $\overline{x}$ は 観測値 $(2.2)$ の平均値である。 この結果を第2式に代入すると、
$$ \tag{2.8} $$ を得る。 ここで、 $v$ は観測値 $(2.2)$ の分散である。
  このように条件 $(2.5)$ から $(2.7)$ と $(2.8)$ が得られたが、 これらの値において、 $\log L$ が最大になるかどうかはまだ分からない。 そこで再度 $ \frac{\partial }{\partial \mu} \log L $ に注目すると、
であるが、 この関数は、 任意の $\sigma^2$ に対して、 $\mu$ についての単調減少関数であり、 $\mu = \overline{x}$ のときにのみ $0$ となる次のような増減表を持つ関数である。
よって、 $\log L$ は $\sigma^2$ がどんな値であっても、 $\mu = \overline{x}$ のときに最大になる。 そこで、 $\mu = \overline{x}$ とし、 $\log L$ の $\sigma^2$ についての振る舞いを調べると、
であることから、 $\frac{\partial }{\partial \sigma^2} \log L$ は $\sigma^2$ の単調減少関数であり、 $\sigma^{2} = v$ のときにのみ $0$ となる。したがって、 次の増減表が作られる。
これより、 $\log L$ は $\sigma^2 = v$ のときに最大になる。 以上から $\log L$ は、 $\mu= \overline{x}$ かつ $\sigma^2 = v$ のときに最大となる。
結論
  よって、 $L$ も $\mu= \overline{x}$ かつ $\sigma^2 = v$ のときに最大になる。 以上から 正規分布の最尤推定値は、 それぞれ観測値の平均値と分散である。 すなわち、
である。

ポアソン分布の最尤推定
  ポアソン分布
$$ \tag{3.1} $$ のパラメータ $\lambda$ の最尤推定量は、 観測値
$$ \tag{3.2} $$ の平均値である。 すなわち、
である。
ポアソン分布のパラメータ推定
  母集団の確率密度関数がポアソン分布 $(3.1)$ であることは分かっているが、 パラメータ $\lambda$ の値が何であるかは分かっていない。 そういう状態で $n$ 回の観測を行ったところ、 観測値 が $(3.2)$ であったとする (正確には観測値が $(3.2)$ を含む小区間内であったとする)。 この結果を使って、 母集団のパラメータ $\lambda$ の値が何であったかを推定したい。 これがポアソン分布のパラメータ推定である。
  パラメータ推定には、 様々な方法があるが、 ポアソン分布の最尤推定では尤度
$$ \tag{3.3} $$ が最大になるようにパラメータ推定を行う。 すなわち、 観測結果 $(3.2)$ から計算される尤度 $L(\lambda)$ が最大になる $\lambda$ を求め、 それを推定値とする。
最尤推定値の導出
  尤度 $(3.3)$ を確率分布 $(3.1)$ によって表すと、
$$ \tag{3.4} $$ である。 $L$ が最大になる $\lambda$ は、 $L$ を $\lambda$ で微分して $0$ になる条件
から求められる。 ただし、 最尤法では尤度が $ L(\lambda) \gt 0 $ を満たすことから、 $\log L$ を $\lambda$ で微分して、 $0$ になる条件
$$ \tag{3.5} $$ から求められる (「 $\log f(x)$ が $x=x_m$ で最大 $\Longrightarrow$ $f(x)$ もまた $x=x_m$ で最大」 を参考)。 $(3.4)$ から尤度の対数の微分は、
$$ \tag{3.6} $$ となることから、 $(3.5)$ は、
と表される。 これより、
$$ \tag{3.7} $$ を得る。 ここで、 $\overline{x}$ は 観測値 $(3.2)$ の平均値である。
  このように条件 $(3.5)$ から $(3.7)$ が得られたが、 この値において、 $\log L$ が最大になるかどうかはまだ分からない (関数が最小になる場合や極小/極大になる場合、 および、 平らになる場合もありうる)。 そこで、 再度 $(3.6)$ の $ \frac{\mathrm{d} }{\mathrm{d} \lambda} \log L $ に着目すると、これは $\lambda$ についての単調減少関数であり、 $\lambda = \overline{x}$ のときにのみ $0$ となる。 よって、次の増減表が得られる。
これより、 $\log L$ は $\lambda = \overline{x}$ のときに最大になる。
結論
  したがって、 $L$ も $\lambda = \overline{x}$ のときに最大になる。 以上から、 幾何分布のパラメータ $\lambda$ の最尤推定値は、 観測値の平均値である。 すなわち、
である。

二項分布の最尤推定
  二項分布
$$ \tag{4.1} $$ のパラメータ $q$ の最尤推定量は、 観測値
$$ \tag{4.2} $$ の平均値の $\frac{1}{m}$ 倍である。 すなわち、
二項分布の最尤推定値
である。
解答例
二項分布のパラメータ推定
  母集団の確率分布が二項分布 $(4.1)$ であることは分かっているが、 パラメータ $q$ の値が何であるかは分かっていない。 そういう状態で $n$ 回の観測を行ったところ、 観測値 が $(4.2)$ であったとする。 この結果を使って、 母集団のパラメータ $q$ の値が何であったかを推定したい。 これが二項分布のパラメータ推定である。
  パラメータ推定には、 様々な方法があるが、 二項分布の最尤推定では尤度
$$ \tag{4.3} $$ が最大になるようにパラメータ推定を行う。 すなわち、 観測結果 $(4.2)$ から計算される尤度 $L(q)$ が最大になる $q$ を求め、 それを推定値とする。
最尤推定値の導出
  尤度 $(4.3)$ を確率分布 $(4.1)$ によって表すと、
$$ \tag{4.4} $$ である。 $L$ が最大になる $q$ は、 $L$ を $q$ で微分して $0$ になる条件
から求められる。 ただし、この計算を行う代わりに、 尤度が $ L(q) \gt 0 $ であるので、 $\log L$ を $q$ で微分して、 $0$ になる条件
$$ \tag{4.5} $$ から求められる (「 $\log f(x)$ が $x=x_m$ で最大 $\Longrightarrow$ $f(x)$ もまた $x=x_m$ で最大」 を参考)。 $(4.4)$ から尤度の対数の微分は、
$$ \tag{4.6} $$ であるので、 $(4.5)$ は、
と表される。 これより、
$$ \tag{4.7} $$ を得る。 ここで、 $\overline{x}$ は 観測値 $(4.2)$ の平均値である。
  このように条件 $(4.5)$ から $(4.7)$ の値が得られたが、 この値において、 $\log L$ が最大になるかどうかはまだ分からない (関数が最小になる場合や極小/極大になる場合、 および、 平らになる場合もありうる)。 そこで、 再度 $(4.6)$ の $\frac{\mathrm{d} }{\mathrm{d} q} \log L$ に着目すると、 第一項の
が $ q$ についての単調減少関数であり、 第二項の
もまた $q$ についての単調減少関数である ($0\lt q \lt 1$ であることに注意)。 ゆえに、 $ \frac{\mathrm{d} }{\mathrm{d} q} \log L $ は単調減少関数である 。 なおかつ、 $q = \frac{1}{m} \overline{x}$ のときにのみ $0$ となるので、次のような増減表を持つ関数である。
これより、 $\log L$ は $q = \frac{1}{m}\overline{x}$ のときに最大になる。
結論
  したがって、 $L$ も $q = \frac{1}{m}\overline{x}$ のときに最大になる。 以上から 二項分布のパラメータ $q$ の最尤推定値は、
である。

幾何分布の最尤推定
  幾何分布
幾何分布の最尤推定
$$ \tag{5.1} $$ のパラメータ $q$ の最尤推定値は、 観測値
$$ \tag{5.2} $$ の平均値の逆数である。 すなわち、
幾何分布の最尤推定値
である。
解答例
幾何分布のパラメータ推定
  母集団の確率密度関数が幾何分布 $(5.1)$ であることは分かっているが、 パラメータ $q$ の値が何であるかは分かっていない。 そういう状態で $n$ 回の観測を行ったところ、 観測値 が $(5.2)$ であったとする (正確には観測値が $(5.2)$を含む小区間内であったとする )。 この結果を使って、 母集団のパラメータ $q$ の値が何であったかを推定したい。 これが幾何分布のパラメータ推定である。
  パラメータ推定には、 様々な方法があるが、 幾何分布の最尤推定では尤度
幾何分布の最尤推定値
$$ \tag{5.3} $$ が最大になるようにパラメータ推定を行う。 すなわち、 観測結果 $(5.2)$ から計算される尤度 $L(q)$ が最大になる $q$ を求め、 それを推定値とする。
最尤推定値の導出
  尤度 $(5.3)$ を確率密度関数 $(5.1)$ によって表すと、
幾何分布の最尤推定値
$$ \tag{5.4} $$ である。 $L$ が最大になる $q$ は、 $L$ を $q$ で微分して $0$ になる条件
幾何分布の最尤推定値
から求められる。 ただし、この計算を行う代わりに、 尤度が $ L(q)\gt 0 $ であるので、 $\log L$ を $q$ で微分して、 $0$ になる条件
幾何分布の最尤推定値
$$ \tag{5.5} $$ から求めてもよい (「 $\log f(x)$ が $x=x_m$ で最大 $\Longrightarrow$ $f(x)$ もまた $x=x_m$ で最大」 を参考)。 $(5.4)$ から尤度の対数の微分は、
幾何分布の最尤推定値
$$ \tag{5.6} $$ となることから、 条件 $(5.5)$ は、
幾何分布の最尤推定値
と表される。 この式から
幾何分布の最尤推定値
$$ \tag{5.7} $$ を得る。 ここで、 $\overline{x}$ は 観測値 $(5.2)$ の平均値である。
  このように条件 $(5.5)$ から $(5.7)$ が得られたが、 この値において、 $\log L$ が最大になるかどうかはまだ分からない (関数が最小になる場合や極小/極大になる場合、 および、 平らになる場合もありうる)。 そこで、 再度 $(5.6)$ の $ \frac{\mathrm{d} }{\mathrm{d} q} \log L $ に着目すると、 第一項の
幾何分布の最尤推定値
が $ q$ についての単調減少関数であり、 第二項の
幾何分布の最尤推定値
もまた $q$ についての単調減少関数である ($0\lt q \lt 1$ であることに注意)。 ゆえに、 $ \frac{\mathrm{d} }{\mathrm{d} q} \log L $ は単調減少関数である 。 なおかつ、 $q = \frac{1}{\overline{x}}$ のときにのみ $0$ となる。 よって、次の増減表が得られる。
幾何分布の最尤推定値
これより、 $\log L$ は $q = \frac{1}{\overline{x}}$ のときに最大になることが分かる。
結論
  したがって、 $L$ も $q= \frac{1}{\overline{x}}$ のときに最大になる。 以上から、 幾何分布のパラメータ $q$ の最尤推定値は、 観測値の平均値の逆数である。 すなわち、
幾何分布の最尤推定値
である。

指数分布の最尤推定
  指数分布
指数分布の最尤推定
$$ \tag{6.1} $$ のパラメータ $\lambda$ $(\lambda \gt 0) $ の最尤推定値は、 観測値
$$ \tag{6.2} $$ の平均値の逆数である。 すなわち、
指数分布の最尤推定値
である。
解答例
指数分布の最尤推定
  母集団の確率密度関数が指数分布 $(6.1)$ に従うことは分かっているが、 パラメータ $\lambda$ の値が何であるかは分かっていない。 そういう状態で $n$ 回の観測を行ったところ、 観測値が $(6.2)$ であったとする (正確には観測値が $(6.2)$を含む小区間内であったとする )。 この結果を使って、 母集団のパラメータ $\lambda$ の値が何であったかを推定したい。 これが指数分布のパラメータ推定である。
  パラメータ推定には、 様々な方法があるが、 指数分布の最尤推定では尤度
幾何分布の最尤推定値
$$ \tag{6.3} $$ が最大になるようにパラメータ推定を行う。 すなわち、 観測結果 $(6.2)$ から計算される尤度 $L(\lambda)$ が最大になる $\lambda$ を求め、 それを推定値とする。
最尤推定値の導出
  尤度 $(6.3)$ を確率密度関数 $(6.1)$ によって表すと、
幾何分布の最尤推定値
$$ \tag{6.4} $$ である。 $L(\lambda)$ が最大になる $\lambda$ は、 $L(\lambda)$ を $\lambda$ で微分して $0$ になる条件
幾何分布の最尤推定値
から求められる。 ただし、 この計算を行う代わりに、 尤度が $ L(\lambda) \gt 0 $ であるので、 $\log L$ を $\lambda$ で微分して、 $0$ になる条件
幾何分布の最尤推定値
$$ \tag{6.5} $$ から求めてもよい ( 「 $\log f(x)$ が $x=x_m$ で最大 $\Longrightarrow$ $f(x)$ もまた $x=x_m$ で最大」 を参考)。 $(6.4)$ から尤度の対数の微分は、
幾何分布の最尤推定値
$$ \tag{6.6} $$ であるので、 $(6.5)$ は、
幾何分布の最尤推定値
と表される。 これより、
幾何分布の最尤推定値
$$ \tag{6.7} $$ を得る。 ここで、 $\overline{x}$ は観測値 $(6.2)$ の平均値である。
  このように条件 $(6.5)$ から $(6.7)$ が得られたが、 この値において、 $\log L$ が最大になるかどうかはまだ分からない (関数が最小になる場合や極小/極大になる場合、 および、 平らになる場合もありうる)。 そこで、 再度 $(6.6)$ の $ \frac{\mathrm{d} }{\mathrm{d} \lambda} \log L $ に着目すると、 $\lambda$ についての単調減少関数であり、 $\lambda = \frac{1}{\overline{x}}$ のときにのみ $0$ となる。 よって、次の増減表が得られる。
幾何分布の最尤推定値
これより、 $\log L$ は $\lambda = \frac{1}{\overline{x}}$ のときに最大になることが分かる。
結論
  したがって、 $L$ も $\lambda = \frac{1}{\overline{x}}$ のときに最大になる。 以上から、 指数分布のパラメータ $\lambda$ の最尤推定値は、 観測値の平均値の逆数である。 すなわち、
幾何分布の最尤推定値
である。