最尤法の幾つかの例題

	最尤推定の例題
-	最尤法とは？
-	正規分布
-	ポアソン分布
-	二項分布
-	幾何分布
-	指数分布

最尤法とは

母集団の確率分布がパラメータ $\theta$ に依存する確率分布 $p(x, \theta)$ であることは分かっているが、 $\theta$ の値が何であるかが分からない。そのような状況で、 $n$ 回の観測を行って、観測値

$$ \tag{1.1} $$ を得たとする。この結果を使って、 $\theta$ の値を推定したい。
このとき、尤度と呼ばれる次の関数

$$ \tag{1.2} $$ を定義し、この関数を最大にする $\theta$ を求め、その値を観測値から得た推定値とする方法を最尤法 (maximum likelihood method) という。

尤度とは？
観測結果全体が $(1.1)$ となる確率を

と表す。各観測が独立に行われたすると、

が成り立つ。右辺は尤度 $(1.2)$ そのものである。このように、尤度とは観測が独立に試行された場合に観測結果 $(1.1)$ を得る確率である。
最尤法では、文字通り尤度を最大にするパラメータが求まる。パラメータが求まれば、確率分布 $p(x,\theta)$ が定まる。ゆえに、最尤法によって求まるものは、観測結果 $(1.1)$ が得られる確率が最も高まる確率分布 $p(x,\theta)$ である。
なお、連続型確率分布の場合には、確率密度関数によって尤度が定義されるが考え方は変わらない。パラメータが複数であっても同様である。

正規分布の最尤推定

正規分布

$$ \tag{2.1} $$ を定義するパラメータ $\mu$ と $\sigma^2$ の最尤推定量は、それぞれ観測値

$$ \tag{2.2} $$ の平均値と分散である。すなわち、

である。

正規分布のパラメータ推定

母集団の確率密度関数が正規分布 $(2.1)$ であることは分かっているが、パラメータ $\mu, \sigma^2$ の値が何であるかは分かっていない。そういう状態で $n$ 回の観測を行ったところ、観測値が $(2.2)$ であったとする (正確には観測値が $(2.2)$ を含む小区間内であったとする)。この結果を使って、母集団のパラメータ $\mu, \sigma^2$ の値が何であったかを推定したい。これが正規分布のパラメータ推定である。パラメータ推定には、様々な方法があるが、正規分布の最尤推定では、尤度

$$ \tag{2.3} $$ が最大になるようにパラメータ推定を行う。すなわち、観測結果 $(2.2)$ から計算される尤度 $L$ が最大になる $\mu$ と $\sigma^2$ を求め、それらを推定値とする。

最尤推定値の導出

尤度 $(2.3)$ を確率分布 $(2.1)$ によって表すと、

$$ \tag{2.4} $$ である。 $L$ が最大になる $\mu,\sigma^2$ は、 $L$ を $\mu$ と $\sigma^2$ で微分して $0$ になる条件

から求められる。ただし、最尤法では尤度が $ L(\mu, \sigma^2) \gt 0 $ を満たすことから、 $\log L$ を $\mu$ と $\sigma$ で微分して、 $0$ になる条件

$$ \tag{2.5} $$ から求められる (「 $\log f(x)$ が $x=x_m$ で最大 $\Longrightarrow$ $f(x)$ もまた $x=x_m$ で最大」を参考)。 $(2.4)$ から尤度の対数は、

と表されるので、各偏微分が

$$ \tag{2.6} $$ となることから、条件 $(2.5)$ は、

と表される。第1式から

$$ \tag{2.7} $$ を得る。ここで、 $\overline{x}$ は観測値 $(2.2)$ の平均値である。この結果を第2式に代入すると、

$$ \tag{2.8} $$ を得る。ここで、 $v$ は観測値 $(2.2)$ の分散である。
このように条件 $(2.5)$ から $(2.7)$ と $(2.8)$ が得られたが、これらの値において、 $\log L$ が最大になるかどうかはまだ分からない。そこで再度 $ \frac{\partial }{\partial \mu} \log L $ に注目すると、

であるが、この関数は、任意の $\sigma^2$ に対して、 $\mu$ についての単調減少関数であり、 $\mu = \overline{x}$ のときにのみ $0$ となる次のような増減表を持つ関数である。

よって、 $\log L$ は $\sigma^2$ がどんな値であっても、 $\mu = \overline{x}$ のときに最大になる。そこで、 $\mu = \overline{x}$ とし、 $\log L$ の $\sigma^2$ についての振る舞いを調べると、

であることから、 $\frac{\partial }{\partial \sigma^2} \log L$ は $\sigma^2$ の単調減少関数であり、 $\sigma^{2} = v$ のときにのみ $0$ となる。したがって、次の増減表が作られる。

これより、 $\log L$ は $\sigma^2 = v$ のときに最大になる。以上から $\log L$ は、 $\mu= \overline{x}$ かつ $\sigma^2 = v$ のときに最大となる。

結論

よって、 $L$ も $\mu= \overline{x}$ かつ $\sigma^2 = v$ のときに最大になる。以上から正規分布の最尤推定値は、それぞれ観測値の平均値と分散である。すなわち、

である。

ポアソン分布の最尤推定

ポアソン分布

$$ \tag{3.1} $$ のパラメータ $\lambda$ の最尤推定量は、観測値

$$ \tag{3.2} $$ の平均値である。すなわち、

である。

ポアソン分布のパラメータ推定

母集団の確率密度関数がポアソン分布 $(3.1)$ であることは分かっているが、パラメータ $\lambda$ の値が何であるかは分かっていない。そういう状態で $n$ 回の観測を行ったところ、観測値が $(3.2)$ であったとする (正確には観測値が $(3.2)$ を含む小区間内であったとする)。この結果を使って、母集団のパラメータ $\lambda$ の値が何であったかを推定したい。これがポアソン分布のパラメータ推定である。
パラメータ推定には、様々な方法があるが、ポアソン分布の最尤推定では尤度

$$ \tag{3.3} $$ が最大になるようにパラメータ推定を行う。すなわち、観測結果 $(3.2)$ から計算される尤度 $L(\lambda)$ が最大になる $\lambda$ を求め、それを推定値とする。

最尤推定値の導出

尤度 $(3.3)$ を確率分布 $(3.1)$ によって表すと、

$$ \tag{3.4} $$ である。 $L$ が最大になる $\lambda$ は、 $L$ を $\lambda$ で微分して $0$ になる条件

から求められる。ただし、最尤法では尤度が $ L(\lambda) \gt 0 $ を満たすことから、 $\log L$ を $\lambda$ で微分して、 $0$ になる条件

$$ \tag{3.5} $$ から求められる (「 $\log f(x)$ が $x=x_m$ で最大 $\Longrightarrow$ $f(x)$ もまた $x=x_m$ で最大」を参考)。 $(3.4)$ から尤度の対数の微分は、

$$ \tag{3.6} $$ となることから、 $(3.5)$ は、

と表される。これより、

$$ \tag{3.7} $$ を得る。ここで、 $\overline{x}$ は観測値 $(3.2)$ の平均値である。
このように条件 $(3.5)$ から $(3.7)$ が得られたが、この値において、 $\log L$ が最大になるかどうかはまだ分からない (関数が最小になる場合や極小/極大になる場合、および、平らになる場合もありうる)。そこで、再度 $(3.6)$ の $ \frac{\mathrm{d} }{\mathrm{d} \lambda} \log L $ に着目すると、これは $\lambda$ についての単調減少関数であり、 $\lambda = \overline{x}$ のときにのみ $0$ となる。よって、次の増減表が得られる。

これより、 $\log L$ は $\lambda = \overline{x}$ のときに最大になる。

結論

したがって、 $L$ も $\lambda = \overline{x}$ のときに最大になる。以上から、幾何分布のパラメータ $\lambda$ の最尤推定値は、観測値の平均値である。すなわち、

である。

二項分布の最尤推定

二項分布

$$ \tag{4.1} $$ のパラメータ $q$ の最尤推定量は、観測値

$$ \tag{4.2} $$ の平均値の $\frac{1}{m}$ 倍である。すなわち、

である。

解答例

二項分布のパラメータ推定

母集団の確率分布が二項分布 $(4.1)$ であることは分かっているが、パラメータ $q$ の値が何であるかは分かっていない。そういう状態で $n$ 回の観測を行ったところ、観測値が $(4.2)$ であったとする。この結果を使って、母集団のパラメータ $q$ の値が何であったかを推定したい。これが二項分布のパラメータ推定である。
パラメータ推定には、様々な方法があるが、二項分布の最尤推定では尤度

$$ \tag{4.3} $$ が最大になるようにパラメータ推定を行う。すなわち、観測結果 $(4.2)$ から計算される尤度 $L(q)$ が最大になる $q$ を求め、それを推定値とする。

最尤推定値の導出

尤度 $(4.3)$ を確率分布 $(4.1)$ によって表すと、

$$ \tag{4.4} $$ である。 $L$ が最大になる $q$ は、 $L$ を $q$ で微分して $0$ になる条件

から求められる。ただし、この計算を行う代わりに、尤度が $ L(q) \gt 0 $ であるので、 $\log L$ を $q$ で微分して、 $0$ になる条件

$$ \tag{4.5} $$ から求められる (「 $\log f(x)$ が $x=x_m$ で最大 $\Longrightarrow$ $f(x)$ もまた $x=x_m$ で最大」を参考)。 $(4.4)$ から尤度の対数の微分は、

$$ \tag{4.6} $$ であるので、 $(4.5)$ は、

と表される。これより、

$$ \tag{4.7} $$ を得る。ここで、 $\overline{x}$ は観測値 $(4.2)$ の平均値である。
このように条件 $(4.5)$ から $(4.7)$ の値が得られたが、この値において、 $\log L$ が最大になるかどうかはまだ分からない (関数が最小になる場合や極小/極大になる場合、および、平らになる場合もありうる)。そこで、再度 $(4.6)$ の $\frac{\mathrm{d} }{\mathrm{d} q} \log L$ に着目すると、第一項の

が $ q$ についての単調減少関数であり、第二項の

もまた $q$ についての単調減少関数である ($0\lt q \lt 1$ であることに注意)。ゆえに、 $ \frac{\mathrm{d} }{\mathrm{d} q} \log L $ は単調減少関数である。なおかつ、 $q = \frac{1}{m} \overline{x}$ のときにのみ $0$ となるので、次のような増減表を持つ関数である。

これより、 $\log L$ は $q = \frac{1}{m}\overline{x}$ のときに最大になる。

結論

したがって、 $L$ も $q = \frac{1}{m}\overline{x}$ のときに最大になる。以上から二項分布のパラメータ $q$ の最尤推定値は、

である。

幾何分布の最尤推定

幾何分布

$$ \tag{5.1} $$ のパラメータ $q$ の最尤推定値は、観測値

$$ \tag{5.2} $$ の平均値の逆数である。すなわち、

である。

解答例

幾何分布のパラメータ推定

母集団の確率密度関数が幾何分布 $(5.1)$ であることは分かっているが、パラメータ $q$ の値が何であるかは分かっていない。そういう状態で $n$ 回の観測を行ったところ、観測値が $(5.2)$ であったとする (正確には観測値が $(5.2)$を含む小区間内であったとする )。この結果を使って、母集団のパラメータ $q$ の値が何であったかを推定したい。これが幾何分布のパラメータ推定である。
パラメータ推定には、様々な方法があるが、幾何分布の最尤推定では尤度

$$ \tag{5.3} $$ が最大になるようにパラメータ推定を行う。すなわち、観測結果 $(5.2)$ から計算される尤度 $L(q)$ が最大になる $q$ を求め、それを推定値とする。

最尤推定値の導出

尤度 $(5.3)$ を確率密度関数 $(5.1)$ によって表すと、

$$ \tag{5.4} $$ である。 $L$ が最大になる $q$ は、 $L$ を $q$ で微分して $0$ になる条件

から求められる。ただし、この計算を行う代わりに、尤度が $ L(q)\gt 0 $ であるので、 $\log L$ を $q$ で微分して、 $0$ になる条件

$$ \tag{5.5} $$ から求めてもよい (「 $\log f(x)$ が $x=x_m$ で最大 $\Longrightarrow$ $f(x)$ もまた $x=x_m$ で最大」を参考)。 $(5.4)$ から尤度の対数の微分は、

$$ \tag{5.6} $$ となることから、条件 $(5.5)$ は、

と表される。この式から

$$ \tag{5.7} $$ を得る。ここで、 $\overline{x}$ は観測値 $(5.2)$ の平均値である。
このように条件 $(5.5)$ から $(5.7)$ が得られたが、この値において、 $\log L$ が最大になるかどうかはまだ分からない (関数が最小になる場合や極小/極大になる場合、および、平らになる場合もありうる)。そこで、再度 $(5.6)$ の $ \frac{\mathrm{d} }{\mathrm{d} q} \log L $ に着目すると、第一項の

が $ q$ についての単調減少関数であり、第二項の

もまた $q$ についての単調減少関数である ($0\lt q \lt 1$ であることに注意)。ゆえに、 $ \frac{\mathrm{d} }{\mathrm{d} q} \log L $ は単調減少関数である。なおかつ、 $q = \frac{1}{\overline{x}}$ のときにのみ $0$ となる。よって、次の増減表が得られる。

これより、 $\log L$ は $q = \frac{1}{\overline{x}}$ のときに最大になることが分かる。

結論

したがって、 $L$ も $q= \frac{1}{\overline{x}}$ のときに最大になる。以上から、幾何分布のパラメータ $q$ の最尤推定値は、観測値の平均値の逆数である。すなわち、

である。

指数分布の最尤推定

指数分布

$$ \tag{6.1} $$ のパラメータ $\lambda$ $(\lambda \gt 0) $ の最尤推定値は、観測値

$$ \tag{6.2} $$ の平均値の逆数である。すなわち、

である。

解答例

指数分布の最尤推定

母集団の確率密度関数が指数分布 $(6.1)$ に従うことは分かっているが、パラメータ $\lambda$ の値が何であるかは分かっていない。そういう状態で $n$ 回の観測を行ったところ、観測値が $(6.2)$ であったとする (正確には観測値が $(6.2)$を含む小区間内であったとする )。この結果を使って、母集団のパラメータ $\lambda$ の値が何であったかを推定したい。これが指数分布のパラメータ推定である。
パラメータ推定には、様々な方法があるが、指数分布の最尤推定では尤度

$$ \tag{6.3} $$ が最大になるようにパラメータ推定を行う。すなわち、観測結果 $(6.2)$ から計算される尤度 $L(\lambda)$ が最大になる $\lambda$ を求め、それを推定値とする。

最尤推定値の導出

尤度 $(6.3)$ を確率密度関数 $(6.1)$ によって表すと、

$$ \tag{6.4} $$ である。 $L(\lambda)$ が最大になる $\lambda$ は、 $L(\lambda)$ を $\lambda$ で微分して $0$ になる条件

から求められる。ただし、この計算を行う代わりに、尤度が $ L(\lambda) \gt 0 $ であるので、 $\log L$ を $\lambda$ で微分して、 $0$ になる条件

$$ \tag{6.5} $$ から求めてもよい ( 「 $\log f(x)$ が $x=x_m$ で最大 $\Longrightarrow$ $f(x)$ もまた $x=x_m$ で最大」を参考)。 $(6.4)$ から尤度の対数の微分は、

$$ \tag{6.6} $$ であるので、 $(6.5)$ は、

と表される。これより、

$$ \tag{6.7} $$ を得る。ここで、 $\overline{x}$ は観測値 $(6.2)$ の平均値である。
このように条件 $(6.5)$ から $(6.7)$ が得られたが、この値において、 $\log L$ が最大になるかどうかはまだ分からない (関数が最小になる場合や極小/極大になる場合、および、平らになる場合もありうる)。そこで、再度 $(6.6)$ の $ \frac{\mathrm{d} }{\mathrm{d} \lambda} \log L $ に着目すると、 $\lambda$ についての単調減少関数であり、 $\lambda = \frac{1}{\overline{x}}$ のときにのみ $0$ となる。よって、次の増減表が得られる。

これより、 $\log L$ は $\lambda = \frac{1}{\overline{x}}$ のときに最大になることが分かる。

結論

したがって、 $L$ も $\lambda = \frac{1}{\overline{x}}$ のときに最大になる。以上から、指数分布のパラメータ $\lambda$ の最尤推定値は、観測値の平均値の逆数である。すなわち、

である。

最尤法の幾つかの例題

関連リンク

サイト情報