正規分布の最尤推定
最終更新 2018年 3月25日
正規分布
を定義するパラメータ $\mu$ と $\sigma^2$ の最尤推定量は、
それぞれ
観測値 $\{x_{1}^{M}, x_{2}^{M}, \cdots, x_{n}^{M} \}$ の平均値と分散である。
すなわち、
である。
ここで、
$
\overline{x} = \frac{1}{n} \sum_{i=1}^{n} x_{i}^{M}
$
とした。
解説
正規分布のパラメータ推定
母集団の確率密度関数が正規分布
に従うことは分かっているが、
パラメータ $\mu$ と $\sigma^2$ の値が何であるかは分かっていない。
そういう状態で $n$ 回の観測を行ったところ、
観測値 $\{x_{1}, x_{2}, \cdots, x_{n} \}$ のそれぞれが微小な区間
の中に収まっていたとする。
ここで、
$\Delta x_{i}^{M}$ は、
微小な値である。
この結果を使って、
パラメータ $\mu$ と $\sigma^2$ の値が何であったかを推定したい。
これを正規分布の
パラメータ推定という。
正規分布の最尤推定
パラメータ推定には、
様々な方法があるが、
正規分布の
最尤推定では、
尤度と呼ばれる次の関数
が最大になるようにパラメータ推定を行う。
すなわち、
観測結果 $(2)$ から計算される尤度 $L$ が最大になる $\mu$ と $\sigma^2$ を求め、
それらを推定値とする。
尤度とは?
尤度と確率の関係をここで述べる。
観測結果全体が $(2)$ となる確率を
と表し、
各観測の結果が
となる確率を $\mathrm{Pr}(x_{i}^{M})$ と表すことにする。
これは、
確率密度関数 $(1)$ の積分によって、
と表される。
各観測が
独立に行われたとすると、
が成立するので、
$(4)$ は、
と表される。
この式では、
右辺の積分の被積分関数が尤度 $(3)$ になっている。
ところで、
一般に積分区間内で被積分関数が大きな値をとれば、
積分の値も大きくなるので、
次のことが分かる。
すなわち、
尤度が最大になるときに、
確率 $\mathrm{Pr}(
x_{1}^{M}, \hspace{1mm} x_{2}^{M}, \hspace{1mm}\cdots, \hspace{1mm}x_{n}^{M}
) $
も最大になる。
よって、
尤度を最大にするパラメータを求めれば、
観測値全体が $(2)$ となる
確率が最大になる場合の母集団分布が求められる。
最尤推定値の導出
尤度を最大にする $\mu$ と $\sigma^2$ を求める。
尤度 $(3)$ を確率密度関数 $(1)$ によって表すと、
である。
$L$ が最大になる $\mu$ と $\sigma^2$ は、
$L$ を $\mu$ と $\sigma^2$ で微分して $0$ になる条件
から求められる。
ただし、
最尤法では、
尤度が
を満たすことから、
$\log L$ を $\mu$ と $\sigma$ で微分して、
$0$ になる条件
から求められる(これについては、
「
$ f(x)>0$ のとき、 $\log f(x)$ が $x=x_m$ で最大になるならば、
$f(x)$ もまた $x=x_m$ で最大になる」 を参考)。
$(5)$ から尤度の対数は、
と表されるので、
各偏微分が
となることから、
条件 $(6)$ は、
と表される。
第1式から $\mu$ の値として、
を得る。
ここで、 $\overline{x}$ は 観測値 $(2)$ の
平均値である。
この結果を第2式に代入すると、
を得る。
ここで、$v$ は、観測値 $(2)$ の
分散である。
このように条件 $(6)$ から $\mu$ と $\sigma^2$ の値が得られたが、
この値において、
$\log L$ が最大になるかどうかはまだ分からない。
なぜなら、
条件 $(6)$ から得られる結論には、
一般に、
関数が最小になる場合や極小/極大になる場合、
および、
平らになる場合も含まれるからである。
そこで以下では、 $\mu$ と $\sigma^2$ がそれぞれ $(8)$ と $(9)$ のときに、
$\log L$ が最大になることを証明する。
尤度が最大になることの証明
$(7)$ から $\log L$ の $\mu$ についての微分は、
であるが、
この関数は、
任意の
$\sigma^2$ に対して、
$\mu$ についての単調減少関数であり、
$\mu = \overline{x}$ のときのみ
$0$ となる次のような増減表を持つ関数である。
よって、
$\log L$ は、
$\sigma^2$ がどんな値であっても、
$\mu = \overline{x}$ のときに最大になる。
そこで、
$\mu = \overline{x}$ とし、
$\log L$ の $\sigma^2$ についての振る舞いを調べると、
であることから、
$\frac{\partial }{\partial \sigma^2} \log L$ は $\sigma^2$ の単調減少関数であり、
$\sigma^{2} = v$ のときにのみ $0$ となるので、
次の増減表が作られる。
よって、
$\log L$ は、
$\sigma^2 = v$ のときに最大になる。
以上から、
$\log L$ は、
$\mu= \overline{x}$ かつ $\sigma^2 = v$ のときに最大となる。
結論
$\log L$ が
$\mu= \overline{x}$ かつ $\sigma^2 = v$ のときに最大になることから、
$L$ そのものも、このときに最大になる。
言い換えると、
正規分布の尤度 $L$ を 最大にするパラメータ $\mu$ と $\sigma^2$ の値は、
それぞれ観測値の平均値と分散である。
すなわち、
である。