next up previous
次へ: 汎化と竹内の情報量規準 (TIC) 上へ: 学習における汎化と EM アルゴリズム 戻る: 学習における汎化と EM アルゴリズム

最尤推定

独立同分布に従うサンプル $X^N = x_{(1)},\ldots,x_{(N)}$ が与えられたとき,モデ ル $p(x;\ \theta)$ の尤度関数の対数は,

\begin{displaymath}
\sum_{j=1}^N \log p(x_{(j)};\ \theta),
\end{displaymath} (3.1)

となり,これを最大にする $\theta$ が (サンプル $X^N$ に対する) 最尤推定量である. これを一般化して,確率分布 $q(x)$ が与えられたとき,モデル $p(x;\ \theta)$ の(分布 $q(x)$ に対する)最尤推定量は平均対数尤度
\begin{displaymath}
\int q(x) \log p(x;\ \theta)\,{\rm d}x,
\end{displaymath} (3.2)

を最大化する $\theta$ であるとする. サンプルに対する最尤推定量は$q(x)$ とし て経験分布
\begin{displaymath}
q(x) = {1\over N}\sum_{j=1}^N \delta(x - x_{(j)}),
\end{displaymath} (3.3)

を選んだ場合に対応する. また,一般の分布 $q(x)$ に対する最尤推 定量は,$q(x)$ から無限個のサンプルが得られた場合の最尤推定量の極限に なっている. 本論文ではこの極限が存在するような正則条件を満たす $q(x)$ だけを考える.

情報幾何の言葉[14,16]でいえば,最尤推定は確率分布の空 間において,対象の分布 $q(x)$ からモデルの空間への m-射影をとること, すなわち Kullback-Leibler ダイバージェンスの最小値をとるモデルを求める ことと等価になっている. モデルが指数型分布族ならばその射影を求めること は易しいが,混合分布は指数型分布族ではない. 実際,混合分布の対数尤度は

\begin{displaymath}
\log \left\{\sum_{k=1}^K p_k f_k(x;\ \theta_k) \right\},
\end{displaymath} (3.4)

と書け,パラメータに関して非線形な形をしている. したがって,混合分布の場合, EM アルゴリズムなどの反復法によって最尤推定量を求める必要がある.



Shotaro Akaho 平成15年7月22日