一般的な定式化

次へ: 独立なサンプルが与えられた時の混合分布の学習 上へ: EM アルゴリズム 戻る: 一般的な特徴

一般的な定式化

観測値が与えられたとき，確率モデル $p(x;\ \theta)$ の最尤推定量を求めることが問題である．観測される変数は，背後にある完全な確率変数の不完全な観測値であるとする．すなわちからへの多対一の写像が存在するとする．またその逆像をとする．具体的にはの一部の成分だけがとして観測されるという例が典型的であり，後で述べるように混合分布の場合もそれにあたる．

EM アルゴリズムは適当な初期値 $\theta^{(0)}$ から始め，以下の E と M の各ステップを繰り返すことによって解を更新する． (E と M を合わせて 1 ステップと数えたとき) ステップ目のパラメータの値を $\theta\tth$ とする．

E (Expectation) ステップ : 次で定義される完全データの対数尤度の条件付き期待値を計算する．

$\begin{eqnarray*} Q(\theta\mid x;\ \theta\tth ) &=& {\rm E}_{\theta\tth }\left[... ...t_{Y(x)} p(y\mid x;\ \theta\tth ) \log p(y;\ \theta)\,{\rm d}y. \end{eqnarray*}$
M (Maximization) ステップ : $Q(\theta\mid x;\ \theta\tth )$ を $\theta$ について最大化したものを $\theta\tpth$ とおく

特に，完全データの分布 $p(y;\ \theta)$ が指数分布族，

$\begin{displaymath} p(y;\ \theta) = \exp\{\sum_i F_i(y)\theta_i - \varphi(\theta) + C(y)\}, \end{displaymath}$

(3.15)

ならば，

を微分した式がパラメータについての線形方程式になるため，EM ステップは次のような簡単な形で書き表すことができる．

$\begin{displaymath} \eta_i\tpth = {\rm E}_{\theta\tth }\left[\,F_i(y)\mid x\,\right]. \end{displaymath}$

(3.16)

ただし， $\eta_i$ は期待値パラメータ $\eta_i = {\rm E}_{\theta}\left[\,F_i(y)\,\right]$ である． $\eta$ と $\theta$ は互いに双対座標系になっており， Legendre 変換により互いに変換することができる．指数分布族に対してこのような簡単な形の式が得られるのは，3.4.7 で述べる幾何学的な意味づけに関係する．

さて，Dempster らは，EM アルゴリズムがの尤度を単調に増加させることを示した．

定理 1 (Dempster[30]) EM アルゴリズムは

の尤度を単調に増加させる．

ここではその証明の概略を示しておく．まず，ベイズの定理から，完全確率変数と不完全確率変数の分布の間に次の関係が成り立つ．

$\begin{displaymath}p(y\mid x;\ \theta) = {p(y;\ \theta)\over p(x;\ \theta)}. \end{displaymath}$

(3.17)

両辺の対数を取ると，

の対数尤度は

$\begin{displaymath}\log p(x;\ \theta) = \log p(y;\ \theta) - \log p(y\mid x;\ \theta), \end{displaymath}$

(3.18)

となる．そこで両辺を，パラメータ $\theta\tth$ を持ち，観測された

についての

の条件付き分布で期待値を計算すると，

$\begin{displaymath}\log p(x;\ \theta) = {\rm E}_{\theta\tth }\left[\,\log p(y;\ ... ..._{\theta\tth }\left[\,\log p(y\mid x;\ \theta)\mid x\,\right], \end{displaymath}$

(3.19)

となる．右辺第 1 項は E ステップで計算される

である．ここで，第 2 項を

$\begin{displaymath}H(\theta\mid x;\ \theta\tth ) = \int_{Y(x)} p(x\mid y;\ \theta\tth ) \log p(x\mid y;\ \theta)\,{\rm d}y, \end{displaymath}$

(3.20)

とおき， $\theta=\theta\tpth$ とおくと，M ステップで

を最大化するので，

$\begin{displaymath} Q(\theta\tpth\mid x;\ \theta\tth ) \ge Q(\theta\tth\mid x;\ \theta\tth ), \end{displaymath}$

(3.21)

を満たす．一方 Jensen の不等式より

は $\theta=\theta\tth$ で最大値を取るので，

$\begin{displaymath}H(\theta\tpth\mid x;\ \theta\tth ) \le H(\theta\tth\mid x;\ \theta\tth ), \end{displaymath}$

(3.22)

を満たす．この両者から，

$\begin{displaymath}\log p(x;\ \theta\tpth ) \ge \log p(x;\ \theta\tth ), \end{displaymath}$

(3.23)

が成り立ち，

に関する尤度の単調性が示された．収束性に関する厳密な議論は Wu[91] によって行われ，EM アルゴリズムが適当な正則条件のもとで局所最適解または鞍点に収束することが示されている．

次に，EM アルゴリズムの収束の速度について知られている結果を述べる．真の解 $\theta^*$ の近傍での EM アルゴリズムの振舞いは次のように一次近似できる．

$\begin{displaymath} \theta\tpth - \theta^* = I_c^{-1}(\theta^*; x) I_m(\theta^*; x) (\theta\tth - \theta^*). \end{displaymath}$

(3.24)

ここで， $I_c(\theta; x)$ は完全変数の分布の条件付き Fisher 情報量

$\begin{displaymath} I_c(\theta; x) = -{\rm E}_{\theta}\left[\,{\partial^2\log p... ... \partial\theta\partial\theta^{\rm T}}\Biggm\vert x\,\right], \end{displaymath}$

(3.25)

であり， $I_m(\theta, x)$ は条件付き分布の条件付き Fisher 情報量

$\begin{displaymath} I_m(\theta; x) = -{\rm E}_{\theta}\left[\,{\partial^2\log p... ... \partial\theta\partial\theta^{\rm T}}\Biggm\vert x\,\right], \end{displaymath}$

(3.26)

である． $I_c^{-1} I_m$ は定性的には観測されない情報の割合を表している．したがって式 (3.24) は，

の不完全性が増すに連れ収束が遅くなることを示している．

次へ: 独立なサンプルが与えられた時の混合分布の学習 上へ: EM アルゴリズム 戻る: 一般的な特徴

Shotaro Akaho 平成15年7月22日