次へ: 独立なサンプルが与えられた時の混合分布の学習
上へ: EM アルゴリズム
戻る: 一般的な特徴
一般的な定式化
観測値
が与えられたとき,確率モデ
ル
の最尤推定量を求めることが問題である. 観測される変
数
は,背後にある完全な確率変数
の不完全な観測値であるとする.
すなわち
から
への多対一の写像
が存在するとする.
またその逆像を
とする.
具体的には
の一部の成分だけが
として観測されるという例が典型的
であり,後で述べるように混合分布の場合もそれにあたる.
EM アルゴリズムは適当な初期値
から始め,以下の E と
M の各ステップを繰り返すことによって解を更新する.
(E と M を合わせて 1 ステップと数えたとき)
ステップ目のパラメータの値を
とする.
- E (Expectation) ステップ :
次で定義される完全データの対数尤度の条件付き期待値
を計算する.
- M (Maximization) ステップ :
を
について
最大化したものを
とおく
特に,完全データの分布
が指数分布族,
 |
(3.15) |
ならば,
を微分した式がパラメータについての線形方程式になるため,EM
ステップは次のような簡単な形で書き表すことができる.
![\begin{displaymath}
\eta_i\tpth = {\rm E}_{\theta\tth }\left[\,F_i(y)\mid x\,\right].
\end{displaymath}](img112.png) |
(3.16) |
ただし,
は期待値パラメータ
である.
と
は互いに双対座標系になっており,
Legendre 変換により互いに変換することができる.
指数分布族に対してこのような簡単な形の式が得られるの
は,3.4.7 で述べる幾何学的な意味づけに関係する.
さて,Dempster らは,EM アルゴリズムが
の尤度を単調に増加させるこ
とを示した.
定理 1 (Dempster[
30])
EM アルゴリズムは

の尤度を単調に増加させる.
ここではその証明の概略を示しておく. まず,ベイズの定理から,完全
確率変数
と不完全確率変数
の分布の間に次の関係が成り立つ.
 |
(3.17) |
両辺の対数を取ると,
の対数尤度は
 |
(3.18) |
となる. そこで両辺を,パラメータ
を持ち,観測された
についての
の条件付き分布で期待値を計算すると,
![\begin{displaymath}\log p(x;\ \theta) = {\rm E}_{\theta\tth }\left[\,\log p(y;\ ...
..._{\theta\tth }\left[\,\log p(y\mid x;\ \theta)\mid x\,\right],
\end{displaymath}](img118.png) |
(3.19) |
となる. 右辺第 1 項は E ステップで計算される
である.
ここで,第 2 項を
 |
(3.20) |
とおき,
とおくと,M ステップで
を最大化するので,
 |
(3.21) |
を満たす. 一方 Jensen の不等式より
は
で最大値を
取るので,
 |
(3.22) |
を満たす. この両者から,
 |
(3.23) |
が成り立ち,
に関する尤度の単調性が示された. 収束性に関する厳密な
議論は Wu[91] によって行われ,EM アルゴリズムが適当な正則条件
のもとで局所最適解または鞍点に収束することが示されている.
次に,EM アルゴリズムの収束の速度について知られている結果を述べる. 真
の解
の近傍での EM アルゴリズムの振舞いは次のように一次近似
できる.
 |
(3.24) |
ここで,
は完全変数の分布の条件付き Fisher 情報量
![\begin{displaymath}
I_c(\theta; x) = -{\rm E}_{\theta}\left[\,{\partial^2\log p...
...
\partial\theta\partial\theta^{\rm T}}\Biggm\vert x\,\right],
\end{displaymath}](img127.png) |
(3.25) |
であり,
は条件付き分布の条件付き Fisher 情報量
![\begin{displaymath}
I_m(\theta; x) = -{\rm E}_{\theta}\left[\,{\partial^2\log p...
...
\partial\theta\partial\theta^{\rm T}}\Biggm\vert x\,\right],
\end{displaymath}](img129.png) |
(3.26) |
である.
は定性的には観測されない情報の割合を表
している. したがって式 (3.24) は,
の 不完全性が増す
に連れ収束が遅くなることを示している.
次へ: 独立なサンプルが与えられた時の混合分布の学習
上へ: EM アルゴリズム
戻る: 一般的な特徴
Shotaro Akaho
平成15年7月22日