次へ: 独立なサンプルが与えられた時の混合分布の学習
上へ: EM アルゴリズム
戻る: 一般的な特徴
一般的な定式化
観測値 が与えられたとき,確率モデ
ル の最尤推定量を求めることが問題である. 観測される変
数 は,背後にある完全な確率変数 の不完全な観測値であるとする.
すなわち から への多対一の写像 が存在するとする.
またその逆像を とする.
具体的には の一部の成分だけが として観測されるという例が典型的
であり,後で述べるように混合分布の場合もそれにあたる.
EM アルゴリズムは適当な初期値 から始め,以下の E と
M の各ステップを繰り返すことによって解を更新する.
(E と M を合わせて 1 ステップと数えたとき) ステップ目のパラメータの値を
とする.
- E (Expectation) ステップ :
次で定義される完全データの対数尤度の条件付き期待値
を計算する.
- M (Maximization) ステップ :
を について
最大化したものを とおく
特に,完全データの分布 が指数分布族,
|
(3.15) |
ならば, を微分した式がパラメータについての線形方程式になるため,EM
ステップは次のような簡単な形で書き表すことができる.
|
(3.16) |
ただし, は期待値パラメータ
である.
と は互いに双対座標系になっており,
Legendre 変換により互いに変換することができる.
指数分布族に対してこのような簡単な形の式が得られるの
は,3.4.7 で述べる幾何学的な意味づけに関係する.
さて,Dempster らは,EM アルゴリズムが の尤度を単調に増加させるこ
とを示した.
定理 1 (Dempster[
30])
EM アルゴリズムは
の尤度を単調に増加させる.
ここではその証明の概略を示しておく. まず,ベイズの定理から,完全
確率変数 と不完全確率変数 の分布の間に次の関係が成り立つ.
|
(3.17) |
両辺の対数を取ると, の対数尤度は
|
(3.18) |
となる. そこで両辺を,パラメータ を持ち,観測された
についての の条件付き分布で期待値を計算すると,
|
(3.19) |
となる. 右辺第 1 項は E ステップで計算される である.
ここで,第 2 項を
|
(3.20) |
とおき,
とおくと,M ステップで を最大化するので,
|
(3.21) |
を満たす. 一方 Jensen の不等式より は
で最大値を
取るので,
|
(3.22) |
を満たす. この両者から,
|
(3.23) |
が成り立ち, に関する尤度の単調性が示された. 収束性に関する厳密な
議論は Wu[91] によって行われ,EM アルゴリズムが適当な正則条件
のもとで局所最適解または鞍点に収束することが示されている.
次に,EM アルゴリズムの収束の速度について知られている結果を述べる. 真
の解 の近傍での EM アルゴリズムの振舞いは次のように一次近似
できる.
|
(3.24) |
ここで,
は完全変数の分布の条件付き Fisher 情報量
|
(3.25) |
であり,
は条件付き分布の条件付き Fisher 情報量
|
(3.26) |
である. は定性的には観測されない情報の割合を表
している. したがって式 (3.24) は, の 不完全性が増す
に連れ収束が遅くなることを示している.
次へ: 独立なサンプルが与えられた時の混合分布の学習
上へ: EM アルゴリズム
戻る: 一般的な特徴
Shotaro Akaho
平成15年7月22日