next up previous
次へ: 独立な要素分布の場合 上へ: EM アルゴリズム 戻る: 一般的な定式化


独立なサンプルが与えられた時の混合分布の学習

式 (2.1)の一般の混合分布の場合について EM アルゴリズム の具体的な形を示しておく. ただし,$p_k$ の間には(総和が 1 という条件を除き) 関数的な依存関係がないと仮定する. モデルは

\begin{displaymath}
p(x;\ p_k, \theta_k; \ k=1,\ldots,K) = \sum_{k=1}^K p_k f_k(x;\
\theta_k),
\end{displaymath} (3.27)

である. まず,独立な $N$ 個の観測値 $x = x_{(1)},\ldots,x_{(N)}$ が与えられた ときの EM アルゴリズムを導く. 各観測値がどの要素分布から出てきたか(つ まりクラスラベル)がわかれば要素分布ごとに推定を行えばよいので,それを 隠れた変数 $k_{(j)}$ と考え,各サンプル $x_{(j)}$$k_{(j)}$ をつけ加えたものを完全 変数 $y_{(j)} = (x_{(j)}, k_{(j)})$ とする. $y_{(j)}$ の分布は
\begin{displaymath}p(x_{(j)}, k_{(j)};\ p_{k_{(j)}}, \theta_{k_{(j)}})
= p_{k_{(j)}} f_{k_{(j)}}(x_{(j)}; \theta_{(j)}), \end{displaymath} (3.28)

となる. ここで,E ステップを計算するために必要な条件付き確率を
\begin{displaymath}
q\tth (k\mid x_{(j)}) = {p(x_{(j)}, k;\ p_{k}, \theta_{k})\over \sum_{k'=1}^K
p(x_{(j)}, k';\ p_{k'}, \theta_{k'})},
\end{displaymath} (3.29)

と定義しておく. この値は各繰り返しステップでのパラメータの値から,計算可能な式である. E ステップにおける $Q$ は($k$ は離散分布なので積分は総和になり),サンプ ルの独立性などから,
\begin{displaymath}
Q(y\mid x;\ \theta\tth ) = \sum_{j=1}^N\sum_{k=1}^K q\tth (k\mid x_{(j)})
\log \{p_{k} f_{k}(x_{(j)})\},
\end{displaymath} (3.30)

となる. 続く M ステップでは,$Q$ を最大化する. まず,$p_k$ について 考えると,$Q$ $\sum_k p_k = 1$ という条件に対応する Lagrange の未定係数 を加えた関数を $p_k$ で微分し 0 とおく. すると最終的に,
\begin{displaymath}
p_k\tpth = {1\over N}\sum_{j=1}^N q\tth (k\mid x_{(j)}),
\end{displaymath} (3.31)

が得られる. 一方,$\theta_k$ については,
\begin{displaymath}
\sum_{j=1}^N\sum_{k'=1}^K q\tth (k\mid x_{(j)}) {\partial \log
f_{k'}(x_{(j)})\over\partial\theta_k} = 0,
\end{displaymath} (3.32)

となる. ちなみに, 完全変数 $y_{(j)}$ の分布は $p_k$ については指数分布族の形をしているの で,式 (3.31) は 式 (3.16) からも導くことができる.



Shotaro Akaho 平成15年7月22日