next up previous
次へ: パラメータの初期値 上へ: 混合分布と EM アルゴリズム 戻る: 混合分布と EM アルゴリズム

混合分布によるモデル化

$\mbox{\boldmath$x$}$ には $K$ 個の属性が存在するが,そのうちの $k$ 番目の属性だけに 着目しよう. $\mbox{\boldmath$x$}$ とその $k$ 番目の属性 $\mbox{\boldmath$y$}$ の対応が $f_k(\mbox{\boldmath$y$}\mid\mbox{\boldmath$x$};\mbox{\boldmath$\theta$}_k)$ というパラメトリックな条件付き 確率分布でモデル化できたとしよう. 属性 $k$ が確率 $\xi_k$ でランダムに選ばれると すれば $(\mbox{\boldmath$y$},k)$ の分布は $\xi_k f_k(\mbox{\boldmath$y$}\mid\mbox{\boldmath$x$};\mbox{\boldmath$\theta$}_k)$ となる. ただし,我々の問題では,どの属性が教えられているかは 教えられない,すなわち $k$ が未知であるのでこれは観測できない隠れた変数 である. したがって観測されるデータの分布は(条件付き)混合分布モデル

\begin{displaymath}
f(\mbox{\boldmath$y$}\mid\mbox{\boldmath$x$};\mbox{\boldmath...
...boldmath$y$}\mid\mbox{\boldmath$x$};\mbox{\boldmath$\theta$}),
\end{displaymath} (6.4)

となる. $f_k$ の取り方によっていろいろな形になり得るが, 本稿ではとりあえず最も簡単なものとして第 2 章の例 2 で取り上げた線形回帰混合モデルを用いる. $\mbox{\boldmath$y$}$ の各成分は独立な線形モデルと仮定すると,
\begin{displaymath}
f_k(\mbox{\boldmath$y$}\mid\mbox{\boldmath$x$};\ \mbox{\bol...
...ath$x$};\ \mbox{\boldmath$a$}_{k,i}, b_{k,i}, \sigma_{k,i}^2),
\end{displaymath} (6.5)

ただし,
\begin{displaymath}
f(y\mid\mbox{\boldmath$x$};\ \mbox{\boldmath$a$}, b,\sigma^...
...$}^{\rm T}\mbox{\boldmath$x$} -
b)^2\over2\sigma^2}\right\}.
\end{displaymath} (6.6)

この場合には,EM アルゴリズムの各ステップは以下のように書ける. 隠れ変数の条件付き分布を

\begin{displaymath}
q(k\mid \mbox{\boldmath$y$},\mbox{\boldmath$x$},\mbox{\boldm...
...h$y$}\mid\mbox{\boldmath$x$},
\mbox{\boldmath$\theta$}\tth )},
\end{displaymath} (6.7)

とおく. ただし $\mbox{\boldmath$\theta$}\tth $$t$ ステップ目で得たパラメータである. すると $t+1$ ステップ目のパラメータは 3.4.3 で 述べたアルゴリズムを条件付き分布に適用することにより,次のようになる.



Shotaro Akaho 平成15年7月22日