next up previous index
次へ: 集団学習 上へ: 機械学習の情報幾何 戻る: 線形システム   索引


隠れ変数モデル

統計的推定において,確率変数$X$のうち一部の成分だけが観測され, 残りは観測できない状況を考えよう[1,10,30]. この場合は,データは十分統計量のうち一部だけしか与えられないので, $\boldsymbol{\eta}$座標の1点として表すことはできない. 簡単のため,十分統計量が $\boldsymbol{r}=(\boldsymbol{r}_V,\boldsymbol{r}_H)$と分けられる と仮定し,データが $\boldsymbol{r}_V$だけを規定するとしよう12. 各データは $\boldsymbol{\eta}_V=\boldsymbol{r}_V$で規定され $\boldsymbol{\eta}_H$は任意の 値を取りうる部分空間$Q$として表される. これは,$S$が指数分布族なら$m$-平坦な部分空間である.

データが1点では表せないので,データの部分空間$Q$に 最も近いモデルの部分空間$M$の点を見つけるということを考えよう. 適当な初期値$p\in M$から初めて,次の二つのステップを繰り返す アルゴリズムが考えられる(図7).

  1. $p\in M$から$Q$$e$-射影を取り$q\in Q$とする.
  2. $q\in Q$から$M$$m$-射影を取り$p\in Q$とする.
このアルゴリズムは$e$-射影と$m$-射影の頭を取って$em$-アルゴリズムと 名づけられている. ここで都合がいいことに,$M$から$Q$へは$e$-射影で,反対向きの$Q$から $M$へは$m$-射影を取っている. 双対接続でのダイバージェンスは $D^{(-\alpha)}(p\Vert q)
=D^{(\alpha)}(q\Vert p)$ という関係にあるので,いずれの射影も$M$$Q$の関係で見れば同じ 評価基準を最小化しているものであることがわかる. もし$M$$e$-平坦で,$Q$$m$-平坦なら,各ステップでの射影は一意的となり, 幾何的に単純となる. また,一般に$em$アルゴリズムは,二つの部分空間の間のダイバージェンスの 極小値に収束することがわかっている.

一方,それより以前から知られているアルゴリズムに EM アルゴリズムが ある13. EM アルゴリズムでは E ステップで対数尤度の条件付き期待値を計算するが, それは$em$-アルゴリズムの第1ステップを

  1. $p\in M$から$q\in Q$への写像として, $\boldsymbol{\eta}_H(q)=\mathrm{E}_p[\boldsymbol{r}_H\mid \boldsymbol{r}_V]$を取る 14
におきかえることに相当する. 多くの場合どちらのアルゴリズムも一致するが複雑な問題設定では異なる場合も ある 15

図 7: $em$アルゴリズム ($Q$$m$-平坦,$M$$e$-平坦なら 各射影は一意的)
\includegraphics{em.eps}



Shotaro Akaho 平成19年6月13日