隠れ変数モデル

次へ: 集団学習 上へ: 機械学習の情報幾何 戻る: 線形システム索引

隠れ変数モデル

統計的推定において，確率変数

のうち一部の成分だけが観測され，残りは観測できない状況を考えよう[1,10,30]．この場合は，データは十分統計量のうち一部だけしか与えられないので， $\boldsymbol{\eta}$ 座標の１点として表すことはできない．簡単のため，十分統計量が $\boldsymbol{r}=(\boldsymbol{r}_V,\boldsymbol{r}_H)$ と分けられると仮定し，データが $\boldsymbol{r}_V$ だけを規定するとしよう¹²．各データは $\boldsymbol{\eta}_V=\boldsymbol{r}_V$ で規定され $\boldsymbol{\eta}_H$ は任意の値を取りうる部分空間

として表される．これは，

が指数分布族なら

-平坦な部分空間である．

データが１点では表せないので，データの部分空間に最も近いモデルの部分空間の点を見つけるということを考えよう．適当な初期値 $p\in M$ から初めて，次の二つのステップを繰り返すアルゴリズムが考えられる（図7）．

$p\in M$ からに-射影を取り $q\in Q$ とする．
$q\in Q$ からに-射影を取り $p\in Q$ とする．

このアルゴリズムは

-射影と

-射影の頭を取って

-アルゴリズムと名づけられている．ここで都合がいいことに，

から

へは

-射影で，反対向きの

から

へは

-射影を取っている．双対接続でのダイバージェンスは $D^{(-\alpha)}(p\Vert q) =D^{(\alpha)}(q\Vert p)$ という関係にあるので，いずれの射影も

と

の関係で見れば同じ評価基準を最小化しているものであることがわかる．もし

が

-平坦で，

が

-平坦なら，各ステップでの射影は一意的となり，幾何的に単純となる．また，一般に

アルゴリズムは，二つの部分空間の間のダイバージェンスの極小値に収束することがわかっている．

一方，それより以前から知られているアルゴリズムに EM アルゴリズムがある¹³． EM アルゴリズムでは E ステップで対数尤度の条件付き期待値を計算するが，それは-アルゴリズムの第１ステップを

$p\in M$ から $q\in Q$ への写像として， $\boldsymbol{\eta}_H(q)=\mathrm{E}_p[\boldsymbol{r}_H\mid \boldsymbol{r}_V]$ を取る ¹⁴．

におきかえることに相当する．多くの場合どちらのアルゴリズムも一致するが複雑な問題設定では異なる場合もある ¹⁵．

**図 7:** アルゴリズム（が-平坦，が-平坦なら各射影は一意的）
$\includegraphics{em.eps}$

Shotaro Akaho 平成19年6月13日