next up previous index
次へ: おわりに 上へ: 機械学習の情報幾何 戻る: 集団学習   索引


平均場近似・変分ベイズ法

確率変数の間の関連性をグラフの形で記述したモデルを グラフィカルモデルといい,その汎用性から様々な分野で 広がりつつある. その構造の入れ方によってベイジアンネットワーク,ランダムマルコフ場 モデルなどと呼ばれることがある. また,カルマンフィルタや隠れマルコフモデルなどもその一種と みなすことができる.

さて,グラフィカルモデルでは,局所的な関係が全体に影響を及ぼすため, ある確率変数に関する期待値を取るだけでも,確率変数全体に対する和を 計算しなければならず指数的に大きな計算量が必要となることが ある18

そこで用いられるのが,平均場近似(あるいは変分ベイズ法)と呼ばれる近似法である [20]. ここではその中でも,最も単純なナイーブ平均場近似についてその 幾何的な意味を説明する.

一般に, $f(x_1,\ldots,x_m)$という確率分布が与えられたとき, 各確率変数が独立ならば,変数ごとの計算にばらすことができるので都合がよい. そこで,独立な確率分布全体の空間$M$を取り,もとの分布$f$$M$に 射影する.

$M$の要素 $g(x_1,\ldots,x_m)$はその周辺確率分布の積

$\displaystyle g(x_1,\ldots,x_m) = g(x_1)\cdots g(x_m)$ (23)

で書ける.これは$e$-平坦な部分空間である. 情報幾何の観点からは$e$-平坦な部分空間へは$m$-射影 を取るのが自然であるが,$m$-射影を取るために必要なカルバック ダイバージェンスはもとの分布$f$に関する平均操作を必要とするため 計算が容易でない. 一方$e$-射影は$M$の分布での平均操作なので, 変数ごとにばらばらに行えばよく非常に都合がよい.

そこで,$e$-平坦な部分空間と$m$-射影という美しい組み合わせはあきらめて, $e$-射影を取るというのがナイーブ平均場近似の考え方である. $e$-射影なので,射影の一意性などは保証されないが,少ない計算量で 最適化ができる. 変分ベイズ法ではある初期解からスタートし,1ステップで 一つの変数だけに着目して射影する(交互最適化)ことによって局所最適解に 収束させることが多い(図9).

グラフィカルモデルを用いた現実的な問題(特に最近は符号化への応用が 盛んである)では,ナイーブ平均場近似では近似が荒すぎるので, より複雑な近似手法が開発され,それらに関しても幾何的な理解が 進みつつある[16,17,19] 19

図 9: ナイーブ平均場近似. 変分ベイズ法では交互最適化によって 局所最適解に収束させる.
\includegraphics{mfa.eps}



Shotaro Akaho 平成19年6月13日