next up previous index
次へ: 平均場近似・変分ベイズ法 上へ: 機械学習の情報幾何 戻る: 隠れ変数モデル   索引


集団学習

三人寄れば文殊の知恵ということわざがあるが,複数の 学習モデルを組み合わせることによって高い性能を実現する手法を 集団学習あるいはアンサンブル学習という. 例えば,入力$x$$-1$か 1 かを識別するような識別器 $h_1(x),\ldots,h_n(x)$を組み合わせて, $\theta^i\ge0$で重み付けた 多数決

$\displaystyle y = \sum_{i=1}^n\theta^i h_i(x)$ (19)

の符号を最終的な出力とする. その際できるだけ性能の高い$\theta^i$ を求めることが問題となる. 集団学習の中でもブースティングと呼ばれるアルゴリズムは非常にうまくいくことが わかっており,その幾何的な解釈も研究されている [21,22,23,14,15].

ここでは$x$を入力して$y$を出力するという入出力型なので,条件付き確率 $f(y\mid x)$をモデル化する. まず,確率分布を積分すると1になるという制限を外して より広く拡張した空間$\tilde{S}$で 考える. ブースティングは,$\tilde{S}$の中でデータ点からモデルの 空間$M$への射影としてとらえることができる.

モデル $M\subset\tilde{S}$は次の正規化項のない指数分布型モデル

$\displaystyle m(y\mid x;\boldsymbol{\theta}) = \exp\left(\sum_{i=1}^n \theta^i F_i(x,y)+C(x,y)\right)$ (20)

を取る. ただし,$F_i(x,y)$

$\displaystyle F_i(x,y) = \frac{1}{2} \{y h_i(x) - \mathrm{E}_{\mathrm{emp}}[y h_i(x)\mid x]\}$ (21)

とする16

$M$$\tilde{S}$の中の$e$-平坦な部分空間なので,$m$-射影が 一意に求まる. ただし,それを直接解く求めることは 難しいので,まずそれを等価な問題におきかえる.

具体的には,データ集合 $\{(x_j,y_j)\}_{j=1}^N$が与えられたとき, 以下の条件を満たす $m(y\mid x)$ の集合 $Q\subset\tilde{S}$を考える.

$\displaystyle \sum_{j=1}^N m(y_j\mid x_j) F_i(x_j) = 0, \quad \forall i=1,\ldots,n.$ (22)

これは$m$に関する線形制約で,$\tilde{S}$の中の$m$-平坦な部分空間 になっている17. 先に述べたデータ点から$M$への$m$-射影は, $q_0(y\mid x)=\exp(C(x,y))\in M$という関数から $Q$への$e$-射影に一致する(図8)ことが証明できる. ブースティングアルゴリズムは, $q_0(y\mid x)$を初期解として, $\theta^1,\ldots,\theta^n$を逐次的に求めていくことにより, 最終的にこの射影を求めていると解釈できる.

図 8: ブースティング. 実際には右の最適化問題を逐次的に解く.
\includegraphics{boosting.eps}



Shotaro Akaho 平成19年6月13日