集団学習

次へ: 平均場近似・変分ベイズ法 上へ: 機械学習の情報幾何 戻る: 隠れ変数モデル索引

集団学習

三人寄れば文殊の知恵ということわざがあるが，複数の学習モデルを組み合わせることによって高い性能を実現する手法を集団学習あるいはアンサンブル学習という．例えば，入力

が

か 1 かを識別するような識別器 $h_1(x),\ldots,h_n(x)$ を組み合わせて， $\theta^i\ge0$ で重み付けた多数決

$\displaystyle y = \sum_{i=1}^n\theta^i h_i(x)$

(19)

の符号を最終的な出力とする．その際できるだけ性能の高い $\theta^i$ を求めることが問題となる．集団学習の中でもブースティングと呼ばれるアルゴリズムは非常にうまくいくことがわかっており，その幾何的な解釈も研究されている [21,22,23,14,15]．

ここではを入力してを出力するという入出力型なので，条件付き確率 $f(y\mid x)$ をモデル化する．まず，確率分布を積分すると1になるという制限を外してより広く拡張した空間 $\tilde{S}$ で考える．ブースティングは， $\tilde{S}$ の中でデータ点からモデルの空間への射影としてとらえることができる．

モデル $M\subset\tilde{S}$ は次の正規化項のない指数分布型モデル

$\displaystyle m(y\mid x;\boldsymbol{\theta}) = \exp\left(\sum_{i=1}^n \theta^i F_i(x,y)+C(x,y)\right)$

(20)

を取る．ただし，

は

$\displaystyle F_i(x,y) = \frac{1}{2} \{y h_i(x) - \mathrm{E}_{\mathrm{emp}}[y h_i(x)\mid x]\}$

(21)

とする¹⁶．

は $\tilde{S}$ の中の-平坦な部分空間なので，-射影が一意に求まる．ただし，それを直接解く求めることは難しいので，まずそれを等価な問題におきかえる．

具体的には，データ集合 $\{(x_j,y_j)\}_{j=1}^N$ が与えられたとき，以下の条件を満たす $m(y\mid x)$ の集合 $Q\subset\tilde{S}$ を考える．

$\displaystyle \sum_{j=1}^N m(y_j\mid x_j) F_i(x_j) = 0, \quad \forall i=1,\ldots,n.$

(22)

これは

に関する線形制約で， $\tilde{S}$ の中の

-平坦な部分空間になっている¹⁷．先に述べたデータ点から

への

-射影は， $q_0(y\mid x)=\exp(C(x,y))\in M$ という関数から

への

-射影に一致する（図8）ことが証明できる．ブースティングアルゴリズムは， $q_0(y\mid x)$ を初期解として， $\theta^1,\ldots,\theta^n$ を逐次的に求めていくことにより，最終的にこの射影を求めていると解釈できる．

**図 8:** ブースティング．実際には右の最適化問題を逐次的に解く．
$\includegraphics{boosting.eps}$

Shotaro Akaho 平成19年6月13日