next up previous index
次へ: 機械学習の情報幾何 上へ: 情報幾何とは何か 戻る: 双対座標   索引

部分空間と射影

本稿の一番最初に述べたように,機械学習の幾何的意味というのは 観測されたデータをモデルの空間に射影することである. 情報幾何では,データとモデルの両方を含む大きな確率分布の空間$S$は, 双対平坦なもの(指数分布族など)を考え,モデルをその部分空間で, データを経験分布に対応する$S$の点として位置づける. 以下では部分空間の性質と,射影について説明する.

ユークリッド空間でも,平らな部分空間への射影は曲がった部分空間への 射影よりも易しい. 情報幾何でも平坦な部分空間は重要な概念である. 双対平坦な空間$S$があったとき,その$\alpha $-座標系での平らな部分空間 (つまり線形部分空間)$M$$\alpha $-平坦な部分空間という11. ここで注意を要するのは,$S$自身の平坦性と異なり, $\alpha $-平坦な部分空間だからといって$-\alpha$-平坦とは限らないことであ る.

さて,部分空間への射影を考える際に重要な概念がダイバージェンスである. 双対平坦な空間の 2点$p$,$q$の間 の$\alpha $-ダイバージェンスは ルジャンドル変換の式(11)に類似した以下の式で定義される.

$\displaystyle D^{(\alpha)}(p\Vert q)=\psi(\boldsymbol{\theta}(p))+\varphi(\boldsymbol{\eta}(q)) -\sum_{i=1}^n \theta^i(p)\eta_i(q)$ (15)

これは点の間の隔たりを表すものであるが,数学的な「距離」ではない. なぜなら対称性や三角不等式が満たされないからである. ではなぜこんなものを考えるかというと,アファイン座標系と相性がいい のと,距離ではないとはいっても距離の重要な性質を多く受け継いでいる というのがその理由である. 具体的には $D^{(\alpha)}(p\Vert q)\ge 0$であり, 等号は$p=q$のときに限り成り立つ. また,$p$$q$が非常に近いときは 距離に一致する. ちなみに,双対となる $-\alpha$-ダイバージェンスは $D^{(-\alpha)}(p\Vert q)
=D^{(\alpha)}(q\Vert p)$となる.

特に,指数分布族を考えると,その$\alpha=1$での$e$-ダイバージェンス は二つの分布$f(x)$$g(x)$のカルバックダイバージェンス

$\displaystyle K(f\Vert g) = \int f(x)[\log f(x)-\log g(x)] dx$ (16)

に一致し,双対の$\alpha=-1$での$m$-ダイバージェンスは$K(g\Vert f)$ となる.

図 4: 射影はダイバージェンスの停留点
\includegraphics{proj.eps}

ユークリッド空間での射影が簡単な理由の一つは,ある点から部分空間内の点への 距離が直交方向への距離成分と部分空間内の距離成分に分解できる ことにある(ピタゴラスの定理). 情報幾何の場合も,次のように拡張されたピタゴラスの定理が成り立つ.

定理 1 (拡張ピタゴラスの定理)   双対平坦空間$S$の点$p,q,r$に対し,$p$$q$$\alpha $-測地線で結び, $q$$r$$-\alpha$-測地線で結ぶ. この二つの測地線の$q$における接ベクトルが直交するとき,以下の関係式が 成り立つ:

$\displaystyle D^{(\alpha)}(p\Vert r) = D^{(\alpha)}(p\Vert q) + D^{(\alpha)}(q\Vert r).$ (17)

ここで,$S$の点$p$から部分空間$M$に引いた$\alpha $-測地線 が点$q$$M$と直交しているとき$\alpha $-射影とよぶことにする. ピタゴラスの定理から,部分空間への$\alpha $-射影と $\alpha $-ダイバージェンスとの関係が 導かれる.

定理 2 (射影定理)   双対平坦空間$S$の点$p$から,部分空間$M$への$\alpha $-射影$q$は, $\alpha $-ダイバージェンス $D^{(\alpha)}(p\Vert q)$の停留点である. 特に,$M$$-\alpha$-平坦な部分空間なら,射影は一意的に存在し, $D^{(\alpha)}(p\Vert q)$の最小値をとる.

$S$は双対平坦だから,ピタゴラスの定理と射影定理は$\alpha $$-\alpha$を入れ替えても成り立つ.

射影定理により,$M$$-\alpha$-平坦な部分空間の場合, $\alpha $-射影を取るのが自然である. その場合,以下のように,$M$の中と 外とで$\alpha $-座標と$-\alpha$-座標を分けて取る方が,皆まっすぐな 世界になるのでわかりやすい.

$M$$k$次元の$-\alpha$-平坦な部分空間の時,座標成分を最初の$k$ 個と残りの$n-k$個に分けて, $(\boldsymbol{\theta}^\mathrm{I},\boldsymbol{\theta}^\mathrm{II})$, $(\boldsymbol{\eta}_\mathrm{I},\boldsymbol{\eta}_\mathrm{II})$とおこう. あらかじめ $\boldsymbol{\eta}$に適当に線形変換を施しておくことにより, $M$ $\boldsymbol{\eta}_\mathrm{II}=
\hat{\boldsymbol{\eta}}_\mathrm{II}$(定数)を満たす線形部分空間となるように できる(図5). ここで新たに, $(\boldsymbol{\theta}^\mathrm{I}; \boldsymbol{\eta}_\mathrm{II})$ という混合座標系という二つの座標系を混ぜたものを考える. $S$の任意の点はこの混合座標を用いても一意的に表現される. 混合座標を用いると, $(\boldsymbol{\theta}^\mathrm{I}; \boldsymbol{\eta}_\mathrm{II})$ から$M$への $\alpha $-射影は単に後半を $\hat{\boldsymbol{\eta}}_\mathrm{II}$でおきかえた $(\boldsymbol{\theta}^{\mathrm{I}}; \hat{\boldsymbol{\eta}}_\mathrm{II})$で求められ, $\alpha $-射影の具体的な表示が得られる.

図 5: 混合座標系で書けばまっすぐに見える
\includegraphics{mixed.eps}


next up previous index
次へ: 機械学習の情報幾何 上へ: 情報幾何とは何か 戻る: 双対座標   索引
Shotaro Akaho 平成19年6月13日