部分空間と射影

次へ: 機械学習の情報幾何 上へ: 情報幾何とは何か 戻る: 双対座標索引

部分空間と射影

本稿の一番最初に述べたように，機械学習の幾何的意味というのは観測されたデータをモデルの空間に射影することである．情報幾何では，データとモデルの両方を含む大きな確率分布の空間は，双対平坦なもの（指数分布族など）を考え，モデルをその部分空間で，データを経験分布に対応するの点として位置づける．以下では部分空間の性質と，射影について説明する．

ユークリッド空間でも，平らな部分空間への射影は曲がった部分空間への射影よりも易しい．情報幾何でも平坦な部分空間は重要な概念である．双対平坦な空間があったとき，その $\alpha$ -座標系での平らな部分空間（つまり線形部分空間）を $\alpha$ -平坦な部分空間という¹¹．ここで注意を要するのは，自身の平坦性と異なり， $\alpha$ -平坦な部分空間だからといって $-\alpha$ -平坦とは限らないことである．

さて，部分空間への射影を考える際に重要な概念がダイバージェンスである．双対平坦な空間の２点,の間の $\alpha$ -ダイバージェンスはルジャンドル変換の式（11）に類似した以下の式で定義される．

$\displaystyle D^{(\alpha)}(p\Vert q)=\psi(\boldsymbol{\theta}(p))+\varphi(\boldsymbol{\eta}(q)) -\sum_{i=1}^n \theta^i(p)\eta_i(q)$

(15)

これは点の間の隔たりを表すものであるが，数学的な「距離」ではない．なぜなら対称性や三角不等式が満たされないからである．ではなぜこんなものを考えるかというと，アファイン座標系と相性がいいのと，距離ではないとはいっても距離の重要な性質を多く受け継いでいるというのがその理由である．具体的には $D^{(\alpha)}(p\Vert q)\ge 0$ であり，等号は

のときに限り成り立つ．また，

と

が非常に近いときは距離に一致する．ちなみに，双対となる $-\alpha$ -ダイバージェンスは $D^{(-\alpha)}(p\Vert q) =D^{(\alpha)}(q\Vert p)$ となる．

特に，指数分布族を考えると，その $\alpha=1$ での-ダイバージェンスは二つの分布とのカルバックダイバージェンス

$\displaystyle K(f\Vert g) = \int f(x)[\log f(x)-\log g(x)] dx$

(16)

に一致し，双対の $\alpha=-1$ での

-ダイバージェンスは $K(g\Vert f)$ となる．

**図 4:** 射影はダイバージェンスの停留点
$\includegraphics{proj.eps}$

ユークリッド空間での射影が簡単な理由の一つは，ある点から部分空間内の点への距離が直交方向への距離成分と部分空間内の距離成分に分解できることにある（ピタゴラスの定理）．情報幾何の場合も，次のように拡張されたピタゴラスの定理が成り立つ．

定理 1 (拡張ピタゴラスの定理) 双対平坦空間の点に対し，とを $\alpha$ -測地線で結び，とを $-\alpha$ -測地線で結ぶ．この二つの測地線のにおける接ベクトルが直交するとき，以下の関係式が成り立つ：

$\displaystyle D^{(\alpha)}(p\Vert r) = D^{(\alpha)}(p\Vert q) + D^{(\alpha)}(q\Vert r).$

(17)

ここで，

の点

から部分空間

に引いた $\alpha$ -測地線が点

で

と直交しているとき $\alpha$ -射影とよぶことにする．ピタゴラスの定理から，部分空間への $\alpha$ -射影と $\alpha$ -ダイバージェンスとの関係が導かれる．

定理 2 (射影定理) 双対平坦空間の点から，部分空間への $\alpha$ -射影は， $\alpha$ -ダイバージェンス $D^{(\alpha)}(p\Vert q)$ の停留点である．特に，が $-\alpha$ -平坦な部分空間なら，射影は一意的に存在し， $D^{(\alpha)}(p\Vert q)$ の最小値をとる．

は双対平坦だから，ピタゴラスの定理と射影定理は $\alpha$ と $-\alpha$ を入れ替えても成り立つ．

射影定理により，が $-\alpha$ -平坦な部分空間の場合， $\alpha$ -射影を取るのが自然である．その場合，以下のように，の中と外とで $\alpha$ -座標と $-\alpha$ -座標を分けて取る方が，皆まっすぐな世界になるのでわかりやすい．

が次元の $-\alpha$ -平坦な部分空間の時，座標成分を最初の個と残りの個に分けて， $(\boldsymbol{\theta}^\mathrm{I},\boldsymbol{\theta}^\mathrm{II})$ , $(\boldsymbol{\eta}_\mathrm{I},\boldsymbol{\eta}_\mathrm{II})$ とおこう．あらかじめ $\boldsymbol{\eta}$ に適当に線形変換を施しておくことにより，は $\boldsymbol{\eta}_\mathrm{II}= \hat{\boldsymbol{\eta}}_\mathrm{II}$ （定数）を満たす線形部分空間となるようにできる(図5)．ここで新たに， $(\boldsymbol{\theta}^\mathrm{I}; \boldsymbol{\eta}_\mathrm{II})$ という混合座標系という二つの座標系を混ぜたものを考える．の任意の点はこの混合座標を用いても一意的に表現される．混合座標を用いると， $(\boldsymbol{\theta}^\mathrm{I}; \boldsymbol{\eta}_\mathrm{II})$ からへの $\alpha$ -射影は単に後半を $\hat{\boldsymbol{\eta}}_\mathrm{II}$ でおきかえた $(\boldsymbol{\theta}^{\mathrm{I}}; \hat{\boldsymbol{\eta}}_\mathrm{II})$ で求められ， $\alpha$ -射影の具体的な表示が得られる．

**図 5:** 混合座標系で書けばまっすぐに見える
$\includegraphics{mixed.eps}$

次へ: 機械学習の情報幾何 上へ: 情報幾何とは何か 戻る: 双対座標索引

Shotaro Akaho 平成19年6月13日