next up previous index
次へ: ユークリッド空間をつなぐ 上へ: 情報幾何とは何か 戻る: 確率分布の空間   索引

点の近く:ユークリッド空間

さて,この空間$S$に構造を入れてやろう. その流れを大まかに言うと,まず各点の近傍ではユークリッド空間で近似し,計量 という量でその構造を決める. さらにその近傍同士のつなぎかたを接続という 量で決めてやることにより,$S$全体の構造が決まる. 以下ではまず,$S$のある点$p$をまっすぐに動かすという 操作を通じてこれらの概念を説明していこう. 以下点$p\in S$ $\boldsymbol{\xi}$座標を $\boldsymbol{\xi}(p)$と書くことにする.

どんなに曲がった空間でも,$p$の近くでは,我々のよく 知っているユークリッド空間で近似できる(図2). これを$T_p$と書こう(原点を点$p$におく). ユークリッド空間ならば,点をまっすぐ動かすことは簡単で, $T_p$内の任意の方向に直線的に進めばよい.

図 2: 曲がった空間も局所的には線形空間
\includegraphics{tangent.eps}

しかしこれが通用するのは$p$の近くだけで, 実際には無限小しか進むことはできない. 従って,このユークリッド空間で考えたまっすぐな方向は, 運動の軌跡の接線方向(接ベクトルという)を定めたに過ぎない. $T_p$はいろいろな向きの接ベクトルの集合だから接空間と呼ばれる.

もっと長い距離をまっすぐ進むためには次節で導入する接続の概念を使う必要が あるが,ここではもう少し接空間の構造を考えよう. $S$の座標軸 $\xi^1,\ldots,\xi^n$ のそれぞれの方向に対応する基底を $\boldsymbol{e}_1,\ldots,\boldsymbol{e}_n$と書けば, $T_p$の点はその線形和 $\sum_{i=1}^n a_i\boldsymbol{e}_i$で表せる3$T_p$の構造を決めるには $\boldsymbol{e}_i$ $\boldsymbol{e}_j$の間の内積

$\displaystyle g_{ij}(\boldsymbol{\xi}) = \left\langle\boldsymbol{e}_i, \boldsymbol{e}_j\right\rangle$ (1)

を定めてやればよい(角度や長さが計算できる). $g_{ij}(\boldsymbol{\xi})$(リーマン)計量という. これを$ij$成分とする行列を$G$とおくと,$G$は正定値対称である必要は あるが,それを満たせば任意に取ってよく, $\boldsymbol{\xi}$に依存して変化してもよい.

さて,情報幾何ではフィッシャー情報行列

$\displaystyle g_{ij}(\boldsymbol{\xi}) = \mathrm{E}_{\boldsymbol{\xi}} \left[(\partial_i l)(\partial_j l)\right]$ (2)

を計量とする. ただし簡略化のため $\partial_i = \partial/\partial\xi^i$, $l = \log f(x;\boldsymbol{\xi})$とおいた. また, $E_{\boldsymbol{\xi}}[ ]$は, $f(x; \boldsymbol{\xi})$に 関する期待値

$\displaystyle \mathrm{E}_{\boldsymbol{\xi}}[g(x)] = \int f(x; \boldsymbol{\xi}) g(x) dx$ (3)

を表すとする4

フィッシャー情報行列を選ぶのにはいくつかの必然性があるが, 直感的に分かりやすいのは,統計的推定の基本的な不等式である 情報量不等式(クラメール・ラオ不等式)との関係である. $N$個の独立なサンプルからなんらかの推定法によって推定した パラメータを $\hat{\boldsymbol{\xi}}$とおくと,これはサンプルの出方によってゆら ぐ確率変数となる. $\hat{\boldsymbol{\xi}}$の期待値が真のパラメータ $\boldsymbol{\xi}^*$に一致するとき, $\hat{\boldsymbol{\xi}}$の分散は, フィッシャー情報行列を$G$として,

$\displaystyle \mathrm{Var}[\hat{\boldsymbol{\xi}}]\ge \frac{1}{N} G^{-1}$ (4)

を満たす5. これを情報量不等式という. 最尤推定量などの「良い」推定量 では,漸近的にはこの不等式の等号が成立する. 従って,フィッシャー 情報行列は推定量の散らばり具合の逆数になっており,これを距離尺度として 取るのは自然なことである.

例 3   正規分布の場合, $(\xi^1,\xi^2)=(\mu,\sigma)$を座標系に取ると, $\log f(x;\boldsymbol{\xi})=(x-\mu)^2/(2\sigma^2)-\{\log(2\pi\sigma^2)\}/2$ なので,フィッシャー情報行列は以下のように計算できる.

$\displaystyle G = \frac{1}{\sigma^2}\left(\begin{array}{cc} 1 & 0 0 & 2 \end{array} \right).$ (5)

これを使うと,例えば $\mu,\sigma$ $d\mu,d\sigma$微小に動かしたときの, 変化の大きさは $(d\mu^2+2d\sigma^2)/\sigma^2$となる. $\sigma$が小さいときは微小な変動でも分布としての変化が大きく,$\sigma$が大きい ところでは変化は少ないことを反映している.

$S$に別の座標系 $\boldsymbol{\theta}$を取ったとき, $\boldsymbol{\xi}$ から $\boldsymbol{\theta}$への変換がどれだけ非線形でも,一点$p$の近くで 考えれば線形変換で近似できる. 具体的には$p$における $\partial\theta^i/\partial\xi^j$$ij$成分にもつ ヤコビ行列$B$である. だから,$T_p$の点の表現は 基底 $\boldsymbol{e}_i$と係数$a_i$$B$で変換してやれば, $\boldsymbol{\xi}$座標系から $\boldsymbol{\theta}$座標系に容易に変換できる (同様に計量の変数変換も$B$を使って変換できる). これは,接空間や計量という概念が座標系の取り方に本質的には 不変であることを示している. 幾何ではこの「不変性」というのを非常に 大事にしている.


next up previous index
次へ: ユークリッド空間をつなぐ 上へ: 情報幾何とは何か 戻る: 確率分布の空間   索引
Shotaro Akaho 平成19年6月13日