next up previous
次へ: 冗長性と特異性 上へ: 汎化と竹内の情報量規準 (TIC) 戻る: 汎化バイアス

竹内の情報量規準 (TIC)

汎化バイアスの期待値は $R_{\rm emp}(\theta)$ を漸近展開して求めることができる [82,57,55,58]. $N$ が十分大きければ,汎化バイアスの期待値は漸近的に

\begin{displaymath}
{\rm E}_{N}\left[\,R_{\rm emp}(\theta_{\rm ML})-R_{\rm exp}(\theta_{\rm ML})\,\right] \simeq {h_{\rm eff}\over N},
\end{displaymath} (3.8)

で与えられる. ここで, ${\rm E}_{N}\left[\,\ \,\right]$ はサイズ $N$ のすべての訓練サ ンプル $X^N$ に関する期待値,
\begin{displaymath}
{\rm E}_{N}\left[\,\cdot\,\right] = \int \cdot \prod_{j=1}^N q(x_{(j)})
{\rm d}x_{(j)},
\end{displaymath} (3.9)

をあらわす. また,$h_{\rm eff}$ は,
\begin{displaymath}
h_{\rm eff}= {\rm Tr}[H(\theta^*)^{-1}D(\theta^*)],
\end{displaymath} (3.10)

で定義される. ただし $H(\theta)$$D(\theta)$ は次で定義される行列 である.
$\displaystyle H(\theta)$ $\textstyle =$ $\displaystyle -{\rm E}_{q}\left[\,{\partial^2 \log p(x;\ \theta)\over
\partial\theta\partial\theta^{\rm T}}\,\right],$ (3.11)
$\displaystyle D(\theta)$ $\textstyle =$ $\displaystyle {\rm E}_{q}\left[\,\left({\partial \log p(x;\ \theta)\over
\parti...
...left({\partial \log p(x;\ \theta)\over
\partial\theta}\right)^{\rm T}\,\right].$ (3.12)

$h_{\rm eff}$ を推定できれば,(3.8) を用いて,真の尤度(の マイナス)を

\begin{displaymath}
-R_{\rm exp}(\theta_{\rm ML}) \simeq -R_{\rm emp}(\theta_{\rm ML})+{h_{\rm eff}\over N},
\end{displaymath} (3.13)

と推定し,右辺を最小にするようなモデルを選べばよいことになる. この右辺を竹内の情報量規準 (TIC) と呼ぶ[82]. $h_{\rm eff}$ は Moody の有効パラメータ数と呼ばれることもある[55].

もし $q(x)$ がモデル集合に入っていれば, $H(\theta^*)$$D(\theta^*)$ はいずれも Fisher 情報行列となり, $h_{\rm eff}$$H$ および $D$ の次元つまりパラメータ数に一致する. こ れはいわゆる赤池の情報量規準(AIC)にほかならない[78]. ただし,第 4 章では,$q(x)$ がモデル集合に入っていない場合も扱うため, TIC をそのまま用いる必要がある.

さて,式 (3.8) はバイアスの平均的な振舞いを表すもの であるが,実際に TIC をモデル選択に用いる際には 1 セットの訓練サンプル を用いてバイアスを評価する必要がある. そこで,平均を取らないバイアスの振舞いについて知られている式を書くと,

\begin{displaymath}
R_{\rm emp}(\theta_{\rm ML}) - R_{\rm exp}(\theta_{\rm ML}) \simeq {h_{\rm eff}\over N} +
{U\over\sqrt{N}},
\end{displaymath} (3.14)

となる. ここで, $U = \sqrt{N}\{R_{\rm emp}(\theta^*)-R_{\rm exp}(\theta^*)\}$ は 平均 0, オーダー 1 の確率変数である. TIC をモデル選択に用いる際には $U$ に起因するゆらぎの大きさに 注意する必要がある[72]. 今,二つのモデルを比較することを考えよう. この場合には $U$ の値の差の振舞いが実質的にモデル選択に関係する. ここで,それぞれのモデルの $U$ の値を $U_1$, $U_2$ とする. まず,比較するモデル間に階層関係がある場合, つまり,一方のモデルが他方のモデルの パラメータの一部を固定することによって制限されたモデルである場合には, $(U_1 - U_2)/\sqrt{N}$$1/N$ の オーダーとなり,これは $h_{\rm eff}/N$ と同じオーダーである.

しかしながら,モデル間にこのような階層関係がない場合には $(U_1 - U_2)/\sqrt{N}$$1/\sqrt{N}$ のオーダーとなるため, これは $h_{\rm eff}/N$ のオーダーよりも大きく, モデル選択の信頼性が極めて低くなる可能性がある. 第 4 章で扱うモデルでは厳密には階層性は保たれていないが, TIC を用いて導かれたバイアスの性質が実際のバイアスの性質にかなり 合致していることが実験的に示される.

さて,TIC をはじめとする学習における汎化能力の理論では一般に,汎化バイ アスは,統計モデルの複雑度とともに増えると考えられている. 統計モデルを 複雑にしていけばいくほど,訓練サンプルに対する尤度を増加させていくこと ができる. 一方,それに伴って,バイアスの値も増加するので,情報量規準の中の 各項が拮抗して最適なモデルが求まるわけである. このような考え方は「ケチの 原理」あるいは「オッカムの剃刀」などと呼ばれ, 訓練サンプルに適応するモデルの中で,できるだけ単 純なモデルを選ぶという指針を与えている. しかしながら,第 4 章で示す例では,あるクラスの正規混合モデルに対してこの傾 向が破られる場合がある.


next up previous
次へ: 冗長性と特異性 上へ: 汎化と竹内の情報量規準 (TIC) 戻る: 汎化バイアス
Shotaro Akaho 平成15年7月22日