汎化バイアスの期待値は
を漸近展開して求めることができる
[82,57,55,58].
が十分大きければ,汎化バイアスの期待値は漸近的に
(3.9) |
(3.11) | |||
(3.12) |
を推定できれば,(3.8) を用いて,真の尤度(の
マイナス)を
(3.13) |
もし がモデル集合に入っていれば, と はいずれも Fisher 情報行列となり, は および の次元つまりパラメータ数に一致する. こ れはいわゆる赤池の情報量規準(AIC)にほかならない[78]. ただし,第 4 章では, がモデル集合に入っていない場合も扱うため, TIC をそのまま用いる必要がある.
さて,式 (3.8) はバイアスの平均的な振舞いを表すもの
であるが,実際に TIC をモデル選択に用いる際には 1 セットの訓練サンプル
を用いてバイアスを評価する必要がある.
そこで,平均を取らないバイアスの振舞いについて知られている式を書くと,
しかしながら,モデル間にこのような階層関係がない場合には が のオーダーとなるため, これは のオーダーよりも大きく, モデル選択の信頼性が極めて低くなる可能性がある. 第 4 章で扱うモデルでは厳密には階層性は保たれていないが, TIC を用いて導かれたバイアスの性質が実際のバイアスの性質にかなり 合致していることが実験的に示される.
さて,TIC をはじめとする学習における汎化能力の理論では一般に,汎化バイ アスは,統計モデルの複雑度とともに増えると考えられている. 統計モデルを 複雑にしていけばいくほど,訓練サンプルに対する尤度を増加させていくこと ができる. 一方,それに伴って,バイアスの値も増加するので,情報量規準の中の 各項が拮抗して最適なモデルが求まるわけである. このような考え方は「ケチの 原理」あるいは「オッカムの剃刀」などと呼ばれ, 訓練サンプルに適応するモデルの中で,できるだけ単 純なモデルを選ぶという指針を与えている. しかしながら,第 4 章で示す例では,あるクラスの正規混合モデルに対してこの傾 向が破られる場合がある.