(4.7) |
定理 6 の証明は付録 A.3 で与える. 定理 6 は,分岐によってみかけのパラメータ数が増えてもRBBM の TIC が減少することを主張している. -way の分岐に関しては最尤解が一意的に求まらないので解析ができていない. これに関しては 4.6 で実験的に調べるが, 実験結果ではその場合には非単調性は観察されなかった.
定理 4 で見たように,分岐点のまわりでは経験尤度は ほぼ定数なので,2-way または 3-way の分岐の場合 RBBM は分岐点の直前よりも 分岐点の直後の方が (TIC の意味で) 汎化がよいことを意味している. また, 分岐点は汎化バイアスの極大点になっているので,それより前と後にそれぞれ 局所最適解が存在している.
仮定 2 を置いたのは主に解析上の都合によるものである. この仮定は, の数がサンプル数に比べて十分少ないときは仮定を満たす解が 最尤解になる可能性が高い. しかしながら, の数がサンプル数と同じかそれ以上のオーダーの場合には, サンプルの偏りに応じて非対称な解などが最尤解になり,仮定を満たすモデルは 局所的な最適解になっている. 仮定が破れる解は,訓練サンプルの連続な変化に対して (要素が無限個あったとしても)不連続に現われるため, 漸近展開による解析を困難にしている. 更に,非対称な場合には最尤解の振舞いが明らかでないことも この仮定を置く理由である. ただし,TIC は局所最適解に関しても成り立つ理論なので, (次節で述べる特異性に関する問題点は残るが) 定理 6 は局所最適解に関しても意味のある定理である.
TIC を用いた解析のもつもう一つの問題点は,3.2.2 で 述べたゆらぎの問題である. 1 つの訓練データセットに対するバイアスの 振舞いは特に階層的なモデルでない場合は深刻となる. RBBM の場合はモデルに制約を加えるという意味での階層性は持っていないので, 大きなゆらぎをもつ可能性があるが,4.6 に示す実験結果 では,1 つの訓練データセットでのバイアスの振舞いも, 理論的な結果にある程度合致している.
さて,本章では を制御パラメータとして固定したが, も学習の 対象とした場合について考えてみよう. この場合は, を大きく取ると, それぞれのサンプルの上での 関数という無意味な解に収束して しまうので, を制御する必要がある. ならば,第 1 分岐点が 解になり, を大きくする毎にそれ以降の分岐点が解になる. つまり, も学習するとすると,分岐点が最尤解になるのである. ところが,定理 6 から,そのような解は汎化能力が局所的には 最も悪い解になっている可能性がある. このような場合には, を少し小さい値にするか, を一つ増やして 分岐点の直後の解を選んだ方が汎化能力が優れていることになる. 具体的にはクロスバリデーションやベイズ的な方法によって避けることができる であろう.