分岐点より温度が低い場合

仮定 2 真の分布に対する最尤解の分岐が 2-way または 3-way である場合を考える．このとき，真の最尤解と訓練サンプルに対する最尤解とで，分岐に含まれる要素分布の個数が等しいとする．すなわち，真の分布に対する最尤解の分岐が

-way (

または

) であるとし，各分岐に含まれる要素分布の個数を $l_1,\ldots,l_m$ としたとき，訓練サンプルに対する最尤解も同様に

-way であり，各分岐に含まれる要素分布の個数もやはり $l_1,\ldots,l_m$ であるとする．

定理 6 仮定 1 および仮定 2 のもとで， $\kappa_4\neq 0$ かつ $s_4 \neq (\sigma^2)^2$ とする．このとき， $\lim_{\beta\to\beta_c}h_{\rm eff}(\beta) = 1$ であり，

$\begin{displaymath} \lim_{\beta\downarrow\beta_c}{\partial\over\partial\beta} h_{\rm eff}(\beta) = -\infty \end{displaymath}$

(4.7)

が成り立つ． $s_4 \neq (\sigma^2)^2$ という条件は 2 個の $\delta$ 関数の混合分布を除くすべての分布について成り立つ． $q(x) = (\delta(x-1) + \delta(x+1)) / 2$ のときは $\partial h_{\rm eff}(\beta_c)/\partial\beta=-4$ となる．

定理 6 の証明は付録 A.3 で与える．定理 6 は，分岐によってみかけのパラメータ数が増えてもRBBM の TIC が減少することを主張している．

-way の分岐に関しては最尤解が一意的に求まらないので解析ができていない．これに関しては 4.6 で実験的に調べるが，実験結果ではその場合には非単調性は観察されなかった．

定理 4 で見たように，分岐点のまわりでは経験尤度はほぼ定数なので，2-way または 3-way の分岐の場合 RBBM は分岐点の直前よりも分岐点の直後の方が (TIC の意味で) 汎化がよいことを意味している．また，分岐点は汎化バイアスの極大点になっているので，それより前と後にそれぞれ局所最適解が存在している．

仮定 2 を置いたのは主に解析上の都合によるものである．この仮定は，

の数がサンプル数に比べて十分少ないときは仮定を満たす解が最尤解になる可能性が高い．しかしながら，

の数がサンプル数と同じかそれ以上のオーダーの場合には，サンプルの偏りに応じて非対称な解などが最尤解になり，仮定を満たすモデルは局所的な最適解になっている．仮定が破れる解は，訓練サンプルの連続な変化に対して (要素が無限個あったとしても)不連続に現われるため，漸近展開による解析を困難にしている．更に，非対称な場合には最尤解の振舞いが明らかでないこともこの仮定を置く理由である．ただし，TIC は局所最適解に関しても成り立つ理論なので， (次節で述べる特異性に関する問題点は残るが) 定理 6 は局所最適解に関しても意味のある定理である．

TIC を用いた解析のもつもう一つの問題点は，3.2.2 で述べたゆらぎの問題である． 1 つの訓練データセットに対するバイアスの振舞いは特に階層的なモデルでない場合は深刻となる． RBBM の場合はモデルに制約を加えるという意味での階層性は持っていないので，大きなゆらぎをもつ可能性があるが，4.6 に示す実験結果では，1 つの訓練データセットでのバイアスの振舞いも，理論的な結果にある程度合致している．

さて，本章では $\beta$ を制御パラメータとして固定したが， $\beta$ も学習の対象とした場合について考えてみよう．この場合は，

を大きく取ると，それぞれのサンプルの上での $\delta$ 関数という無意味な解に収束してしまうので，

を制御する必要がある．

ならば，第 1 分岐点が解になり，

を大きくする毎にそれ以降の分岐点が解になる．つまり， $\beta$ も学習するとすると，分岐点が最尤解になるのである．ところが，定理 6 から，そのような解は汎化能力が局所的には最も悪い解になっている可能性がある．このような場合には， $\beta$ を少し小さい値にするか，

を一つ増やして分岐点の直後の解を選んだ方が汎化能力が優れていることになる．具体的にはクロスバリデーションやベイズ的な方法によって避けることができるであろう．