next up previous
次へ: 特異性に関する考察 上へ: 汎化バイアスの非単調性 戻る: 分岐点より温度が高い場合

分岐点より温度が低い場合

分岐した後は一般に複雑な振舞いを示すので,定理 3 の場合 のうち,分岐が 2-way および 3-way の TIC を解析することにする. ここで,訓練サンプルに関する最尤解の要素分布の数に関する 次の仮定を新たに置く.

仮定 2   真の分布に対する最尤解の分岐が 2-way または 3-way である場合を考える. このとき,真の最尤解と訓練サンプルに対する最尤解とで,分岐に含まれる要素分布の 個数が等しいとする. すなわち,真の分布に対する最尤解の分岐が $m$-way ($m=2$ または $m=3$) であるとし, 各分岐に含まれる要素分布の個数を $l_1,\ldots,l_m$ としたとき, 訓練サンプルに対する最尤解も同様に $m$-way であり, 各分岐に含まれる要素分布の個数もやはり $l_1,\ldots,l_m$ であるとする.

この仮定は,あくまで個数に関する仮定であり, それぞれの分岐におけるパラメータ $w_k$ の値が等しい必要はない. この仮定の下で以下の定理が成り立つ.

定理 6   仮定 1 および仮定 2 のもとで, $\kappa_4\neq 0$ かつ $s_4 \neq (\sigma^2)^2$ とする. このとき, $\lim_{\beta\to\beta_c}h_{\rm eff}(\beta) = 1$ であり,
\begin{displaymath}
\lim_{\beta\downarrow\beta_c}{\partial\over\partial\beta}
h_{\rm eff}(\beta) = -\infty
\end{displaymath} (4.7)

が成り立つ. $s_4 \neq (\sigma^2)^2$ という条件は 2 個の $\delta$ 関 数の混合分布を除くすべての分布について成り立つ. $q(x) = (\delta(x-1) +
\delta(x+1)) / 2$ のときは $\partial h_{\rm eff}(\beta_c)/\partial\beta=-4$ と なる.

定理 6 の証明は付録 A.3 で与える. 定理 6 は,分岐によってみかけのパラメータ数が増えてもRBBM の TIC が減少することを主張している. $K$-way の分岐に関しては最尤解が一意的に求まらないので解析ができていない. これに関しては 4.6 で実験的に調べるが, 実験結果ではその場合には非単調性は観察されなかった.

定理 4 で見たように,分岐点のまわりでは経験尤度は ほぼ定数なので,2-way または 3-way の分岐の場合 RBBM は分岐点の直前よりも 分岐点の直後の方が (TIC の意味で) 汎化がよいことを意味している. また, 分岐点は汎化バイアスの極大点になっているので,それより前と後にそれぞれ 局所最適解が存在している.

仮定 2 を置いたのは主に解析上の都合によるものである. この仮定は,$K$ の数がサンプル数に比べて十分少ないときは仮定を満たす解が 最尤解になる可能性が高い. しかしながら,$K$ の数がサンプル数と同じかそれ以上のオーダーの場合には, サンプルの偏りに応じて非対称な解などが最尤解になり,仮定を満たすモデルは 局所的な最適解になっている. 仮定が破れる解は,訓練サンプルの連続な変化に対して (要素が無限個あったとしても)不連続に現われるため, 漸近展開による解析を困難にしている. 更に,非対称な場合には最尤解の振舞いが明らかでないことも この仮定を置く理由である. ただし,TIC は局所最適解に関しても成り立つ理論なので, (次節で述べる特異性に関する問題点は残るが) 定理 6 は局所最適解に関しても意味のある定理である.

TIC を用いた解析のもつもう一つの問題点は,3.2.2 で 述べたゆらぎの問題である. 1 つの訓練データセットに対するバイアスの 振舞いは特に階層的なモデルでない場合は深刻となる. RBBM の場合はモデルに制約を加えるという意味での階層性は持っていないので, 大きなゆらぎをもつ可能性があるが,4.6 に示す実験結果 では,1 つの訓練データセットでのバイアスの振舞いも, 理論的な結果にある程度合致している.

さて,本章では $\beta$ を制御パラメータとして固定したが,$\beta$ も学習の 対象とした場合について考えてみよう. この場合は,$K$ を大きく取ると, それぞれのサンプルの上での $\delta$ 関数という無意味な解に収束して しまうので,$K$ を制御する必要がある. $K=1$ ならば,第 1 分岐点が 解になり,$K$ を大きくする毎にそれ以降の分岐点が解になる. つまり,$\beta$ も学習するとすると,分岐点が最尤解になるのである. ところが,定理 6 から,そのような解は汎化能力が局所的には 最も悪い解になっている可能性がある. このような場合には,$\beta$ を少し小さい値にするか,$K$ を一つ増やして 分岐点の直後の解を選んだ方が汎化能力が優れていることになる. 具体的にはクロスバリデーションやベイズ的な方法によって避けることができる であろう.



Shotaro Akaho 平成15年7月22日