next up previous
次へ: 確率分布の位置, 尺度, 回転パラメータの学習法についての付録 上へ: 正規混合分布の汎化バイアスの非単調性についての付録 戻る: 分岐点以下の汎化バイアス


分岐点を超えた部分での汎化バイアス

(定理 6 の証明)

A.1 と同様に ${\rm E}_{q}\left[\,x\,\right] = 0$ を仮定する. 定理 3 より分岐は 2-way または 3-way だが, まず,2-way の場合から示す.

仮定 2 より, このモデルの TIC は 2 個の正規分布の混合モデルに等しい. 2 個の正規分布の混合分布は

\begin{displaymath}
p(x;\ w_1, w_2;\ \beta) = {1\over2}\sqrt{\beta\over\pi}
\left[\exp\{-\beta(x-w_1)^2\} + \exp\{-\beta(x+w_2)^2\}\right].
\end{displaymath} (A.14)

と書ける. $D(w_1,w_2)$$H(w_1, w_2)$ はその定義から計算できる. 最尤解では $w_1=w_2=w$ だから,
\begin{displaymath}
D(w,w) = \left[
\begin{array}{cc}
d_1 & d_3 \\
d_3 & d_1
\end{array}\right],
\end{displaymath} (A.15)


\begin{displaymath}
H(w,w) = \left[
\begin{array}{cc}
d_2 & d_3 \\
d_3 & d_2
\end{array}\right],
\end{displaymath} (A.16)

となる. ここで,
$\displaystyle d_1$ $\textstyle =$ $\displaystyle {\rm E}_{q}\left[\,4\beta^2(x-w)^2{(p_1)^2\over p^2}\,\right],$ (A.17)
$\displaystyle d_2$ $\textstyle =$ $\displaystyle d_1 + {\rm E}_{q}\left[\,2\beta{p_1\over p}-
4\beta^2(x-w)^2{p_1\over p}\,\right],$ (A.18)
$\displaystyle d_3$ $\textstyle =$ $\displaystyle {\rm E}_{q}\left[\,-4\beta^2(x-w)(x+w){p_1p_2\over p^2}\,\right],$ (A.19)

$p_1=\exp(-\beta(x-w)^2)$, $p_2=\exp(-\beta(x+w)^2)$, $p=p_1+p_2$. さて,
\begin{displaymath}
\hat{h}_{\rm eff}(\beta, w) = {\rm Tr}[H(w,w)^{-1}D(w,w)],
\end{displaymath} (A.20)

とおくと,これは $w=w^*$ $h_{\rm eff}(\beta)$ になる.
\begin{displaymath}
\hat{h}_{\rm eff}(\beta, w)={\rm Tr}[H^{-1}D] = 2{d_1 d_2-d_3^2\over d_2^2-d_3^2},
\end{displaymath} (A.21)

を最初の分岐点 ( $\beta=\beta_c, w^*=0$) のまわりで $\beta$$w$ について展開すると,
$\displaystyle \hat{h}_{\rm eff}(\beta, w)$ $\textstyle =$ $\displaystyle \hat{h}_{\rm eff}(\beta_c, 0) +
\left\{{\partial\over\partial\beta}\hat{h}_{\rm eff}(\beta_c, 0)
\right\}\Delta\beta$  
    $\displaystyle +{1\over2}\left\{
{\partial^2\over\partial w^2}\hat{h}_{\rm eff}(\beta_c, 0)\right\}
\Delta w^2$  
    $\displaystyle +\mbox{\ higher order terms,}$ (A.22)

が得られる. 上式の第 2 項と第 3 項は式 (4.3) から, ともに $\Delta\beta$ のオーダーである.

$d_1$, $d_2$, $d_3$ をそれらの値で置き換えると,まず $\lim_{\beta\downarrow\beta_c}\hat{h}_{\rm eff}(\beta, 0) = 1$ が得られる. これと,定理 5 の 1 次元の場合を考えることにより, $\lim_{\beta\to\beta_c}\hat{h}_{\rm eff}(\beta, 0) = 1$ となる. また,第 2 項の係数は

\begin{displaymath}
{\partial\over\partial\beta}\hat{h}_{\rm eff}(\beta_c, 0)=2\sigma^2,
\end{displaymath} (A.23)

となり,第 3 項の係数は $\beta=\beta_c$ に置き換える前の形で
\begin{displaymath}
{1\over2}{\partial^2\over\partial w^2}\hat{h}_{\rm eff}(\bet...
...ta(1-2\beta\sigma^2 - {1-4\beta^2 s_4\over 1-2\beta\sigma^2}).
\end{displaymath} (A.24)

となる. $s_4 \neq (\sigma^2)^2$ のとき, $\beta_c=1/(2\sigma^2)$ を用いると, $s_4>(\sigma^2)^2$ なので, $\beta$$\beta _c$ に右から収束していくとき, 式 (A.24) は $-\infty$ に発散する.

$s_4=(\sigma^2)^2$ となるのは $q(x)$$\delta(x)$ $(\delta(x-a)+\delta(x+a))/2$ に等しいときである. 前者では分岐は起きないので,後者のみを考えればよい. 一般性を失うことなく $a=1$ とすると, 右微分は

\begin{displaymath}
{\partial\over\partial \beta}\hat{h}_{\rm eff}(\beta_c,0) = -4,
\end{displaymath} (A.25)

となる.

次に分岐が 3-way の場合についても同様にして証明できる. この場合はモデルが

$\displaystyle p(x;\ w_1, w_2, w_3;\ \beta)$ $\textstyle =$ $\displaystyle \sqrt{\beta\over\pi}
\Biggl(a \bigl[ \exp\{-\beta(x-w_1)^2\} + \exp\{-\beta(x+w_2)^2\}
\bigl]$  
    $\displaystyle + (1-2a)\exp\{-\beta(x-w_3)^2\}\Biggr),$ (A.26)

という 3 つの混合分布モデルで,定理の仮定より $a$ は定数となる. また最尤解に置いては $w_1=w_2=w$, $w_3=0$ となる. 2-way の場合と同様にして, $D(w_1,w_2,w_3)$ および $H(w_1,w_2,w_3)$ の値を計算すると,
\begin{displaymath}
D(w,w,0) = \left[
\begin{array}{ccc}
d_1 & d_2 & d_3\\
d_2 & d_1 & -d_3 \\
d_3 & -d_3 & d_4
\end{array}\right],
\end{displaymath} (A.27)


\begin{displaymath}
H(w,w,0) = \left[
\begin{array}{ccc}
d_5 & d_2 & d_3 \\
d_2 & d_5 & -d_3 \\
d_3 & -d_3 & d_6
\end{array}\right],
\end{displaymath} (A.28)

という形に書け, $\hat{h}_{\rm eff}(\beta,0)$
\begin{displaymath}
\hat{h}_{\rm eff}(\beta,0) =
{2d_1d_3^2 - 2d_1d_5d_6 + d_2...
...d_3^2 d_5 -d_4d_5^2\over (d_2 + d_5)
(d_2d_6+2d_3^2-d_5d_6)},
\end{displaymath} (A.29)

となるので,分岐点の周りで漸近展開する. 式が複雑になるので途中の式は省略するが,2-way の場合と同様に $\partial^2\hat{h}_{\rm eff}(\beta,0)/\partial w^2$ の右微分係数が
\begin{displaymath}
-(2 a^2-2 a + 1) (s_4-(\sigma^2)^2),
\end{displaymath} (A.30)

の符号に応じて $\infty$ または $-\infty$ になる. 分岐が 3-way のときは $s_4>3(\sigma^2)^2$ だから,上式は常に負であり, 3-way のときも右微係数が $-\infty$ になることが示された.

証明終


next up previous
次へ: 確率分布の位置, 尺度, 回転パラメータの学習法についての付録 上へ: 正規混合分布の汎化バイアスの非単調性についての付録 戻る: 分岐点以下の汎化バイアス
Shotaro Akaho 平成15年7月22日