next up previous
次へ: 竹内の情報量規準 (TIC) 上へ: 汎化と竹内の情報量規準 (TIC) 戻る: 汎化と竹内の情報量規準 (TIC)

汎化バイアス

学習の目的は汎化,すなわち,有限個の与えられた訓練サンプルにフィットす るだけではなく,背後にある真の確率分布の構造を抽出することにある. 真の 分布が既知ならば,それに対する尤度を最大にするパラメータを求めればよい. しかし実際には真の分布は未知だから, 訓練サンプルだけを用いて真の分布の尤度を推定 しなければならない. そのための方法として,ブートストラップなどのリサン プリングを用いる方法と,訓練サンプルに対する尤度と真の分布に対する尤度 の統計量(期待値など)を評価する方法がある. 本論文で考えるのは後者の方法のうち,竹内の 情報量規準 (TIC) と呼ばれている方法である.

TIC について説明する前に基本的な記号と用語を定義しておく. 訓練サンプル $X^N = x_{(1)},\ldots,x_{(N)}$ を発生する未知の 確率分布を $q(x)$ とする. 訓練サンプルに対する対数尤度の $1/N$ を経験対数尤度と呼び,

\begin{displaymath}
R_{\rm emp}(\theta) = {1\over N}\sum_{j=1}^N \log p(x_{(j)};\ \theta),
\end{displaymath} (3.5)

とおく. $R_{\rm emp}$ を最大にするパラメータが訓練サンプルに対する最尤推定 量であり, $\theta=\theta_{\rm ML}$ とおく. 一方,対数尤度を $q(x)$ で期待値をとった値 (平均対数尤度) を真の対数尤度と呼び,
\begin{displaymath}
R_{\rm exp}(\theta) = {\rm E}_{q}\left[\,\log p(x;\ \theta)\,\right].
\end{displaymath} (3.6)

とおく. ただし, ${\rm E}_{q}\left[\,\cdot\,\right]$
\begin{displaymath}
{\rm E}_{q}\left[\,\cdot\,\right] = \int \cdot\ q(x)\,{\rm d}x,
\end{displaymath} (3.7)

で定義される. $R_{\rm exp}$ を最大にするパラメータ $\theta=\theta^*$ を真の最尤推定量と呼 ぶことにする. 先に述べたように,本論文では $\theta^*$ が 存在するような $q(x)$ だけを扱う. $R_{\rm emp}(\theta_{\rm ML})-R_{\rm exp}(\theta_{\rm ML})$ を(最尤推定量の)汎化バイ アスと呼び,この値を評価することによって,経験尤度から真の尤度を推定し, モデル選択を行ったり,サンプル計算量を求めたりすることができる.



Shotaro Akaho 平成15年7月22日