next up previous
次へ: ソフトマージン 上へ: 正則化とソフトマージン 戻る: 正則化とソフトマージン

正則化

ここで学習における正則化という考え方を簡単に説明しておこう. 関数 $f$ の学習というのは,本来未知のデータに対する汎化誤差を小さく するような $f$ を選ぶのが目的である. しかしそれはできないので,実際にはサンプル集合 $\cal D$ に対する関数 $f$ の損失 $R_{\rm emp}({\cal D}, f)$ (サンプル損失) ができるだけ小さくなるような $f$ を選ぶ. ところが,$f$ の関数クラスが大きすぎるときには, $R_{\rm emp}({\cal D}, f)$ だけを小さくしたのではサンプルにオーバー フィットしたものが得られてしまう(不良設定性). そこで,関数に対する (ある条件を満たす)罰金項 $\Omega(f)$ を導入し,

\begin{displaymath}
\mathop{\mbox{minimize }}_f R_{\rm emp}({\cal D}, f) + \lambda\Omega(f)
\end{displaymath}

という最適化問題を解いてオーバーフィットを避けるのが正則化という 手法である. $\lambda$ は正則化パラメータと呼ばれ, サンプル数の増加とともに適切に小さくしていけば, 汎化誤差を最小にするような $f$ に収束することが示される.

ちなみに,正則化は,損失関数を負の対数尤度, 罰金項を対数事前分布と見ればベイズ推定における MAP 推定とみなすこともできる.



Shotaro Akaho 平成15年7月18日