次へ: いろいろなカーネル
上へ: SVM の汎化能力
戻る: SVM の汎化能力
学習アルゴリズムは多くの場合,何らかの損失関数を最小化する問題として
定式化されるが,実際に最小化できるものは学習サンプルだけから計算される
損失関数のサンプル平均(経験損失)である. 汎化能力を期待するなら,未知のサンプル
を含めたすべてのサンプルに対する損失関数の期待値
(期待損失)を最小にしてほしいわけだが,それは未知だからできない.
従って,経験損失と期待損失の差が汎化能力を測る際の基本となる.
これは PAC に限らずみな同じである.
サンプルを生成する分布を
とし,
パラメータ
をもつ学習機械がサンプル
を処理した
ときの損失関数を
とする.
このとき経験損失はサンプル集合を として
であり,これを最小化するパラメータを
とする.
一方,期待損失は
であり,これを最小化するパラメータを
とする.
学習によって得られるパラメータが最適なパラメータに比べてどれだけ損を
しているかは,
で評価できる. ただしここで問題となるのは,
この値が未知の分布
に依存していることである.
さらに,サンプルはその未知の分布に従う確率変数だから,
は
サンプルに従って動く確率変数である.
確率変数 を特徴づけるものはいくつか考えられるが,AIC などの情報量
規準では「期待値」,PAC では「信頼区間」を考えるという違いがある.
ここではそのうち PAC についてより詳しく述べる.
分布が未知の状況下では の信頼区間を正確に求めることは難しい.
そこで,PAC ではさらにその信頼区間の上限をいくつかの不等式を用いて導く.
その概略を順を追って説明しよう.
-
.
ただし,
-
.
-
.
ここで,
は 個のサンプルの損失を
二つの異なるサンプルセット と に対して測った
ものの差
である.
-
.
ここで,集合 は合計 個の
サンプルに対して
が異なる値を取るすべての
の集合である.
これにより,個々の
についての区間確率の和として の信頼区間
が押さえられた. さらに
個々の区間確率が
によらない 値 で押さえられれば,単に
という結果になる. の評価式は
Hoeffding の不等式
|
(5) |
などを用いて証明できるが(ただし 確率変数 ),
McDiarmid の不等式を用いると少しだけタイトな上限が得られる.
結果として,
に関する不等式 (信頼区間 )
として得られる.
残る問題は をどう評価すればよいかということであるが,
代表的なものとして,VC 次元を用いた評価がある.
一般に VC 次元が
大きいほど のサイズの上限が大きくなる.
SVM との関連で言うと,サンプルの特徴ベクトルが半径 の超球に含まれているとき,
マージンの大きさ をもつ超平面クラスの VC 次元は
に比例した値で上から押さえられる
( は特徴空間の次元). 従って,マージンの大きなクラスほど汎化能力の高い
識別器であり,特徴空間の次元とは無関係で「次元の呪い」から逃れられる.
ただし,実はこの推論には落とし穴があり,学習によって得られたマージン
というのはサンプルに依存したもので,想定した関数クラスというわけではない.
この問題を克服するために,厳密には
luckiness という枠組みに拡張する必要がある[11].
以下,PAC や SVM の汎化能力に関係し重要と思われる事項をいくつかまとめておく.
- SVM の leave-one-out エラーの上限を導くことができ,それは
サポートベクタの数で押さえられる. 従って,サポートベクタの数が
小さければ小さいほど leave-one-out エラーは汎化能力を測る一つの規準だか
らサポートベクタの数が小さいほど汎化能力は高い.
- 容易に想像できるように PAC の上限は何段階にもわたる不等式
評価をしているためかなり甘い.
そのため,PAC の上限はモデル選択などには使えないという評価が強い.
それでも SVM が次元の呪いを受けないことを示せたように,理論的な価値は
高い. オリジナルの PAC 式の上限をタイトにしていくという方向の他に,
ここでは二つの新しい指標による期待損失の信頼区間の上限評価について
紹介する.
一つはデータ圧縮という考え方を(MDL とは異なるやり方で)用いて学習
アルゴリズムの複雑さを評価するもの[9]で,
もう一つはロバスト性に関係する指標を用いたものである[6].
いずれも従来 VC 次元ではできなかったタイトな上限を導く可能性を
もっている.
Shotaro Akaho
平成15年7月18日