ニュ−ラルネットに関するメモを作りかけていたのだが、どうも不精な 私には体系的な説明は似合わないようだ。 というわけでそれは捨てて、日記に使っている落書帳 と同じように、日記形式で適当に考えていることをメモすることにした。
さて、話を統計という話から始めよう。 学生の頃は、統計というと何か古くさいイメージがあり、 そんなに数学的にきっちりしていない世界というイメージがあった。 また、確率的な世の中の描像というのにはうさんくさい印象も抱いていた。
しかし、これらはいろいろ勉強していくうちに誤解の部分もあり、 自分自身の中で修正されて、結局今ではどっぷりつかってしまっている。 といっても上に書いたようなことは全く間違っているわけではないので、 追い追いそれについても書いて行こうと思う。
統計の研究をしているといっても、統計学会にも入っていないし、 統計の専門家といえるわけではないのだが、 自分の興味を持っている対象、具体的には学習とか適応とか いう話を自然と確率統計的な見方で見るようになっていた。
一言で言えば、確率・統計的な枠組は、不確実性と複雑性を両方扱うことが できる。 主にカオスとの関連で複雑系という言葉が流行っているが、 複雑性を扱う手法は他にもいくつかある。 伝統的な AI で使われる形式言語は 複雑性を正面から扱う。 だが、本当に複雑になっていくと破綻をきたして しまう。 確率・統計的な扱いはこれに比べるとずいぶん大雑把で、複雑な もののうち、いらないものはノイズとして扱うという「近似」が大きな役割を 果たしており、比較的大規模な問題を易しくすることができる。
カオスは知的システムにどう使うか未知数的なところがあってよくわからないが、 形式言語と確率・統計的な枠組の両方を兼ね備えたような話が複雑系を扱うには 必要なんだろうなと思う。 身のまわりだと橋田さんのやっているような話とかがあるが、私にはちょっと 複雑すぎて手に追えないのでとりあえずもうちょっと確率寄りの混合分布 モデルとかベイジアンネット、ニュ−ラルネットなどが興味の対象になっている。 まあ橋田さんの話も、隠れマルコフにちょっと毛の生えたようなものだと 思えばそう遠くはないのだが。
結局世の中を「近似」することが必要なわけで、平均場近似だのレプリカ法だの、 この辺で研究と言えば「近似法」の研究といってもよいくらいである。 ちょっと言いすぎだけど。
3 月 17 日に統数研で研究会があって,その後スキーに行ったりして このページもなかなか更新できなかった. それから,日記の形式で並べていたのだが,日記と違って前から読み返したいことも 多いので日付順に並べ直しました.
統数研では私が主として取り組んで来た「混合分布」についての話をした. 混合分布は確率分布の重みつきの和の形で書ける分布である. ファジー学会というところに(混合分布の) EM アルゴリズムの解説をする 必要が生じたので少し復習も兼ねてここにしばらく書こうと思う.
p(x; w,θ) = Σ w(i) p(x; θ(i))
w(i) を重みとして,複数の分布 p(x|θ(i)) を足し合わせてできる分布である. 俗な言い方をすれば,p(x; θ(i)) という専門家がいて,それらが w(i) の重みで分業して複雑な対象を処理しよういうモデルである.
この分布は素直で役に立つ分布で,一見単純に見えるが, いわゆる指数分布族には入っていないので推定やら何やらの話はそう 簡単ではない.
だからといって諦める必要はなく,EM アルゴリズムという強力な学習アルゴリズム がある. その詳細はおいおいまとめていくことにすることにして, 混合分布の理論的な側面も少し触れておく.
混合分布では 各エキスパートも学習を行うのだが,全体モデルーエキスパートモデルのように 階層的になっているモデル(他には層状ニュ−ラルネットなど)では, 学習の際に変なことが起きる. 変なことと書いても意味不明だが, 端的に言えば汎化の問題である.
汎化は学習において最も基本的と思われる能力で,理論の研究者の大部分は これについて研究している(というと言いすぎか?). これについてはたぶん繰り返し説明することになるが,汎化とは, 学習サンプルだけにフィットするのではなく,背後にある真の構造を発見する 能力である.
体系的に書くのが苦手な方なので,前からのつながりはあまり気にしないで 適当に書いて行きます.
そろそろ今年から来年にかけての研究を何かでっちあげないといけないのだが, これといっていいアイディアもない. それ以前にいろいろ解説を書いたり論文をまとめたりしなくてはいけなくて, 新しいことをするのになかなか頭が回らないのが辛い.
津田さんと何度か議論していた射影スコア関数を使った推定はそれなりに 面白いが,どこまで深みがあるかなかなか不安. セミパラは結局ベイズ的にやればいいのではないかという考えからなかなか 脱し切れない. もちろんそれぞれ得失があるからちゃんと考えないといけないんだ ろうけど.
少し解説すると, 知る必要の無い撹乱母数がたくさん入っているのが セミパラメトリック略してセミパラで,単純な尤度ではなく,知る必要の無い 撹乱母数に情報を持って行かれないように尤度を射影したものを使うのが 射影スコア関数の話. 撹乱母数がたくさん入っていると普通は破綻するのだが, 射影スコアを使うと破綻しないという話がある. 一方,撹乱母数に事前分布を考えて,ベイズでやってしまうのがベイズ法.
もう一つはサポートベクターマシンとかのカーネルがらみの話. サポートベクターマシンに関しては数理科学 6 月号に解説を書いたので そちらを買って下さい^^; カーネル PCA とかカーネル部分空間法は既にあるので カーネル正準相関分析というのはどうか? ちょっと安易すぎるかな.
3つある落書帳の中で一番更新率が悪いのがこのページである. まあちゃんと研究をやっていない証拠かも知れないが,企業秘密を ばらしてもまずいので,あまり核心に触れる話題はちょっと書きづらい のだ... などともっともらしい言い訳をしておいて.
前回ほとんど冗談のように書いたカーネル正準相関分析は IBIS2000 に投稿して,あまりのいい加減さにやっぱりポスターセッション 採択となった(基本的に reject はなし). それで,カメラレディを書かねばならなくなったのだが, 実験してみると予想通り? なかなかうまくいかずえらく苦労してしまう. Bayes はちょっと凝り出すとプログラムが結構大変だから 不精な私にはあまり向いていないな. モンテカルロにするか Laplace 近似 にするかという究極の選択もあるし(それほどオーバーなものではない).
最近の興味は強化学習. 強化学習というのは広い意味では損失関数が 一部分しか与えられないような場合の学習という話である. 狭い意味ではマルコフ決定過程の学習ということになる. マルコフ決定過程というのは,マルコフ過程で,各状態に御褒美(reward)が 与えられるようなモデルで,短期的ではなく,長期的観点から reward の 総和が大きくなるような行動を決定するという話である. 学習の問題としては,確率モデルの不定性を解決しながら reward も増やさ ねばならないというトレードオフの解決が問題となるはず.
もう一つは甘利先生が福水さんなんかといろいろやっている退化モデルの 学習理論の話. 私も混合分布で同じような問題をやっていたので (ただし私は一番きわどい所は逃げているんですが), 興味はあるのだが,なかなか手ごわいのである.
今日は全く違う話. マイクやカメラなど複数のチャネルを使った マンマシンインターフェースをマルチモーダル対話システムという. 今の懸案は,そのマルチモーダル対話システムの中でおもしろい学習は ないかということである. これは,数年前に画像データと音声データを 使って属性概念を学習したという話の延長にある話である. あのときは,使ったモデルも手法も既存のものを組み合わせてとりあえず 作ったという感じで,実際デモとかを作ろうとするとかなり苦しい. 生のデータから何か概念のような情報を抽出するという作業は, 現在の所モダリティ間の相互情報量を大きくするようなクラスタリング という話である. あとは時系列を扱うことが多いので,可変長のデータを どう扱うかということになる. この辺は MIT の最近の研究がかなり 参考になるが,なんとなくそれだけだとつまらない. 新しい要素は ないものか.
だいたい言葉遣いに関してはいい加減なところがあるんですが, 最近まで無意識に使っていた情報量基準という言葉があります. AIC とか MDL とかそういうものです. これは正しくは情報量「規」準じゃないといけないんですね. standard ではなく criterion ということです. まあある意味どうでもいいんですが,全然意識せず使っていたので 指摘された時は目から鱗状態でした. AIC は使い方は簡単ですが,理論に関してはいろいろうるさいことがあるんですね. ニューロでは Fisher 情報量が退化したときの問題が大きいですが, 普通の場合もゆらぎが大きいので場合によっては役に立たないという話が あります. これが階層的なモデル集合ですらゆらぎがあるというのは 知りませんでした.
お問い合わせ・ご質問は下記までどうぞ
s . a k a h o @ a i s t . g o . j p