next up previous
次へ: 論文の構成 上へ: 序 論 戻る: 序 論

研究の背景と位置づけ

計算機や通信網の普及によって社会の情報化が急速に進みつつある. それに ともなって世の中には膨大な情報が氾濫し,ともすれば人間を情報の洪水に 巻き込んでしまいがちである. それを避けるためには,ユーザにとって必要 な情報やデータの背後にある構造を適切に抽出する必要がある. そのための 知的な情報処理手法が,データからの学習の問題として,人工知能,パターン 認識,統計学などを中心とした学際領域で盛んに研究されるようになり,さら にはデータマイニングと呼ばれる一領域を成しつつある.

従来,人工知能とパターン認識は比較的最近までそれぞれが独 立した研究分野として発展してきた. 論理学に基礎をおく人工知能はどちら かというと記号化された理想的な環境を扱い,深くて演繹的な推論を研究して きた. 一方,パターン認識をはじめとする確率・統計的研究は,より生のデー タに近い所で,特徴抽出や判別,回帰など,比較的浅くて帰納的な推論につい ての研究を行ってきた. しかしながら,本当に現実世界の情報に対して人間 が行っているような柔軟な情報処理を行うためには,それぞれの枠組みだけでは 不十分であり,両者を統合した枠組みで研究を行っていく必要があるという認識が高 まってきた[63,72]. 特に,対話システムや自律ロボットの研 究では,外界から入って来る生データと内部的な記号的処理とを両方統合して 扱うことが必要であり,情報統合の問題として研究が盛んに行われている [77,64].

実世界は非常に複雑であり,それに対処するため情報処理システムには 大量で多様な情報が与えられる. しかしながら,いくら大量の情報を与えられても それは複雑な世界の一部分を切り取った不完全な部分情報に過ぎない. また,情報自体があいまいで,誤りを含んでいたり不確実であることも多い. そのような状況下では,因果関係の記述や推論が計算論的爆発を引き起こすという, いわゆるフレーム問題と呼ばれる問題が起きる. この問題に対し,統計的なアプローチは二つの対処法を提供する. 一つは不要な部分を確率的な変動として近似してしまうことによって情報の 複雑度を減らし,それによって計算量を低減するというものであり, 二つ目は情報のあいまい性を確率的なモデルとして表現することによって, 単純な論理推論よりも柔軟な推論を行うというものである.

では,これらの複雑な世界のモデル化に適した統計モデルとはどのようなもので あろうか. 一つの要件はモデルが任意に単純化したり複雑化したりできる柔軟性を もつことである. 1980 年代にニュ−ラルネットワークモデルが大きな脚光を浴びたのも, 従来の線形の多変量解析モデルなどよりも複雑な表現が比較的単純な メカニズムで実現できたからだと考えられる. ニュ−ラルネットワーク の研究は,理論や応用の研究,あるいは統計学や統計物理学との交流などを通じて さまざまな派生モデルを生み出した. 特に,複雑な情報処理のためのモデルとして注目されているのが グラフィカルモデルと呼ばれるモデルであり, ボルツマンマシンにはじまるマルコフランダム場モデルやベイジアンネットワーク などがこれにあたる. グラフィカルモデルはネットワークによる組合せ的な構造 をもつことによって,記号的な情報とパターン的な情報を統合的に 扱うことが可能になり,更に,因果関係や階層構造,情報の部分性といった 処理対象の特性をうまく表現できる. またネットワークのノードやアークを増やしていくことにより, いくらでも複雑な構造を表現できる[54,42,56].

本研究では,グラフィカルモデルの中でも最も単純な形をした混合分布モデル (特に有限混合分布) を扱う. 混合分布は統計学では古い歴史をもち,統計学におけるさまざまな 知見の積み重ねがある[31,86]. 一方,単純な形をしているにも関わらず, モデルの非線形性などに関してボルツマンマシンやベイジアンネットワークの 基本的な性質を受け継いでおり,混合分布の性質は より複雑なモデルの性質へと一般化できる可能性をもつと考えられる. そのため統計物理においても,混合分布を力学系としてとらえ,その緩和過程や 相転移現象などの理論的な解析がなされてきた[75,22,23]. また,複雑な問題をモジュールの分担によって解決するという 混合分布のもつ特質は,人工知能の研究にお いても重要である[79]. Jordan ら[43]がモジュー ル学習を混合分布の学習として定式化してから,混合分布はより広い研究者の 関心を集めるようになった. 更に,クラスタリングを始めとして,混合分布を直接適用 できるアプリケーションも数多く存在している[25].

さて,本研究では混合分布モデルの学習(あるいは推定)の問題を扱う. 人間は非常に柔軟な学習能力をもっており,複雑な対象をいとも簡単に学習する ことができる. 知的な情報処理を行う上で,学習は欠かせない要素である. 学習に関しては,古くから心理学などで研究がなされてきたが, 人工知能では,知能の計算機上での実現という観点から, 特に計算論的な側面が重視され研究されてきた[77]. また,脳科学においても,脳の計算原理の解明を目指した計算論的神経科学の 重要性が認知されつつある[46].

以下では,本研究で着目する汎化と学習アルゴリズムという二つの問題に ついて述べる. 計算論的に解釈すると,汎化はサンプル計算量に関する問題であり,学習アルゴ リズムは,全体としてかかる実際の計算量を規定する問題とみなすことができる.

汎化とは,学習の結果与えられるサンプルデータの背景にある真の構造が 抽出されることである. これは,学習における究極の目標であるが, 実際には,有限個のサンプルからの学習によってその目標に対す る近似値が得られるにすぎない. したがって,その近似値として得られたものが真 の対象からどれだけ離れているかを知ることが学習において重要な問題となる. これは逆に,所望の近似精度を得るためにはどれだけのサンプルを収集しなけ ればならないかというサンプル計算量の問題でもある. 統計モデルの汎化能力の評価は,例題からの学習に起因する基本的な問題で あり,統計学や情報理論などの枠組みから さまざまな研究がなされてきた [13,87,88,73,49,15]. 一般に, 統計モデルの構造を複雑にすればするほど訓練データに対する当てはまり具合 はよくなる. しかし逆に,過度に適合した統計モデルでは汎化能力は低くな ってしまう. したがって,訓練サンプルに適合するだけではなく,できるだけモデルを単純化 することによって,汎化能力を高く保つ必要がある. 統計モデルの汎化能力は,正規分布に基礎をおく線形モデルについては 古くからかなり詳しく調べられている. しかしながら, 混合分布をはじめとするグラフィカルモデルは冗長性や特異 性をもつので,従来考えられてきたのとは異なる振舞いを示すことがあ る. 近年,そのような冗長性のあるモデルに関する研究が盛んに行われるよ うになってきた[36,29,34,90]. 本研究では,あるクラスの正規混合分布について汎化能力の性質を調べ, 通常線形モデルで考えられていたのとは異なる振舞いがみられることを示す.

さて,汎化はサンプル計算量を規定するが,実際の学習は 学習アルゴリズムによって行われるので,学習アルゴリズムを規定して はじめて全体でどれだけの計算量となるかが決まる. 現実のアプリケーションでは学習の実時間性が要求されることも多い. 計算機資源が豊富になってきたとはいえ,実世界の大量のデータを 実時間で学習するためには,依然として計算量の少ないアルゴリズムを 追求することに意味がある. 更に,複雑な統計モデルを扱う際には, 学習に反復アルゴリズムを用いる必要があるので,収束性なども重 要な問題となる. グラフィカルモデルの学習アルゴリズムとして知られてい るのは,勾配法,Newton 法,EM (Expectation-Maximization) アルゴリズム, およびそれらの近似手法である. このうち,EM アルゴリズムは 適用できる範囲に制限はあるが,安定した収束 性と 1 回の繰り返しステップにかかる計算量の少なさにおいて,他の手法に 優っている. EM アルゴリズムはもともと隠れマルコフモデル[24] などで個別に提案されていたものを Dempster らが一般的な形で定式化し [30],混合分布の推定[69]などに応用されてきた. また,理論的にもその幾何学的な構造が明らかになってきた [17,80,3]. すなわち, EM ア ルゴリズムは曲がった空間における推定問題をより平坦な空間での推定に帰着 するための道具として解釈できる. 例えば混合分布では,混合分布を構成する個々の要素分布の推定問題に帰着される. これは,全体としては困難な推定問題を,それぞれの構成要素の問題に帰着する という分割統治のアプローチに通じるものである. ただし,その要素分布が正規分布のような単純な分布では推定が簡単にできるが, そうでない場合はやはり難しい問題が残る. これを解決するためのアプローチとして,要素分布を再び混合分布で モデル化するという再帰的な手段を用いたのが Jordan らの階層的 エキスパート混合モデルである[43]. しかしながら,このアプローチでは一般にパラメータ数が多くなるため汎化の 点で不利であるという点と,既に要素分布として基本となる分布形が与えられ ている場合には用いることができない点で問題がある. そこで本研究では,既に要素分布の形が与えられていた場合に EM アルゴリズムを 応用した学習アルゴリズムが適用できないかを考える. 具体的には,任意に 与えられた分布が位置・尺度パラメータをもつとき,正規混合分布の EM アル ゴリズムを拡張した形の学習アルゴリズムが得られることを示す.

ところで,はじめに述べたように,実世界の情報は不確実性や不完全性をもっており, それが学習を困難にする一つの理由にもなっている. 例えば,パターン認識の主な対象である画像や音声などのデータは,そこに記号的な ラベルやタグが付与されている場合には比較的取扱いが易しくなるが, 実際にはラベルづけされないデータが多く,(簡単に処理するために)必要な 情報が欠けているという意味で,これも一種の情報の不完全性とみることが できる. そこで本研究では,そのような不完全性に対処するために,混合分布の 適用を検討する. 記号的な情報が隠れているような新たな学習課題 を設定し,混合分布によるモデル化と,EM アルゴリズムによる学習を行い, 統計的手法の適用可能性について調べる.

以上で述べてきたように,本研究の目的は,混合分布モデルの学習における汎 化能力の振舞いを数理的に明らかにするとともに,その学習アルゴリズムであ る EM アルゴリズムがどのような問題に適用可能なのかを探求することにある.



Shotaro Akaho 平成15年7月22日