物体の属性の学習を例として,マルチモーダル対話 システムにおける学習の基本的な枠組みを提案した. ここで目指しているものは,記号レベルでの人間の関与をできるだけ減らし, 人間とのインタフェースに現れるパターンレベルでの情報交換だけで, 外界の構造を獲得するようなシステムである.
このような観点から,物体のある画像に対して, 複数の属性のうちの 1 つを人間が音声で教えると いう課題に対し,モダリティ間に共通に含まれる情報を抽出する正準相関分析と 属性を隠れ変数とした混合分布によるモデル化と EM アルゴリズムを組み合わせた統計的学習・認識の枠組みを示し,実験を行った.
以下では,本研究が提示した枠組をより一般化した形でまとめ,
本研究の問題点を明らかにしておく.
マルチモーダル情報源からのパターン的情報を統合して,そこに埋め込まれた
構造を学習によって獲得するという課題は主に以下の 3 つの段階に分割できる.