はじめに

柔軟なシステムに必要とされる条件の一つとして，学習機能を持っていることが挙げられる．実世界の対象は非常に多様であるので，実世界に関する知識をすべてシステムに埋め込んでおくことは不可能である．そこで，システムが人間との対話を通じて環境に関する知識を学習することが必要となる．

従来，対話システムにおける学習の重要性は認識されつつも，対象の多様性ゆえに学習自体が困難であったために，実現された例は少ない．また，非音声的な対話システムでは，記号的な情報はパターン的な情報に隠れていることが多く，従来の人工知能的なアプローチでは扱いにくい面があった．そこで，本章では画像と音声といった複数の情報源からのデータをもとにシステムに属性概念を学習させるという課題について統計的なアプローチから考察する．

まず準備として，物体の画像をシステムに見せて，その名称を音声で教えるという課題を考えよう．これは二つのパターンの間の直接的な(一対一の)関係づけである．これに対して例えば次のような方法が考えられる．

さまざまな物体に対して，物体の画像とその物体の名称を表す発話の対を与えるということを，一定量の学習サンプルについて繰り返し行い，画像と音声のパターン間の関係付けを学習させておく．次に，新しい画像をシステムに示して，その名称をたずねると，それまで学習した関係付けの結果にもとづいて，その画像にもっとも関連の高い音声パターンを再生することによって，その名称を答える．またある物体の名称を音声でたずねると，その物体の画像を想起して見せてくれる．

この方法で注目すべき点は，画像や音声に対する明示的なパターン認識を行っていないことである．現実のデータでは，記号的な情報がパターン情報に隠れていて陽には与えられないことが多い．したがって，明示的認識を行わない学習では，あらかじめカテゴリーを定めることが難しいような対象に対しても，システムと対話する人間の発話を利用することによって，明示的なカテゴリーの定義を避けることが可能となる．またシステムに対して提示するものが，画像と音声のパターンの対だけなので，個々のパターンに対して記号化したラベル付けをして学習させる場合に比べて，その手間が軽減される．

本論文では，一対一の対応でなく，一対多の対応の例として，物体の属性概念を学習させることについて考察する．物体には，名称のほかに，色や大きさといった複数の属性が存在するので，画像に対する複数の属性を自動的に分類して獲得するという問題が考えられる．すなわち，物体のある画像に対して，複数の属性のうちの１つ(例えばその物体の色) を人間が音声で教えるということを続け，システムに学習サンプルを自動的に分類させる．

学習の目的は，新たに示された物体の画像に対してその物体の複数の属性を，属性を表す音声の組によって答えることである．表6.1に，その例を示す．

**表 6.1:** 考える課題の例
学習データの例:
画像	音声
[白いコップ]	``しろい''
[青いペン]	``ぺん''
$\cdots$	$\cdots$
[赤い本]	``あかい''

学習後:
画像	音声
[白いペン] $\to$	``しろい'' + ``ぺん''
[青い本] $\to$	``あおい'' + ``ほん''
$\cdots$	$\cdots$
[赤いコップ] $\to$	``あかい'' + ``こっぷ''

画像のある属性を教えているときに，どの属性について教示しているかの情報がシステムには与えられないため，通常の個別な属性についてのパターン認識よりも難しい問題になる．この場合，属性概念という記号的な情報は個々のパターンだけからは抽出不可能で，複数のモダリティの情報を統合し，パターン集合全体に埋め込まれた構造を抽出する必要があるため，より複雑な学習課題となる．

この課題はまた，人間の発達に関する発達心理学の観点からも興味ある課題である．人間の子供は，大人とのコミュニケーションを通じて同様の課題を解いている．実際にはもっと複雑で，発達途中で属性概念そのものを教えられたりするが，それ以前に単純な画像と音声のペアだけの教示段階でもある程度自己組織的に属性概念を形成できることが知られている[32]．

統計的には，属性概念の学習は音声側のデータに対するクラスタリングである．しかしながら，そのクラスタ化の基準はペアとして与えられる画像によって規定される点で通常のクラスタリングとは異なる一種の制約付きのクラスタリングとみなせる．また，画像や音声はそれぞれ多変量であるから，それらから共通に含まれる特徴量をうまく取り出して低次元化することが重要となる．そこで本論文では，これらの問題に対して，正準相関分析による次元圧縮と混合分布による属性のモデル化を組み合わせた学習法を提案し，実験によって有効性を検討する．

視聴覚情報の統合化にもとづく概念獲得の研究としては，参考文献[59,60] がある．しかしながら，これらの研究では画像の属性についてあらかじめ記号化されており，また DP マッチングによる音声同士の類似区間の抽出や文法レベルの学習に関するものであり，本論文の対象とは，異なるものである．