二つの情報源 からそれぞれデータ が与えられるとしよう. 我々の問題では は画像, は音声である. は 種類の属性をもっており, はその属性のいずれかを 表すものとする. 属性の数 は既知とするが, が の どの属性を表わしているかは未知とする.
後で詳しく述べるように,属性としては色,形,大きさの3種類(), あるいはそのうちの2種類() を考える.
与えられた学習サンプルをもとに属性の分類を行って と との対応を学習し,新たに与えられた に対する 個の属性 を出力することが目的である.