特徴量に変換された後もそれぞれのデータはまだかなり大きい次元であることが 普通である. 大きい次元同士の対応関係をとるのは汎化や計算量の観点から 難しい. また,特徴量はそれぞれの情報源ごとに独立して設計されたもので あり,情報源の間の対応を考える際には不要な情報も多く含まれている.
そのために正準相関分析[68,18,92]によって,複数の情報源の 対応づけに必要な情報だけを取り出す. 正準相関分析とは, と を最も相関係数が大きくなるように それぞれを共通の空間(正準空間)に写像する手法である. 一般にこの条件だけではスケールや回転の自由度が存在し,写像が一意に定まらない ので移された空間での分散共分散行列が単位行列になるように決める. また,今回の実験では写像としては最も簡単な線形変換を採用したが, 非線形への拡張等も研究されている[20]. 線形変換の場合は,変換行列が固有値問題の解で与えられる. ここではその具体的な形を示しておく.
一般性を失うことなく
および
のサンプル平均は 0 であるとする.
そうでないときは各サンプルから平均ベクトルを引いておけばよい.
このとき,
および
から正準空間の第 成分への射影
(6.1) |
(6.2) | |||
(6.3) |