次へ: 混合分布と EM アルゴリズム 上へ: 複数情報源からの属性概念獲得 戻る: 複数情報源からの属性概念獲得

正準相関分析による次元圧縮

$\mbox{\boldmath$x$}$ と $\mbox{\boldmath$y$}$ の対応を学習するにはそれぞれの次元が大きすぎる (音声の場合には音声の長さとともに次元の大きさも変化してしまう)ので，その前処理として次元を減らす処理をする必要がある．まず第一にすべきことはそれぞれ生データをある固定した次元の特徴量に変換することである．どのような特徴量をとればよいかという問題は情報源の種類に大きく依存するのでこれに関しては実験の学習データの節で述べる．

特徴量に変換された後もそれぞれのデータはまだかなり大きい次元であることが普通である．大きい次元同士の対応関係をとるのは汎化や計算量の観点から難しい．また，特徴量はそれぞれの情報源ごとに独立して設計されたものであり，情報源の間の対応を考える際には不要な情報も多く含まれている．

そのために正準相関分析[68,18,92]によって，複数の情報源の対応づけに必要な情報だけを取り出す．正準相関分析とは， $\mbox{\boldmath$x$}$ と $\mbox{\boldmath$y$}$ を最も相関係数が大きくなるようにそれぞれを共通の空間(正準空間)に写像する手法である．一般にこの条件だけではスケールや回転の自由度が存在し，写像が一意に定まらないので移された空間での分散共分散行列が単位行列になるように決める．また，今回の実験では写像としては最も簡単な線形変換を採用したが，非線形への拡張等も研究されている[20]．線形変換の場合は，変換行列が固有値問題の解で与えられる．ここではその具体的な形を示しておく．

一般性を失うことなく $\mbox{\boldmath$x$}$ および $\mbox{\boldmath$y$}$ のサンプル平均は 0 であるとする．そうでないときは各サンプルから平均ベクトルを引いておけばよい．このとき， $\mbox{\boldmath$x$}$ および $\mbox{\boldmath$y$}$ から正準空間の第成分への射影

$\begin{displaymath} u_i = \mbox{\boldmath$a$}_i^{\rm T}\mbox{\boldmath$x$},\qquad v_i = \mbox{\boldmath$b$}_i^{\rm T}\mbox{\boldmath$y$}, \end{displaymath}$

(6.1)

は，次の一般化固有値問題の(大きい方から数えて)第

番目の固有値に対応する固有ベクトルとして与えられる．

$\displaystyle V_{xy} V_{yy}^{-1} V_{yx} \mbox{\boldmath$a$}_i = \rho_i^2 V_{xx} \mbox{\boldmath$a$}_i,$			(6.2)
$\displaystyle V_{yx} V_{xx}^{-1} V_{xy} \mbox{\boldmath$b$}_i = \rho_i^2 V_{yy} \mbox{\boldmath$b$}_i,$			(6.3)

ただし， $V_{zw}$ は $\mbox{\boldmath$z$}$ と $\mbox{\boldmath$w$}$ の共分散行列である．また， $\rho_i$ は

と

の相関係数になっている．ちなみに，正準相関分析は情報源の結合正規性を仮定したとき，つまり $\mbox{\boldmath$x$}$ と $\mbox{\boldmath$y$}$ が同時正規分布しているとすると，最も相互情報量が高くなるような特徴量を抽出していることになっている．

Shotaro Akaho 平成15年7月22日