next up previous
次へ: 実験 上へ: 収集データと特徴抽出 戻る: 音声データ

音声特徴量

録音した単語に対して前後の無音区間を切り,音声区間のみに対して, 音声認識で一般的に用いられる周波数分析手法である, メルケプストラム分析を行った[67]. 抽出した次数は 1 次から 12 次までの全部で 12次. 分析条件は 16 kHz サンプリング,分析フレーム長 25msec, フレーム周期 10msec,分析窓: ハミング窓,プリエンファシス係数 0.97 とした.

更に,特徴量の次元を一定にするために分析フレームを間引くことによって 時間方向には 10 フレームとなるように正規化を行い,最終的に 120次元 = 12(次)$\times $10(フレーム) の特徴量を得た. つまり,最初にできたベクトル列は 12 $\times $(分析フレーム数 = $n$)となって いるので,例えば $n$ = 30 のときは 第 1, 4, 7, 10, 13, 16, 19, 22, 25, 28 番目のフレームの分析結果だけを 用いて,12 $\times $ 10 のベクトル列を作成した.



Shotaro Akaho 平成15年7月22日