有限状態文法音声認識

有限状態文法音声認識エンジンは、入力音声に対して最大尤度を与える単語系列を有限状態文法に基づいて探索する音声認識エンジンです。

上図の黄緑色のノードを結んで構成したグラフが有限状態文法を表現しています。各ノードには複数の単語が登録されており、有限状態文法の始点から終点までノード間を遷移するときに、各ノードに登録されている複数の単語の中から１つの単語が選ばれます。

例えば、

"Media"のノードに「テレビ」、「ラジオ」・・・・
"Digit"のノードに「1」、「2」、「3」、「４」、「５」、「６」・・・・
"Channel"のノードに「チャンネル」「チャン」
"Action"のノードに「をつける」「をけす」「をみる」「をきく」・・・・
"TV Station"のノードに「NHK総合」「NHK教育」「日本テレビ」「TBS」「フジテレビ」・・・・
"Radio Station"のノードに「NHK第1」「NHK第２」「TBSラジオ」「文化放送」「ニッポン放送」・・・・
"SilB"と"SilE"は発話前と発話後の無音区間

のように登録した場合、

「テレビ」「をつける」
「テレビ」「４」「チャン」「をみる」
「ラジオ」「をきく」
「フジテレビ」「をみる」
「文化放送」
・・・・

などの発話を認識することができるようになります。

この有限状態文法音声認識エンジンに、HMMに基づいた雑音重畳音声の特徴補正法を組み込むことで、雑音に対して頑健な音声認識を実現しています。

関連文献リスト

佐宗　晃，浅野　太，田中　和世，”ＨＭＭに基づく特徴補正を実装した有限状態文法音声認識エンジンの開発および評価，”　日本音響学会2005年秋季研究発表会　講演論文集，1-P-29, pp.209-210, Sep. 2005

Copyright(c) 2007 Akira Sasou All Rights Reserved.