非言語情報を活用した音声インタフェース

Speech Completion Snapshot

研究アプローチ

本研究は、 音声認識をインタフェースとして快適で使いやすいものにすることを目標に、 従来は無視されていた 言い淀みや韻律のような 非言語情報 を積極的に活用することで、 音声の持つ潜在能力を引き出した音声インタフェース機能の実現を目指す。 従来の音声認識研究の多くは、音韻や単語のような 言語情報 をいかに音声から得るかに焦点を当てて、認識率の向上を競ってきた。 しかし、インタフェースとしてはまだまだ使いにくく、 認識率を高くする技術だけでは不十分である。 「キーボードのどのキーが押されたかを正しく認識する技術」と、 「そのキーボードを用いて使いやすいインタフェースを構築する研究」が 全く異なることからわかるように、音声においても 「インターフェースとしてどう音声認識を使うか」 という観点からの研究をしなければ、 本当の意味でユーザにとって使いやすいものは実現できない。

そこで我々は、音声による快適なインタフェースを実現するための鍵が、 従来無視されていた 非言語情報 にあると考え、 それを有効活用する研究を展開している。 非言語情報には、言い淀みや声の高さなどがあるが、 従来はどちらかというと誤認識を招く一因として嫌われていた。 例えば、 音声入力中に言い淀むと誤認識され、適切に入力できないことが多かった。 声の高さに関しては、 過去に音声認識率を向上させる目的で利用を試みられたこともあったが、 充分な有効性が示されず、現在はほとんど利用されていない。 本研究ではこうした非言語情報を逆に活用し、音声認識率向上のためではなく、 新たなインタフェース機能実現のために活用する 点が新しい。

具体的には、 非言語情報を実際に利用している人間同士のコミュニケーションを参考にしながら、 言い淀み声の高さ を活用した以下の音声インタフェース機能を提案してきた。

  1. 音声補完: 言い淀むと助けてくれる音声インタフェース機能
  2. 音声シフト: 声の高さでモードを切り替える音声インタフェース機能
  3. 音声スタータ: 言い淀んで言い始める音声インタフェース機能
  4. 音声スポッタ: 人間同士の会話中に音声認識が利用できる音声インタフェース機能
  5. 音声訂正: 認識誤りを選択操作だけで訂正できる音声インタフェース機能

代表文献

  1. 後藤 真孝: "非言語情報を活用した音声インタフェース", 情報処理学会 音声言語情報処理研究会 研究報告 2004-SLP-52-7, Vol.2004, No.74, pp.41-46, July 2004. (特別講演)
    PDF
  2. Masataka Goto, Katunobu Itou, and Tetsunori Kobayashi: Speech Interface Exploiting Intentionally-Controlled Nonverbal Speech Information, Proceedings of the 18th Annual ACM Symposium on User Interface Software and Technology (UIST 2005), pp.35-36, October 2005. (Demos)
    PDF


音声補完: 言い淀むと助けてくれる音声インタフェース機能

Speech Completion
音声補完: 全部を思い出せなくて言い淀むと計算機側が残りを補って手助けをしてくれる

音声入力時にユーザがある単語を一部しか思い出せずに断片だけを言って言い淀むと、 音声入力システム側がその残りを補って入力することを可能にする 機能である。 非言語情報の一つである 言い淀みは、 従来は単に誤認識を招く一因と考えられていた。 音声補完ではその言い淀みを逆に活用し、 例えば、 ユーザが単語発声途中に「うただー」のように 有声休止(母音の引き延ばし)によって言い淀むと、 「宇多田ヒカル」を含む補完候補の一覧を見ることができる機能を提供する。 これにより、 入力中に困って言い淀めば手助けが受けられる使いやすい音声入力が実現できる。

関連情報

  1. 音声補完: 言い淀むと助けてくれる音声インタフェース機能

代表文献

  1. 後藤 真孝: 解説 "音声補完: 言い淀むと助けてくれる音声インタフェース", 情報処理(情報処理学会誌), Vol.43, No.11, pp.1210-1216, November 2002.
  2. 後藤 真孝, 伊藤 克亘, 秋葉 友良, 速水 悟: "音声補完: 音声入力インタフェースへの新しいモダリティの導入", コンピュータソフトウェア(日本ソフトウェア科学会論文誌), Vol.19, No.4, pp.10-21, July 2002.
  3. Masataka Goto, Katunobu Itou, and Satoru Hayamizu: Speech Completion: On-demand Completion Assistance Using Filled Pauses for Speech Input Interfaces, Proceedings of the 7th International Conference on Spoken Language Processing (ICSLP-2002), pp.1489-1492, September 2002.
    PDF Poster PDF
  4. Masataka Goto, Katunobu Itou, Tomoyosi Akiba, and Satoru Hayamizu: Speech Completion: New Speech Interface with On-demand Completion Assistance, Proceedings of HCI International 2001, Vol.1, pp.198-202, August 2001.
    PDF 後藤 真孝, 伊藤 克亘, 秋葉 友良, 速水 悟: "音声補完: 音声入力インタフェースへの新しいモダリティの導入", インタラクティブシステムとソフトウェアVIII 日本ソフトウェア科学会 WISS 2000, 暦本 純一 (編), pp.153-162, 近代科学社, December 2000.
    PDF
  5. 後藤 真孝, 伊藤 克亘, 速水 悟: "音声補完: ``TAB'' on Speech", 情報処理学会 音声言語情報処理研究会 研究報告 2000-SLP-32-16, Vol.2000, No.64, July 2000.
    PDF


音声シフト: 声の高さでモードを切り替える音声インタフェース機能

Speech Shift
音声シフト: 意図的に声の高さを変えることで入力モードを発話ごとに切り替えられる

音声入力時に、 ユーザの声の高さで音声認識時の入力モードを切り替えることを可能にする 機能である。 声の高さは現在の音声認識では使われていないが、 本研究ではこれをインタフェースの観点から活用し、 普通に発声した発話故意に高く発声した発話を 異なる入力モードに割り当てることで、 音声のみでモード指定と情報入力とを同時におこなうことを可能にする。 例えば、音声ディクテーションにおいて、 「改行」と普通に発声するとその文字が入力され(文字入力モード)、 それを高く発声すると行末が改行される(コマンドモード)機能が実現できる。

代表文献

  1. Masataka Goto, Yukihiro Omoto, Katunobu Itou, and Tetsunori Kobayashi: Speech Shift: Direct Speech-Input-Mode Switching through Intentional Control of Voice Pitch, Proceedings of the 8th European Conference on Speech Communication and Technology (Eurospeech 2003), pp.1201-1204, September 2003.
    PDF Poster PDF
  2. 尾本 幸宏, 後藤 真孝, 伊藤 克亘, 小林 哲則: 音声シフト: 音高の意図的な変化を利用した音声入力インタフェース, 電子情報通信学会論文誌 D-II, Vol.J88-D-II, No.3, pp.469-479, March 2005.
  3. 尾本 幸宏, 後藤 真孝, 伊藤 克亘, 小林 哲則: "音声シフト: 音高を利用した新たな音声入力インタフェース", インタラクティブシステムとソフトウェアIX 日本ソフトウェア科学会 WISS 2001, 暦本 純一 (編), pp.17-26, 近代科学社, December 2001.
  4. 尾本 幸宏, 後藤 真孝, 伊藤 克亘, 小林 哲則: "音声シフト: ``SHIFT'' on Speech", 情報処理学会 音声言語情報処理研究会 研究報告 2002-SLP-40-3, Vol.2002, No.10, pp.13-18, February 2002.


音声スタータ: 言い淀んで言い始める音声インタフェース機能

Speech Starter
音声スタータ: 言い淀んだ後だけ音声認識することで雑音の誤検出を防止する

非定常雑音下で頑健な音声認識の実現に、 インタフェースの観点から取り組み、 言い淀んだ後だけ音声認識することで雑音の誤検出を防止する 機能である。 従来の雑音下での認識は、 雑音に頑健な特徴量の研究が多くなされてきたが、 実際には、発話区間の切り出しミスが誤認識に与える影響が大きく、 特徴量の工夫だけでは頑健性を達成できなかった。 そこで、雑音下で話し始めるときには、 必ず「えー」や「んー」のように 発話の頭で言い淀むことをルールとする インタフェースを提案する。 通常、雑音中にはそうした言い淀みに似た音は含まれないため、 様々な物音が鳴っても発話区間と誤らずに音声入力システム側は適切に無視できる。 これにより、 ユーザは発話開始時点を音声だけで明示的に指示でき、 従来、 ボタン操作等による指示でハンズフリーの利点が失われていた問題を解決できる。

代表文献

  1. Koji Kitayama, Masataka Goto, Katunobu Itou, and Tetsunori Kobayashi: Speech Starter: Noise-Robust Endpoint Detection by Using Filled Pauses, Proceedings of the 8th European Conference on Speech Communication and Technology (Eurospeech 2003), pp.1237-1240, September 2003.
    PDF
  2. 北山 広治, 後藤 真孝, 伊藤 克亘, 小林 哲則: "音声スタータ: ``SWITCH'' on Speech", 情報処理学会 音声言語情報処理研究会 研究報告 2003-SLP-46-12, Vol.2003, No.58, pp.67-72, May 2003.


音声スポッタ: 人間同士の会話中に音声認識が利用できる音声インタフェース機能

Speech Spotter
音声スポッタ: 言い淀んだ後に高い声で発声した箇所だけ音声認識する

マイク入力だけで人間同士の会話中の音声認識対象箇所を同定できる 機能である。 人間同士の会話中に、 あたかもそこに第三者がいるかのように計算機の支援を受けられると便利である。 例えば、人と会話をしながら今日が何日かを知りたくなったり、 明日の天気予報や、スポーツの結果を知りたくなったときに、 もし計算機が人間同士の会話をモニタリングしていて、 知りたいタイミングで結果を教えてくれると、 会話を中断することなく各種情報支援が得られて有用である。 しかし、従来の技術では、 人間同士の会話全体を音声認識・理解することは極めて困難で実現できなかった。 そこで「音声スポッタ」では、 通常の会話は無視し、 母音を延ばして言い淀んだ後に故意に高い声で発声された特殊な発話だけを 音声認識対象とみなす。 例えば、 「えー、今日は何日」 のように、言い淀んだ後に入力したい文章を故意に高く発声すれば、 計算機が「今日は何日」の部分を認識し、その答えを教えてくれる。

本機能は、 人間同士の対面での会話をマイクでモニタリングして適用するだけでなく、 電話での会話に対して適用しても効果が大きい。 さらに本機能は問い合わせだけでなく、 曲名を「音声スポッタ」の形式で発話すると、その曲がその場で再生され、 人間同士がそれに関して議論するような用途にも応用できる。

関連情報

  1. 音声スポッタ: 人間同士の会話中に音声認識が利用できる音声インタフェース機能

代表文献

  1. Masataka Goto, Koji Kitayama, Katunobu Itou, and Tetsunori Kobayashi: Speech Spotter: On-demand Speech Recognition in Human-Human Conversation on the Telephone or in Face-to-Face Situations, Proceedings of the 8th International Conference on Spoken Language Processing (ICSLP-2004), pp.1533-1536, October 2004.
    PDF Poster PDF
  2. 後藤 真孝, 北山 広治, 伊藤 克亘, 小林 哲則: "音声スポッタ: 会話中に音声認識が利用できる音声インタフェース", 日本音響学会 2004年秋季研究発表会 講演論文集, 3-1-6, pp.121-122, September 2004.
  3. 北山 広治, 後藤 真孝, 伊藤 克亘, 小林 哲則: "音声スポッタ: ``FOCUS'' on Speech", 情報処理学会 音声言語情報処理研究会 研究報告 2004-SLP-50-7, Vol.2004, No.15, pp.45-50, February 2004.
  4. 北山 広治, 後藤 真孝, 伊藤 克亘, 小林 哲則: "音声スポッタ: 人間同士の会話中に音声認識が利用できる新たな音声インタフェース", 日本ソフトウェア科学会 第11回インタラクティブシステムとソフトウェアに関するワークショップ (WISS 2003) 論文集, pp.9-18, December 2003.


音声訂正: 認識誤りを選択操作だけで訂正できる音声インタフェース機能

代表文献

  1. Jun Ogata and Masataka Goto: Speech Repair: Quick Error Correction Just by Using Selection Operation for Speech Input Interfaces, Proceedings of the 9th European Conference on Speech Communication and Technology (Eurospeech 2005), pp.133-136, September 2005.
  2. 緒方 淳, 後藤 真孝: "音声訂正:``CHOICE'' on Speech", 情報処理学会 音声言語情報処理研究会 研究報告 2004-SLP-54-54, Vol.2004, No.131, pp.319-324, December 2004.
  3. 緒方 淳, 後藤 真孝: "音声訂正: 認識誤りを選択操作だけで訂正ができる新たな音声入力インタフェース", 日本ソフトウェア科学会 第12回インタラクティブシステムとソフトウェアに関するワークショップ (WISS 2004) 論文集, pp.47-52, December 2004.
    PDF


Back to:


Please E-mail comments and questions to
Masataka GOTO <m.goto [at] aist.go.jp>

All pages are copyrighted by the author. Unauthorized reproduction is strictly prohibited.

last update: March 10, 2005