混合音中の歌声の声質変換手法

藤原 弘将, 後藤 真孝(産業技術総合研究所)


概要

本研究では、混合音中の歌声の声質を、別の歌手の声質に変換する手法を提案する。 従来の声質変換は単独歌唱のみを対象としていたため、伴奏を含む歌声には適用できなかった。 本手法は、入力として変換元の混合音の音響信号と変換先の単独歌唱の音響信号を受け取り、 変換元音響信号の歌声の声質を、変換先音響信号の歌声の声質に変換した音響信号を出力する。 本研究では、我々が以前提案したW-PST法[1,2]を応用することで、スペクトル中の歌声が優勢な 周波数成分を同定し、伴奏音に影響を与えることなく歌声の周波数成分のみを操作することを可能にした。

詳細はこちら[3]をご覧下さい。

デモンストレーション

声質変換とボーカルキャンセルの実行例を以下にいくつか示します。 実際の実行する際には、全ての楽曲について1曲全体の音響信号を入力していますが、 下記デモンストレーションでは楽曲の1部を抜粋して掲載しています。

声質変換

変換元 変換先 出力
Prologue / 緒方智美 (No.7) ときめきの瞬間 / 市川えり (No.20)
青空散歩道 (No.26)
Vocaloid (初音ミク)
Spice of Life / 風戸ヒサヨシ (No.4) きみの色 / 森元康介 (No.74)

ボーカルキャンセル

変換元 出力
Prologue / 緒方智美 (No.7)

謝辞

本研究の一部は、科学技術振興機構CrestMuseプロジェクトによる支援を受けました。 本研究のデモンストレーションでは、「RWC研究用音楽データベース:ポピュラー音楽」(RWC-MDB-P-2001)、 並びに、クリプトン・フューチャー・メディア株式会社の歌声合成ソフトウェア「初音ミク」を使用しました。

参考文献

  1. 藤原 弘将, 後藤 真孝, 奥乃 博, "多重奏中の歌声の基本周波数と有声音素の同時推定手法," 情報処理学会論文誌, 採録済み.
  2. Hiromasa Fujihara, Masataka Goto, Hiroshi G. Okuno, "A Novel Framework for Recognizing Phonemes of Singing Voice in Polyphonic Music", In Proceedings of the 2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA 2009), New Paltz NY, USA, October 2009. (Accepted as an oral presentation. PDF)
  3. 藤原 弘将, 後藤 真孝, "混合音中の歌声スペクトル包絡推定に基づく歌声の声質変換手法", 音楽情報科学研究会, 2010-MUS-86, Vol.2010, 情報処理学会, July 2010. (PDF)