[ English | Japanese ]


VocaListener2(ぼかりす2): ユーザ歌唱の音高と音量だけでなく声色変化も真似る歌声合成システム

This project is proposed and researched by Tomoyasu Nakano and Masataka Goto.
twitterアカウント: @VocaListener
twitterハッシュタグ: #vocalis


Abstract:

 本稿では、ユーザの歌唱音声からその声色(こわいろ)変化を真似て歌声合成する システムVocaListener2 を提案する。我々が以前開発したVocaListener では、音 高と音量のみを真似て歌声合成パラメータを推定していたが、VocaListener2 ではそ れを拡張して声色変化にも対応する。従来、主に声質変換やモーフィングのために、 声質を操作する技術はあったが、ユーザ歌唱の声色変化を反映することはできなかっ た。VocaListener2 を実現するために、まずVocaListener によってユーザ歌唱の音 高と音量を真似た多様な歌声を合成して声色空間を構成し、その結果を用いてユーザ 歌唱の声色変化を反映して合成する。市販の歌声合成システムを用いて実験した結果、 VocaListener2 では音高と音量に加えて声色変化も真似ることができていた。


Overview:

まず、我々が以前開発した VocaListener1 を用いて、 ユーザ歌唱を真似て、時刻が同期した複数の歌唱者による歌唱音声を自動的に生成する。 ここで、 合成対象となる同一歌唱者の声色が異なる歌唱(例: 初音ミクと初音ミク・アペンド)も 同時に合成する。 これによって、 各時刻において音高・音量・音韻が同期した歌唱が得られるため、 これら全てを活用して、声色変化以外の成分を抑制した声色空間を構成する。 そこでは、全ての歌唱が各時刻において声色空間上の一点に対応し、 その時間変化は、声色空間上の時間変化する軌跡として表現できる。

続いて、実現課題(2) を解決するために、VocaListener1 による 同一歌唱者の声色が異なる合成結果(同期した歌唱)の、 声色空間上における複数の軌跡について、 それらを含むような多面体(ポリトープ)とその時間軌跡を考え、 これを声色変化チューブと呼ぶ。 声色空間を 3 次元空間とすると、合成対象の声色は、 各時刻において 7 個(初音ミク、DARK、LIGHT、SOFT、SOLID、SWEET、VIVID) の 3 次元ベクトルがその空間上に存在し、 これら 7 個の点に囲まれた内側が、 合成したい同一の歌唱者の変形可能な領域と本研究では仮定する。 つまり、この時々刻々と変化する多面体(3 次元ポリトープ) が声色変化可能な領域であると考える。 したがって、同じく声色空間の別の場所に存在するユーザ歌唱の軌跡を 声色変化チューブ内になるべく入るようにシフト・スケーリングさせることで、 各時刻における声色空間上の合成目標位置を決定する。 その位置から出力する合成歌唱のスペクトル包絡を生成して VocaListener2 を実現する。

Overview of VocaListener2
図1: VocaListener2 における処理の流れ。
ユーザ歌唱の歌い方を真似た複数の声質と複数の声色の歌唱から、
声色空間を構築し、ユーザ歌唱の声色変化を真似るように合成する。

Demonstrations:

本研究のデモンストレーション動画の一部を、

に掲載させて頂きました(2010年7月26日)。

VocaListener2 Demo 01a
VocaListener2デモンストレーション (使用楽曲: RWC-MDB-G-2001 No.91「大漁船」、合成音源:「初音ミク」と「初音ミクAppend(DARK, LIGHT, SOFT, SOLID, SWEET, VIVID)」)

VocaListener2 Demo 01b
VocaListener2デモンストレーション (使用楽曲: RWC-MDB-G-2001 No.91「大漁船」、合成音源:「鏡音リン」、スペクトル変形曲面: 「初音ミク」から「初音ミクAppend(DARK)」)

VocaListener2 Demo 01c
VocaListener2デモンストレーション (使用楽曲: RWC-MDB-G-2001 No.91「大漁船」、合成音源:「鏡音リン」、スペクトル変形曲面: 「初音ミク」から「初音ミクAppend(LIGHT)」)

VocaListener2 Demo 01d
VocaListener2デモンストレーション (使用楽曲: RWC-MDB-G-2001 No.91「大漁船」、合成音源:「鏡音リン」、スペクトル変形曲面: 「初音ミク」から「初音ミクAppend(SOFT)」)

VocaListener2 Demo 01e
VocaListener2デモンストレーション (使用楽曲: RWC-MDB-G-2001 No.91「大漁船」、合成音源:「鏡音リン」、スペクトル変形曲面: 「初音ミク」から「初音ミクAppend(SOLID)」)

VocaListener2 Demo 01f
VocaListener2デモンストレーション (使用楽曲: RWC-MDB-G-2001 No.91「大漁船」、合成音源:「鏡音リン」、スペクトル変形曲面: 「初音ミク」から「初音ミクAppend(SWEET)」)

VocaListener2 Demo 01g
VocaListener2デモンストレーション (使用楽曲: RWC-MDB-G-2001 No.91「大漁船」、合成音源:「鏡音リン」、スペクトル変形曲面: 「初音ミク」から「初音ミクAppend(VIVID)」)

VocaListener2 Demo 01h
VocaListener2デモンストレーション (使用楽曲: RWC-MDB-G-2001 No.91「大漁船」、合成音源:「鏡音リン」と「鏡音リン擬似Append」)




本研究のデモンストレーション動画の一部を、

に掲載させて頂きました(2010年8月6日)。

VocaListener2 Demo 02
VocaListener2デモンストレーション (使用楽曲: RWC-MDB-P-2001 No.7「PROLOGUE」、合成音源:「初音ミク」と「初音ミクAppend(DARK, LIGHT, SOFT, SOLID, SWEET, VIVID)」、編曲: 田中アマノ)



Acknowledgments:

本研究の一部は、科学技術振興機構CrestMuse プロジェ クトによる支援を受けました。本研究では、 ヤマハ株式会社の開発した Vocaloid 及び Vocaloid 2 の応用商品である、 クリプトン・フューチャー・メディア株式会社の 「KAITO」, 「MEIKO」(以上、Vocaloid)、 「初音ミク」, 「鏡音リン」, 「鏡音レン」, 「巡音ルカ」, 「初音ミクAppend」(以上、Vocaloid 2) を使用させていただきました。 また、同じく Vocaloid 2 の応用商品である 株式会社インターネットの 「がくっぽいど」, 「メグッポイド」、 AH-Softwareの 「氷山キヨテル」, 「歌愛ユキ」, 「SF-A2開発コードmiki」を使用させていただきました。

本研究では、RWC 研究用音楽データベース(音楽ジャンル RWC-MDB-G-2001) を使用しました。

「鏡音リン擬似Append」の名称の使用は、クリプトン・フューチャー・メディア株式会社から許可を得ました。


References:

  1. 中野 倫靖, 後藤真孝:
    VocaListener2: ユーザ歌唱の音高・音量に加えて声色変化も真似る歌声合成システム,
    情報処理学会論文誌,
    Vol.54, No.6, pp.1771-1783, June 2013.
    [論文PDF]
  2. 後藤 真孝, 中野 倫靖, 梶田 秀司, 松坂 要佐, 中岡 慎一郎, 横井 一仁:
    "人間の歌い方を真似る歌声合成システムVocaListenerとロボット顔動作生成システムVocaWatcher",
    システム/制御/情報(システム制御情報学会誌),
    Vol.56, No.5, pp.249-255, May 2012.
  3. Masataka Goto, Tomoyasu Nakano, Shuuji Kajita, Yosuke Matsusaka, Shin'ichiro Nakaoka, and Kazuhito Yokoi:
    "VocaListener and VocaWatcher: Imitating a Human Singer by Using Signal Processing",
    In Proceedings of the 2012 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2012),
    pp.5393-5396, March 2012.
    [PDF]
  4. Tomoyasu Nakano and Masataka Goto:
    VocaListener2: A Singing Synthesis System Able to Mimic a User's Singing in Terms of Voice Timbre Changes as well as Pitch and Dynamics,
    In Proceedings of the 36th International Conference on Acoustics, Speech and Signal Processing (ICASSP2011),
    pp.453-456, May 2011.
    [論文PDF]
  5. 中野 倫靖, 後藤真孝:
    VocaListener2: ユーザ歌唱の声色変化を真似る歌声合成システム,
    日本音響学会 2011年 春季研究発表会 講演論文集,
    3-7-11, pp.321-324, March 2011,
    [論文PDF]
  6. 中野倫靖, 後藤真孝:
    VocaListener2: ユーザ歌唱の音高と音量だけでなく声色変化も真似る歌声合成システムの提案,
    情報処理学会 研究報告 音楽情報科学研究会,
    Vol.2010-MUS-86, No.3, pp.1-10, July 2010.
    (情報処理学会 音楽情報科学研究会 『夏のシンポジウム2010』 ベストプレゼンテーション賞 受賞)
    [論文PDF] [発表資料PDF]

The copyright of each publication is retained by the corresponding academic society (copyright holder). The IPSJ publications are published on this web site under the copyright guidelines of the IPSJ (in Japanese).


メディア報道、記事一覧:

  1. ITmedia News: 2010年7月30日(金)
    3次元声色空間で声の変化までを模倣する「ぼかりす2」 鏡音リン疑似Appendの仕組みとは?
  2. インプレス AV Watch: 2010年8月16日(月)
    “歌声”の最先端技術を集めたシンポジウム 〜「ぼかりす2」も発表された「歌声情報処理最前線! 」〜

Tomoyasu Nakano and Masataka Goto