■ twitterハッシュタグ: #cgmgenzaimirai
なぜこれほどまでに異なる分野の多くの人々が,そしてさまざまな研究者が,歌声合成ソフトウェアでかつキャラクタでもある「初音ミク」 ☆1 を発端としたCGM(Consumer Generated Media,消費者生成メディア)現象に注目し,議論しているのか.それは,そこに情報処理技術の力で切り拓かれつつある新たな未来があるからである.単に「歌やキャラクタを好む人々のための趣味的な世界」だとみなすと,この本質を見誤る.この現象では,日本の技術・社会・文化のすべての強みが結集したと思えるような明るい未来が築かれつつあり,一度,そのすごさを知ってしまうと,ほかの人に伝えずにはいられない気持ちになってしまう.それゆえ,これだけ多方面に支持者がいるのである.特に,本現象に魅了されている研究者には,これまでのキャラクタを中心とした文化には馴染みが薄く,初音ミクで初めて議論している人々も多い.
この現象を支え,創作を促進する重要な社会装置の1つに,初音ミクの楽曲や映像が多数投稿されている動画コミュニティサービス「ニコニコ動画」 ☆2 がある.ニコニコ動画は,YouTubeやUstreamのような従来の動画共有サービスとは異なる先進的な機能を数多く持ち,それがさまざまなCGM現象の土壌となっている.動画共有サービスでは,そこに集う人々は動画の視聴を主目的としているのに対し,動画コミュニティサービスでは,そこに集う人々はコミュニケーションや共同視聴体験を主目的としている.動画の視聴を共通体験とした上での,時刻同期コメント等によるメタレベルのコミュニケーションを,視聴者同士が,あるいは動画のクリエータと視聴者間で,楽しんでいるのである.
さらに,「初音ミク」発売の3カ月後にいち早く,「キャラクター利用のガイドライン」 ☆3 を発売元が宣言し,二次創作を応援するCGM型コンテンツ投稿サイト「ピアプロ」 ☆4 を立ち上げたのも重要であった.これにより,アマチュアを中心としたクリエータは権利問題を心配せずに,「初音ミク」等のキャラクタを使って安心して創作し,発表できるようになった.こうした権利の開放により自由な環境が意図的に整えられた意義は大きく,ほかの歌声合成ソフトウェアにも波及して,この現象の発展を決定づけた.
歌声合成ソフトウェア「初音ミク」が発売された2007年8月以降,実際にどんなすごいことが起きてきたのかを解説する.
「人間の歌声でなければ聴く価値がない」という旧来の価値観を打破し,「合成された歌声がメインボーカルの楽曲を積極的に楽しむ文化」が世界で初めて日本に誕生した.これは2007年以前には考えられなかった快挙であり,歌声合成技術の研究者自身ですら,その用途として,人間の歌声に合わせるコーラスや,人間が吹き替える前の制作段階の仮歌としての使用を想定していた.それを大きく変えたのが,歌声合成技術「VOCALOID2」 ☆5 に基づく「初音ミク」である.
ヤマハ(株)の歌声合成技術「VOCALOID2」(最新版はVOCALOID3)では,メロディの音符と歌詞を入力すると,人間の歌声を収録したデータベース「歌手ライブラリ」に基づいて歌声を出力することができる(本特集 [1] の剣持氏の記事参照).歌声ライブラリを変えれば異なる個人性(声質)を持つ歌声を合成でき,さまざまな企業がそうした製品を出している.従来よりも自然な歌声の合成が可能になり,ユーザインタフェースが改善され,声の高さや大きさ等をパラメータとしてユーザが細かく調整できることが,人気が出る技術的な要因となった.
2007年8月31日に発売された「初音ミク」は,この「VOCALOID2」を使用したクリプトン・フューチャー・メディア(株)の歌声合成ソフトウェアである.初音ミクでの同社の代表的な貢献は,女性声優の声のデータベースを高品質に収録したことと,その仮想の歌手をイメージしたアニメ風のキャラクタのイラストをパッケージに描き,年齢やプロフィール等の設定を決めたことにある.
実はこの貢献こそが本質的であり,このキャラクタという身体性を合成歌声に持たせたことで初めて,「誰が歌っているのか」,「誰に歌わせたいのか」が明確になった.これにより,初音ミクの発売直後から,初音ミクにしか歌えない曲が次々と発表され始めた.たとえば,キャラクタ側の視点から,クリエータとの関係性を感情表現した歌詞(歌声合成の立場でどういう風に歌わせてほしいかを述べた歌詞 ☆6 や,実在せず歌うことしかできないと語る歌詞 ☆7 等)が登場した.人間には歌うのが困難な高速な歌詞や広い声域の楽曲等も登場した.これにより,初音ミクのために曲を作る文化が誕生した.ここで,クリエータの側には「このキャラクタ(歌手)に歌わせたいから曲を作る」という強い動機が生まれ,視聴者の側には「このキャラクタ(歌手)の歌だから聴きたい」という積極的な楽しみ方が生まれたことが重要である.ほかにも,歌声合成ソフトウェアのキャラクタ(声質)が「鏡音リン」「鏡音レン」「がくっぽいど」「巡音ルカ」と増えていくにつれて,キャラクタ間の関係性を表現した歌詞等も登場している.
こうして,人間の代わりに歌声合成を用いるのではなく,歌声合成でなければならない表現を含む音楽文化が誕生した.
誰でもソフトウェアさえ購入すれば,初音ミクに自分の曲を歌わせることができる.人間の歌手に自分の曲を歌ってもらおうとすると,その機会を得るだけで大変であり,自分の望む声で思い通りの表現をしてくれるとは限らない.それが,初音ミクの歌声で,納得のいく表現が得られるまで何度でも修正しながら再現性高く合成できるのは,大きな利点である.結果的に,初音ミクという同一歌手の曲がCGM的に数万曲生まれた.そこから淘汰されて数十万〜数百万再生されるような有名曲は,ポピュラリティの高い良質な作品となる.そうした作品がさらに人気を呼んで,初音ミクに歌わせれば聴いてもらえる可能性が高まり,彼女を歌わせたいという動機をクリエータに与えるという連鎖反応が起きている.これは,人間の歌手ではあり得ない現象である.
ただし,初音ミクの歌声は自分の作品で自由に使えても,そのキャラクタのイラストは,通常は権利的に自由には使えない.歌声合成ソフトウェアは楽器の位置づけだが,キャラクタの再利用は著作権の制約を受けるからである.そこでクリプトン・フューチャー・メディア(株)は「キャラクター利用のガイドライン」を宣言し,「ピアプロ・キャラクター・ライセンス(PCL)」 ☆8 を発行することで,個人の創作意欲を引き出し,誰でも合法的に非商用利用することを可能にした(本特集 [1] の伊藤氏の記事参照).つまり,権利を開放したのである.この取り組みの成功は他社にも波及し始めており,たとえば日本マイクロソフト(株)も自社のキャラクタに対してPCLとほぼ同等のライセンス ☆9 を定めている.
この権利開放により初音ミク発売元は数パターンのイラストしか公表していないにもかかわらず,アマチュアを中心としたさまざまなクリエータが描いた十数万通りの初音ミクのイラストがCGM的に創作された.また,キャラクタを中心とした動画制作を容易にする3次元CG(コンピュータグラフィクス)ソフトウェア「MikuMikuDance(MMD)」 ☆10 等も無償公開されて大きな貢献を果たし,音楽に連動した動画作品が多数生まれた.
こうした楽曲や動画の作品を発表する場として,ニコニコ動画は最適であった.動画作品を投稿すると,作品内の時刻に同期したコメント(時刻同期コメント)が視聴者から得られ,クリエータの励みになるからである(本特集 [1] の戀塚氏の記事参照).作品全体に対する通常のコメントに比べ,時刻同期コメントはその内容が質的に異なり,その瞬間ごとの感情をより多く表現する傾向がある.そのため,「ここが良い」,「ここをこう変えては?」というような感想・提案も含めて,創作活動にさまざまなフィードバックが得られる環境になっており,クリエータのやる気が引き出されやすい.
さらに他人が作った曲に合う映像を付けて動画にしたり,他人が描いたイラストをスライドショーのように自分の曲に付けて動画にしたりする二次創作も盛んになった.歌声合成による元楽曲を人間が歌ったり,演奏したり,踊ったりする実写動画や,その実写の踊りをさらにCGキャラクタで再現した動画等も発表されている.既存動画を切り貼りして新しい動画を作る活動も活発であり,たとえば,多数の動画からランキングを作ったり,音楽に合う映像を断片的に切り貼りして新たな動画を作ったりしている.
こうした創作が創作を呼び起こす連鎖反応(集団的創造現象)を「N次創作」 [2] と呼ぶ(本特集 [1] の濱野氏の記事参照).その本質にはコミュニケーションの要素もあり,「この作品に対して,私はこういう作品を二次創作して応えよう」といった掛け合いのような創作の連鎖が起きている.そして,コンテンツ投稿サイト「ピアプロ」では,再利用可能なコンテンツを集め,コミュニケーションの支援もすることで,こうしたN次創作をさらに後押ししている.その過程で複数の作品の良いところが掛け合わされて良質な作品が生まれ,さらに人気が高まっていった.
ライブコンサートの歌手が人間ではなく,初音ミクというキャラクタであっても,数千人規模の観客を動員する大型のコンサートが成功するようになった.初音ミク主演のライブコンサートは,国内では2009年8月31日,2010年3月9日,2011年3月9日,2012年3月8日・9日に東京で,2011年8月16日・17日に札幌で開催された.国外では,2011年7月2日にLos Angelesで5,000人以上の観客を集め ☆11, 2011年11月11日にSingaporeで2,500人以上の観客を集めた.特に2012年3月の東京公演は2日間で1万人が来場し,国内外34カ所(日本24カ所,台湾7カ所,香港2カ所,上海1カ所)の映画館に生中継(パブリックビューイング)されて大規模に開催された.
メインボーカルの歌手だけが歌声合成と3次元CGキャラクタで表現され,彼女以外のステージ上の楽器演奏者と観客は全員人間という特殊なコンサートであり,その様子を初めて観ると大きな衝撃を受ける.歌手の声と映像はコンサート前に静的に用意されているにもかかわらず,観客が大きな声援を送るのも興味深い.なぜ自分の声が相手(初音ミク)に届かないと分かっていても,それでも,人々は声援を送ったり初音ミクに呼びかけて叫んだりせずにはいられないのか.それは声を出す自己表現手段であると同時に,会場の聴衆間のコミュニケーション手段であるからである.ステージ上の受け手の実在は声援行為に本質的ではなかったことが,こうしたコンサートだと浮き彫りになる.むしろ,ほかの観客が周囲にいることが本質的なのであろう.今後,研究開発が進めば,歌手の声と映像がコンサート中に動的に生成されるようになるのは間違いなく,そうなったときの歌手と観客とのインタラクションも興味深い.
上記の国外でのコンサートや生中継では,演奏された楽曲は日本語の歌詞のままであり,それでも世界に通用する音楽となったことは本当に素晴らしい.アマチュアを中心としたクリエータが制作した楽曲ではあるが,上記の淘汰を経たポピュラリティの高い音楽であることも寄与している.
初音ミクには,人と人をつなげるハブ(hub)の効果もある.異分野にいる人々が,初音ミクや歌声合成をキーワードに次々とつながってきた.クリエータ同士も,N次創作のように多くのコンテンツが絡み合う過程で交流が促進され,視聴者を交えたコミュニケーションも活発である.後述するような学術的な研究開発だけでなく,周辺のソフトウェア・ハードウェア開発や動画ランキング制作等も活発で,さまざまなコラボレーションが生まれる土壌となっている.
初音ミク,ニコニコ動画,ピアプロが切り拓いたCGM現象は,従来にない連鎖反応を引き起こしたために,本特集 [1] の他の記事にもあるように,さまざまな観点から議論されてきた.以下では,歌声合成技術という側面に焦点を当てて議論する.なお,初音ミク以外にもさまざまな声質や原理の歌声合成ソフトウェアが流通しており,上記の解説や下記の議論にはそれらにも当てはまる記述が多いが,便宜上,「初音ミク」を用いる.
初音ミク,ニコニコ動画,ピアプロが切り拓いたCGM現象は,単なるブームではなく,持続発展する文化である.文献 [3] でも述べたように,歌声合成技術が普及することは歴史的必然である.これまでもピアノやギター,シンセサイザのような新たな技術の登場が新たな音楽表現を生んできており,今後も必然的に,新たな音楽表現が生まれ続ける.楽音合成技術がポピュラー音楽制作で不可欠となったのと同様,歌声合成技術もいつの日か不可欠になる.そして楽音合成と同様に歌声合成も,独自の表現を生み出し,多様な音楽の創造に寄与していくはずである.特に,喉という物理的な制約のない歌声がどのような表現を生み出していくのかは興味深い.また,技術の発展によって表現手段を得た一般の人々が,アマチュアクリエータとしてCGM現象に参加する流れは,今後もますます発展していくと考えられる.
すでに,合成された歌声がメインボーカルの楽曲を積極的に楽しむ視聴者は多く,特に,10代の女性の比率が高いという調査結果が発表されている ☆12. もし若い頃に好きだった音楽を一生好むことが多いとすれば,歌声合成による新たな音楽表現は今後も好まれ続ける可能性がある.特に,上記の初音ミク主演のライブコンサートを会場で観れば,一生忘れられないぐらい強烈な体験となり得る.
歌声合成技術が発展すると,人間の歌手はいらなくなるのだろうか.筆者はそうは思わない.なぜなら,我々人類は歌うことをやめないからである.人は,強制されて歌うわけでなく,歌いたいから歌っている.また聴き手も,この人(自分の子供,友だち,好きな歌手)が歌うから,と思って聴く.そこに初音ミクという選択肢が増えるに過ぎないのである.
しかも,歌声合成技術が普及すれば,歌で自己表現するクリエータが増えていく可能性がある.もし歌手が「歌による表現者」を意味するとすれば,そうした歌声合成技術の使い手も,広義の「歌手」だと呼べる時代が来るのかもしれない.
日本での音楽情報処理の研究開発が先進的であるという背景はあるが,本現象がこのタイミングで日本において起きたのは,技術の優位性だけではない.日本の技術,日本の社会,日本の文化のそれぞれの強みが相乗効果で発揮されたからである.
上記のように日本の社会には先進的なコメント機能を持つニコニコ動画が普及しており(登録会員数が2,500万人で日本人口の約19%以上),誰もが作った曲をすぐに不特定多数の人たちに聴いてもらい,時刻同期コメントをもらうことができる.さらには,キャラクタを大切にする文化が日本にはあり,キャラクタを軸としたさまざまな展開が起きる土壌がある.その上,音楽やイラスト,映像等のさまざまなコンテンツで潜在能力が高く熱意あるクリエータが日本には多く,従来は埋もれていたのが,1次創作やN次創作等で活躍するようになった.新しいものを好む人たちも多く,楽曲・動画のクリエータ・視聴者や,技術のユーザとして本現象に貢献している.魅力的な声を提供できた声優・歌手の貢献もある.
過去に遡って考えれば,たとえば,能や歌舞伎にはすでにキャラクタを大切にする文化があり,連歌はN次創作そのものである.ほかにも,人形浄瑠璃との関連性も指摘されている ☆13. 日本の伝統は生きている.
情報処理研究者の立場からの研究開発も活発に取り組まれている.音楽情報処理分野の部分領域である「歌声情報処理」 [4] は以前から研究開発が進んできたが,初音ミク現象以降,社会的な関心が高まり,さまざまな大学や企業,研究機関,個人が参入してきている.たとえば歌声合成関連では,上記のVOCALOID以外に
ニコニコ動画上での創作活動も研究されており,たとえば,初音ミク関連のN次創作における協調的創造活動(引用関係や役割等)が分析された [5]. その先進性から,ニコニコ動画全般に関連した研究も多くなされており,たとえば,N次創作によって音楽に合ったダンス動画を自動生成するシステム「DanceReProducer」や,ランキング動画全自動生成システム「ニコニコランキングメーカー」,ニコニコ動画の時刻同期コメントの自動生成システム「MusicCommentator」,時刻同期コメントを利用した信頼度・感情分析やサビ検出,ニコニコ動画のタグ共起の分析等が挙げられる ☆19.
ピアプロに関しては,ピアプロのためだけの研究ではないが,能動的音楽鑑賞サービス「Songle」 ☆20 が2012年2月から試験的に連携を始めた.ピアプロ上の楽曲等を音楽音響信号理解技術によって自動分析して,その内容の可視化機能やサビ出し機能等をWeb上で誰でも体験できる形で実現している.
いずれも研究開発の余地はまだまだ大きく,研究テーマの宝庫ともいえる状況なので,今後もより多くの研究者の参入とさまざまな角度からの貢献が望まれる.
アマチュアのクリエータが生き生きと活躍するCGM現象は,技術の進展に伴って創作の敷居がさらに下がり,今後ますます発展していくであろう.なぜなら,上記の「歌いたいから歌っている」ように,あるいは「スポーツをしたいからしている」ように,人間は「表現したいから表現する」ためである.根源的には,そこに必ずしも見返りは必要ない.だから,多くの人に見てもらえたり,コメントで感想がもらえたりするだけで,さらに嬉しくなって創作の連鎖が起きていく.それが「一億総クリエータ時代」である.
筆者は,今後は「単位エネルギー当たりの幸せ」(幸せ ÷ エネルギー)という新たな概念が重要になると提唱している.音楽等のメディアコンテンツは,豊かで人間らしい生活を送る上でもはや不可欠であり,幸せや充足感を得る手段の有無は生活の質に直結してくる.文献 [3] でも環境問題やエネルギー問題への寄与について述べたが,特に音楽コンテンツは,必要なエネルギーが少なく繰り返しの視聴に耐える良質な娯楽であり,制作資源・エネルギーはディジタルコンテンツ制作環境の普及により下がってきた.N次創作は,既存の複数のコンテンツの良い点を凝縮して幸せを増すのに有効な手段として位置づけられる.結果的に,コンテンツがリサイクル(再利用)される側面もあるので,エネルギー効率の良いコンテンツ制作手段に意図しないうちになっていると解釈できる.こうした「単位エネルギー当たりの幸せ」を向上する(たとえば,消費エネルギーを減らしつつ幸せを増やす)ための研究開発は,今後ますます重要になっていくであろう.
それでもなお,こうしたCGM現象,初音ミク現象を単なるサブカルチャーだと捉える見方もあるかもしれない.しかし,現在メインストリームだと思われているほかのさまざまな文化も,その発端ではサブカルチャーであったのではないだろうか.そういう意味では,この情報処理技術が主導するCGM現象を,世界も注目する日本発のメインストリーム文化として育て上げていけるかどうかは,一人一人の行動にかかっているといえる.技術の切り拓く未来を描く手段の1つに,SF(サイエンスフィクション)小説がある.すでに,SF小説「南極点のピアピア動画」 [6] では,この日本発のCGM現象の本質が切り拓く明るい未来の1つの形が描かれている.現実世界の我々は,どのような明るい未来を切り拓いていくことになるのだろうか.10年後が楽しみである.
後藤 真孝 (情報処理学会 正会員) m.goto [at] aist.go.jp
1998年早大大学院博士後期課程修了.博士(工学).現在,産業技術総合研究所 情報技術研究部門 上席研究員 兼 メディアインタラクション研究グループ長.音楽情報処理(http://songle.jp 等)を20年間,音声言語情報処理(http://podcastle.jp 等)を14年間研究.