「音楽情報処理」という研究分野が,大きな注目を集めている.学会誌で企画された解説の多さだけを見てもわかる.情報処理学会 [1], 日本音響学会 ☆1 ☆2 ☆3 ☆4, 電子情報通信学会 ☆5, 人工知能学会 ☆6 ☆7, 日本ソフトウェア科学会 ☆8, 日本バーチャルリアリティ学会 [2] ☆9, 映像情報メディア学会 ☆10, ACM ☆11 等の学会でこの分野が取り上げられた.そのトピックの1つの「音楽情報検索」関連に限っても,2004年以降,80人以上の新博士が国内外で誕生した.1993年に情報処理学会の正式な研究会となった「音楽情報科学研究会(SIGMUS)」の登録会員数も,1990年代はずっと300名前後であったが,2000年以降大きく増加し,筆者が主査を務めた2007〜2008年度の2年間だけでも,17%増えて460名に達した [3]. 関連成果が発表される国際会議・ワークショップも,1990年代に既にあったICMC, ICMPC, ICASSP, WASPAA, DAFx等に加えて,2000年代に入ってから,ISMIR, NIME, SMC, CMMR, ICoMCS, MML, AdMIRe等のように増え続けている ☆12. 筆者がGeneral Chairを務めた国際会議ISMIR 2009においても,例年を20%以上上回る29ヶ国308名という多数の参加を得た. 同会議では関連技術の性能を比較するコンテストMIREX ☆13 が毎年開催されている.分野の重要性と将来性から,大型予算による研究プロジェクトが欧米や日本を中心に次々と生まれている.
このような活況は,一昔前から考えたら夢のようである.1957年の「イリアック組曲」のように計算機の発明当初から自動作曲への応用が試みられる等,音楽情報処理分野の歴史は長く,その研究成果は,商業音楽制作で不可欠となったシンセサイザや携帯電話での音楽配信等,社会に広く普及してきた.しかし1990年代までは,音楽情報処理の研究の重要性が認知されておらず,なぜ研究するのかをよく聞かれる状況であった.これは,2000年代に入ってから一般の人々が計算機上で音楽を聴いたり,音楽配信が普及したりするようになると一変した.上記のように,今日ではそれが重要な研究分野であることが広く認知され,世界中で新たな研究者が参入し続けている.10年以上前には,音楽情報処理は「遊び・趣味」でなく「研究」であることを認めてもらうための説明が必要だったのに対し,今日では,そうした誤解は過去のものとなったのである.ここまで変わったのは,すべての音楽がデジタル化され,創作・配信・利用・共有されることを,人々が実感として理解し始めたからである.そこでは,新たな音楽インタフェース,音楽情報検索・推薦等に関する需要が高く,学術的にも「複数の音が相互に関係し合いながら時間的な構造を形成して内容を伝える」信号の理解という未解決で本質的な課題を持つことが,多くの研究者に注目されている1つの理由である.他にも,未解決で魅力的な課題はまだまだ手つかずの状況であり,研究テーマの宝庫である.
このように「音楽情報処理」は活発な研究がなされている魅力的な分野であるものの,「音楽情報学」という名の学問が既に確立しているわけではない.そのため本稿はあくまで筆者の私見であり,国際音楽情報検索学会(ISMIR)の理事(Member-at-large),2007〜2008年度のSIGMUS主査という立場ではあるものの,研究分野全体としてコンセンサスを得た内容ではない点に注意が必要である.むしろ本稿を契機に,そうした議論が活発になり,「音楽情報学」確立へ向けた分野全体の動きが起きる一助となることを狙っている.そして,議論を引き起こすという意味でも,本稿では音楽情報学の内容を細かく定義していくのではなく,音楽情報学がなぜ魅力的なのか,どういうグランドチャレンジがあるのかを,野心的に議論してみたい.
「音楽情報学」が学問として目指すのは,主に
「音楽情報学」と呼ぶからには,系統的に整理と理解が進んで,この学問を学びやすくなっている必要がある.そこで,個々の課題の位置づけまでしないが,それらの分類をするために重要となる観点を整理する.
「音楽情報学」は学際的領域で,関連する知識・技術は多い.例えば,信号処理,記号処理,機械学習,推定・推論,確率・統計,心理・生理学(特に,聴覚や歌声関連),音楽学,音響学,物理学,脳科学,プログラミング技術,ビジュアライゼーション技術,データベース技術,Web技術,標準技術(符号化,圧縮,ファイルフォーマット等),著作権等が挙げられる.音楽自体に関する知識も求められ,メロディ,ハーモニー(和声),リズム,音色,歌声,歌詞,音楽構造,拍節構造(ビート,小節)等の理解が必要な場面も多い.
これらすべてを深く学ぶことは困難だが,音楽という側面に限定して広く知識を習得することは有意義である.また,興味に応じて,必要に応じて取捨選択して深く学べばよい.例えば,複数の楽器音や歌声が混ざり合った混合音を入力として楽譜を出力する自動採譜に取り組む場合には,音響信号の周波数解析をする「信号処理」,混合音中の各音の高さや音量,音源の推定をするための「機械学習」や「推定・推論」,「確率・統計」,推定結果を楽譜として整形して出力するための「記号処理」や「音楽学」,「標準技術」,理論だけでなく実際に動作するシステムとして構築し効果的なデモンストレーションをするための「プログラミング技術」や「ビジュアライゼーション技術」,人間の知覚的な処理からヒントを得るための「心理・生理学」や「脳科学」,といったように,様々な知識・技術が関連しうる.
音楽情報学が魅力的な学問であり,音楽情報処理分野で研究したいと思う最大の理由は,もちろん「音楽」自体,研究テーマ自体の魅力と面白さにある.しかし,それ以外に少なくとも下記の5つの代表的な理由が考えられる.
音楽の音響信号や記号を扱う上で,上述したように複数の領域にまたがる知識・技術が総合的に必要とされる場面が多く,そこで培った技術は,他の分野にも活用できる.しかも,技術的に困難な課題も多く,例えば信号処理の観点からは,複数の音が混ざり合った複雑な混合音を理解しようとすると,音声や他の分野でも未解決な問題となり,独自の技術を実現しなければならない.実装の観点からは,時系列信号を扱う技術は難易度が高く,リアルタイムに音楽を入力し,その内容に同期した出力をするシステムを実現しようとすると,遅延の管理や予測処理等の高度な実装が必要とされる.
音楽を題材に情報処理技術やプログラミングを学ぶことは,とっつきやすく,意欲を引き出されて効果的である.音楽は身近で楽しい素材であり,音で結果が確認できるため,具体的なイメージがわきやすく,飽きにくい.同様のことは, 文献 [1] のp.772でも指摘されており,実際に,大学教育等での情報処理技術のエントリー教育課題に適していたことが報告されている.また,初心者が容易に学ぶことができるビジュアルプログラミング言語(Pure DataやMax/MSP)が,実用レベルで活用されている数少ない分野であることも知られており,実際に,現代音楽家等が音楽活動でよく用いている.
デジタルメディアコンテンツにおいて,音楽は不可欠な要素であり,音楽コンテンツだけでなく,動画コンテンツにおいてもテーマ曲やBGMとして音楽が含まれている.そして,「コンテンツ立国」という言葉に代表されるように,そうしたコンテンツは日本の戦略産業分野に位置付けられており, 第3期科学技術基本計画分野別推進戦略 ☆14 においても,「映像や音楽などの感動を伝えるメディアのデジタル化技術が,我が国の強みであることは,広く認知されてきている.この強みを最大限活かすことが,我が国のデジタルメディア大国への発展に必須である.」,「我が国がデジタルメディア大国となるためには,強みである映像や音楽などの感動を伝えるメディアのデジタル化技術,大量で多用なデジタル情報を簡便,的確かつ安心して収集・分析・利用することができる情報検索・情報解析技術及び関連する人材の育成への投資が不可欠である.」のように,重要性・必要性が強調されている.音楽情報学はこうした要請に資する重要な学問であり,音楽情報処理の研究成果に対する産業界の関心も高い.冒頭で述べた,2000年代に入ってからの躍進は,こうした背景に支えられている.
音楽に関する研究成果は,非専門家でも容易にわかることが多い.よって,面白い成果や優れたデモンストレーションは,研究者以外にも,すぐにその魅力を知ってもらえるメリットがある.身近な音楽を対象とした研究は一般の興味を引きやすく,マスメディア等も取り上げやすい.さらに,歌詞以外は基本的に言語非依存であり,特にデモンストレーションは国際会議や展示等でも容易にわかってもらえることが多い.学生の人気も高く,音楽情報処理を研究テーマとして扱い始めた大学の研究室で,希望する学生が殺到した事例もある.
以前には考えられなかった膨大な計算を駆使し,高速なインターネットを活用した研究が自由自在にできるため,「実社会において」インパクトのある研究成果,デモンストレーションシステムを生み出すことが容易となった.実際,研究者・専門家と,世の中やユーザとの距離が年々縮まっていくのを感じている.Webサービスとして自分達の最新の技術を直接ユーザに使ってもらうことも容易になり,従来は企業にしかできなかったような,ユーザからのフィードバックを研究活動に生かす取り組みが,学生研究においても可能となっている.
特に近年は,研究者のWebページだけでなく,ニコニコ動画のような動画コミュニケーションサービスやYouTubeのような動画共有サービス上にデモンストレーション動画を掲載し,世の中に技術紹介することも容易となっている.以前であればマスメディアで報道されなければ知ってもらえなかったような一般の人々に,自らの手で直接アピールして知ってもらえ,多様な意見を得られるのは,本当にエキサイティングである.学会講演や学会イベントも,ニコニコ生放送やustream,twitterでライブ中継されるのが常識になる時代に突入しつつあり,社会と繋がった研究活動がますますやりやすくなっている.
もちろん上記は音楽に限ったことではないが,前節で議論したようにその研究成果の面白さが誰にでもわかるからこそ,一般の人々に高い関心をもってもらえて,こうした展開が加速している.
筆者の考える音楽情報学,音楽情報処理の究極のゴールは,「音楽で人間を幸せにする」ことである.まだまだ未解決で魅力的な課題は多く,下記では,その中から5つをグランドチャレンジとしてここに提起する.
音楽の好みは人それぞれ違い,同じ人でも状況や気持ちによって聴きたい音楽が変わる.それらを考慮して,最適な楽曲を新たに生成したり,既存の膨大な楽曲の中から選択したりすることが技術的に可能になれば,人々は幸せと喜びを与えてくれるその技術を手放せなくなり,社会的にも大きなインパクトを持つ.そのためには,音楽を人間のように理解できる技術も必要となる.現在の技術では,人間の好みや状況の把握,新しく生成する音楽のクオリティ,音楽の選択(検索・推薦)の精度,計算機による音楽理解の深さのいずれの面でも,これが達成できていない.ただし,完全自動で実現する方がよいかは議論の余地があり,人間の主体的な活動を「支援」するアプローチは魅力的である.
ここで技術的には,一から新たな音楽を生成するのは難易度が高いため,提供する音楽は,既存の楽曲の素材やアイディアが新たな楽曲創作で利用される「2次創作」や,それが3次,4次と連鎖する 「N次創作」 [4] であっても構わない.むしろ既存の音楽の再利用やカスタマイズは今後発展する自然なアプローチであり,複数の楽曲を巧みに混ぜて組み合わせる「マッシュアップ」や,既存の楽曲の要素を改変(歌声や楽器音の音色や音量バランスを変更)する 「タッチアップ」 [5] は,音楽の創作を議論する上で重要である.近年では,最初から2次創作に利用されることを前提とした楽曲や素材提供の動きも,多く見られるようになってきた.
ヒット曲の予想は技術的に可能なのであろうか.あるいは,「なぜ売れないのか」のコンサルティングは技術的に可能なのであろうか.実際に "hit song science"に関する研究事例 [6] はあるが,高い精度でグローバルあるいはローカルに流行を予測できる技術はなく, まだ達成できていない ☆15. 流行の予測は,音楽の中身だけからは判断が難しく,音響信号の認識・理解技術単独では実現できないために,社会的な情報としてWeb上の情報等を総合的に組み合わせる必要性がある.
こうした流行予測は,あらゆる人が音楽をどう聴いているかという世界規模の履歴が得られれば,その監視社会的な是非はともかく,実現可能性が高まる.つまり,音楽配信技術のさらなる普及により,すべての楽曲再生の履歴が記録されて匿名性を保ったまま共有可能になり,ライブ演奏等であっても自動楽曲同定技術で個々人の鑑賞の履歴が記録可能になることで,高い精度で音楽の流行を予測できる可能性は高い.しかしその一方で,上述した個人ごとに最適な音楽の提供が可能になったとき,鑑賞対象の音楽の多様化が加速して流行が起きにくくなるのか,それとも,実は人類は他の人が聴いている音楽が聴きたくて大規模な流行が起きやすくなるのかは,興味深い.
過去から現在までのすべての音楽がデジタル化されることにより,人類は初めて,あらゆる音楽へ瞬時にアクセスすることが可能になる.しかも,今後も音楽は蓄積され続ける.アクセス可能な楽曲の数は単調増加し,例えば,Napster 2.0のような定額制音楽配信の登録楽曲数は増え続けて,1000万曲を突破している.今後,音楽情報検索・推薦技術の進歩により,ますます自在にアクセスできるようになる.このこと自体は歴史的必然であり,人々の音楽生活を便利にし,望ましいことである.ただしその行き着く先で,人間と音楽との関係をより豊かにできるかどうかの鍵は,音楽情報学の技術が握っている.
これまでは新たなアーティストにとっては,自分の楽曲が現在流通している一部の楽曲群の中で埋もれないようにすればよかったが,今後は場合によっては,過去の膨大な楽曲群の中に埋もれ,聴いてもらいにくい厳しい時代が到来してしまう可能性がある.しかも,メロディや歌詞,コード進行,アレンジと言った,楽曲の部分的な要素間の類似度が過去の全楽曲に対して自動計算できるようになると,何らかの意味において,あらゆる楽曲が他の楽曲群に類似している側面を持つことが明らかになるであろう.あらゆる創作は,他の作品の影響を無意識に受けているからである.場合によっては,楽曲を創るそばから,それが過去の何にどう似ているのかを提示することも技術的に可能になる.そのとき,著作権の概念がどう変容するのかは興味深く,音楽のオリジナリティの概念が再考を迫られるかも知れない.
では,過去の音楽に勝てなくなり,人類は新たな音楽を創作する意欲を失ってしまうのであろうか.新たな音楽を必要としなくなるのであろうか.筆者はそうは思わない.本来,音楽で重要なのはオリジナリティや著作権でなく,感動をいかに与えるかや,作品全体としての魅力,完成度の高さのはずである.また,表現すること自体の喜びが音楽創作の原動力となっている.記録できずにライブ音楽しかなかった時代の音楽の原点に立ち戻り,「今,ここで」音楽により楽しませ,喜ばせることが,より重視される時代が到来するかも知れない.技術の進歩は,そうした感動体験中心型の新たな音楽文化を生み出す可能性がある.
これまでも新たな技術の登場が新たな音楽表現を生んできており,今後も必然的に,新たな音楽表現が生まれ続ける.例えば,日本では2007年以来,VOCALOID「初音ミク」に代表される歌声合成技術が注目を集めている.楽音合成技術(シンセサイザー)が登場して普及し,ポピュラー音楽制作で欠かせない存在となったのと同様,歌声合成技術がいつの日か普及することは歴史的必然である.楽音合成も当初は自然な楽器音と容易に区別がつき,それが故に独自の表現も生まれたが,今日では非専門家には区別のつかない高いクオリティとなり,ポピュラー音楽の大半で用いられている.歌声合成がそうならない理由はない.不確定なのは,それが今回のタイミングで起きるのか,より技術が進歩した未来に起きるのか,の時期の違いだけである.
人類が創作する音楽の音響信号としての複雑度は,単調増加しているのではないかと,筆者は考えている.しかし,一般の人々が快適に感じる複雑度には限界があり,現代音楽のような手法での複雑度の増加は,ポピュラリティを得ることが困難であった.筆者は,その観点での次の音楽進化の1つの鍵が,前述した「マッシュアップ」にあると考えている.マッシュアップとは,複数の楽曲(あるいはボーカルや伴奏のみといった,その構成音の一部)を素材として重ねて混ぜ合わせ,まるで最初から1つの曲であったかのように融合させる音楽制作手法である.このマッシュアップは,受け手の頭の中に既にある音楽の記憶を参照することによって,ポピュラリティを確保したまま,快適に受容可能な複雑度の限界を押し上げることができる.そもそも電子楽器のない時代には,楽譜上の1音符(個々の楽器音)を単位とした音楽制作しかできなかったが,技術の進歩により,数小節の音楽断片(1フレーズ)を単位・ループ素材とした音楽制作が可能になった.マッシュアップはさらに進んで,楽曲を単位・素材とした音楽制作であり,一から作曲しているときには作り出そうと思えない,複雑な音響信号に到達することが容易である.逆に鑑賞者も,混ぜ合わさる素材のいずれかの楽曲が記憶にあるだけで,普通だったら複雑すぎて楽しめない楽曲を楽しめるようになる.
では人類の歴史において,音楽のテンポも単調増加してきているのであろうか.もしそうであれば,同じ曲ならテンポが速くなれば曲長が短くなるので,単位時間あたりに鑑賞できる曲数は増えることが期待できる.これは,上述した「膨大な楽曲にアクセスできる時代」には都合が良い.とすれば,どこまで速くしても,人間の脳は楽しむことができるのであろうか.また,それを支援・訓練する技術は,どのようなものであろうか. もし仮にテンポが毎年5 BPM ☆16 早くなっていったときに,人間の聴覚や脳の能力が追従して向上していくのかどうかは,興味深い.
環境問題に対しては,音楽の物理媒体(テープやレコード,CD,DVD等)をなくしてオンライン化を進めることで,省資源化が図れて寄与できる.技術の進歩により,パッケージメディアとしての「音楽」は物理媒体に左右されない「情報」であるということが実感できる時代になったが,依然として物理媒体が流通している.圧倒的な利便性によってレコード流通からCD流通へ転換したように,環境資源を多く使う物理媒体流通から情報流通へ転換するには,圧倒的な利便性が必要である.その利便性を提供する一手段が音楽理解技術であり,例えば 「能動的音楽鑑賞インタフェース」 [2] [5] のように,楽曲構造を自動的に可視化して興味のある箇所だけ聴くことを可能にする等,様々な形での利便性向上が望まれる.
エネルギー問題に対しては,音楽は,必要なエネルギーが少ない良質な娯楽であると考えられる.制作資源・エネルギーは,デジタル音楽制作環境の普及により大きく下がり,例えば映画等に比べれば著しく小さい.既存の楽曲の再利用(つまり「資源のリサイクル」)をするN次創作やマッシュアップは,さらにエネルギー効率の良い楽曲制作に位置づけられ,その制作支援技術の発展は重要である.また,音楽は繰り返しの鑑賞に耐えて,同じ楽曲でも数十回聴くことができる.むしろ反復して聴取することが,楽曲の魅力に気付く上で本質的である.既存の楽曲をより深く理解できるようになる上述の 「能動的音楽鑑賞インタフェース」 [2] [5] のような鑑賞支援も,これに寄与する.さらに,音楽配信技術の進歩で流通コストも低くなり,音楽情報検索・推薦技術の進歩により好みの音楽だけを聴くことができれば,興味のない音楽に費やすエネルギーが削減できる.
今後,学問としての音楽情報学,研究分野としての音楽情報処理がより一層魅力を増し,発展していくために,何が必要であろうか.
第1に,我々は世の中へ貢献し,社会に不可欠な技術を実現しなければならない.精神的に豊かな未来社会を実現するための鍵を我々は握っており,アカデミアと産業界との交流や相互発展に真剣に取り組むことが大切である.音楽産業の発展や新規産業の創出に寄与し,音楽制作や音楽鑑賞の未来に貢献するにはどうすべきかを,今後より一層議論していきたい.
第2に,研究分野の重要性をアピールし,さらなる研究開発が必要な対象であるという理解を,より一層得なければならない.そのためには,魅力的で優れた研究成果・研究者を次々と輩出し,その上で,夢と未来を語る努力を惜しんではならない.そうした活動を,大型プロジェクト,競争・政策・企業資金等に繋げていき,様々な資金的裏付けのある状態で研究を大きく推進できるとよい.
そして第3に,我々は音楽情報処理分野を「音楽情報学」として確立させ,誰でも安心して参入しやすくしなければならない.学問として「何を教えればよいのか」「何を身に付ければよいのか」に関する議論を深め,音楽情報学を学ぶ人々がそこに大きな価値を見い出せるようにしたい.そして,研究分野全体の整理と拡大の両立をしつつ,もっと多様な研究を,魅力的に展開していけるとよい.
本稿は,まさに上記3点に寄与することを目的として執筆したものであり,今後こうした議論が分野全体でさらに活発になることを願っている.ただし,それは「音楽情報学」という殻を作って閉じこもる方向であってはならない.学問のあり方が社会に開かれる形で変容しつつある今日,真に必要なのは,より広い視点から学問の再編を促すような分野の壁を越えた活動である.音楽情報処理分野においても,音声言語情報処理や画像処理等と融合するような大きな展開が期待される.10年後が楽しみである.
後藤 真孝 (正会員) m.goto [at] aist.go.jp
1998年早大大学院博士後期課程修了.博士(工学).現在,産業技術総合研究所情報技術研究部門メディアインタラクション研究グループ長.統計数理研究所客員教授,筑波大学大学院准教授(連携大学院),IPA未踏ユースPMを兼任.