Kento Watanabe

Profile


Human Infomatics and Interaction Institute.
Media Interaction Research Group.


Research Area
I am interested in Natural Language Processing (NLP), especially my research focus is lyrics processing. This is a new research area in which natural language processing, music information processing and intelligent interface are fused. Once a reasonably sophisticated computational model of lyrics is obtained, the model will provide us a better understanding of the nature and structure of lyrics, which will then allow us to consider building computer systems which can enhance the creativity of human lyrics writers.
Technical Background
My technical background are language model, discourse structure analysis, text generation, bayesian model, support interface, SNS analysis and sentiment analysis.

2018-onward
Researcher,
National Institute of Advanced Industrial Science and Technology (AIST)
National Institute of Advanced Industrial Science and Technology (AIST)
2016—2018
Research Fellowship Japan Society for the Promotion of Science (JSPS)

2018
Ph.D. from Department of System Information Sciences,
Tohoku University
Adviser Kentaro Inui,Yuichiroh Matsubayashi
Tohoku University
2015
M.S. from Department of System Information Sciences,
Tohoku University
Adviser Kentaro Inui
Tohoku University
2013
B.E. from Department of Information and Intelligent Systems,
Tohoku University
Adviser Kentaro Inui
Tohoku University
Research Projects

Atypical Lyrics Completion Considering Musical Audio Signals [2020-2021]
This paper addresses the novel task of lyrics completion for creative support.
Our proposed task aims to suggest words that are (1) atypical but (2) suitable for musical audio signals.
In this study, we propose a novel vector space model with negative sampling strategy and hypothesize that embedding multimodal aspects (words, draft sentences, and musical audio signals) in a unified vector space contributes to capturing (1) the atypicality of words and (2) the relationships between words and the moods of music audio.
To test our hypothesis, we used a large-scale dataset to investigate whether the proposed multimodal vector space model suggests atypical words.
Conference

A Chorus-Section Detection Method for Lyrics Text [2020]
This paper addresses the novel task of detecting chorus sections in English and Japanese lyrics text.
Although chorus-section detection using audio signals has been studied, whether chorus sections can be detected from text-only lyrics is an open issue.
Another open issue is whether patterns of repeating lyric lines such as those appearing in chorus sections depend on language.
To investigate these issues, we propose a neural network-based model for sequence labeling.
Conference

Query-by-Blending: A Music Exploration System Blending Latent Vector Representations of Lyric Word, Song Audio, and Artist [2019]
This paper presents Query-by-Blending, a novel music exploration system that enables users to find unfamiliar music content by flexibly combining (i.e., blending) three musical aspects: lyric word, song audio, and artist.
To calculate cross-modal similarities, we construct a vector space model with unsupervised learning under the assumption that the lyrics, audio, and artist of one song are mapped near each other in the unified vector space.
Conference

A Melody-conditioned Lyrics Language Model [2017-2018]
This study presents a novel, data-driven language model that produces entire lyrics for a given input melody.
(1) We create a collection of 1,000 lyrics-melody pairs augmented with precise syllable-note alignments and word/sentence/paragraph boundaries.
(2) We provide a quantitative analysis of the correlation between word/sentence/paragraph boundaries in lyrics and melodies.
(3) We propose an RNN-based lyrics language model conditioned on a featurized melody.
Conference

LyriSys: An Interactive Support System for Writing Lyrics Based on Topic Transition [2014-2017]
This study presents LyriSys, a novel lyric-writing support system. LyriSys allows users to create and revise their work incrementally in a trial-and-error manner.
Through fine-grained interactions with the system, the user can create the specifications of the musical structure and the story of the lyrics in terms of the verse-bridge-chorus structure, the number of lines, words and syllables, and most importantly, the transition over semantic topics such as "scene", "dark" and "sweet love".
Conference

Modeling Storylines in Lyrics [2014-2018]
This study addresses the issue of modeling the discourse nature of lyrics and presented the first study aiming at capturing the two common discourse-related notions: storylines and themes. We assume that a storyline is a chain of transitions over topics of segments and a song has at least one entire theme.
We then hypothesize that transitions over topics of lyric segments can be captured by a probabilistic topic model which incorporates a distribution over transitions of latent topics and that such a distribution of topic transitions is affected by the theme of lyrics.
Conference
IEICE Transaction

Modeling Discourse Segments in Lyrics Using Repeated Patterns [2016]
This study proposes a computational model of the discourse segments in lyrics to understand and to model the structure of lyrics.
To test our hypothesis that discourse segmentations in lyrics strongly correlate with repeated patterns, we conduct the first large-scale corpus study on discourse segments in lyrics.
Next, we propose the task to automatically identify segment boundaries in lyrics and train a logistic regression model for the task with the repeated pattern and textual features.
Conference
Publications
◆ Journal Papers




◆ International Conference & Workshop










◆ Domestic Conference (in Japanese)
















◆ Others




◆ Thesis


Works




Media
2018/4/29
"曲に合う歌詞 自動生成".
Nihon Keizai Shimbun
2016/3/11
"ミクにあいたい→そうだVRで召喚しよう! 一途な思いが実現した"ブラウザで動くVRアプリ"がすごい完成度".
ITmedia
2014-2016
"2014年度,2015年度,2016年度オープンキャンパス学科紹介パンフレット「10年後の社会をつくるあなたのために」情報工学コース学生インタビュー".
東北大学工学部
2013/7/26
"つながる力 次こそ真価".
Asahi Shimbun
Awards







Research Grants
2020—2022
日本学術振興会 若手研究(代表者)
作者の意図抽出と文章の自動生成を融合した包括的な作文支援システム
作者の意図抽出と文章の自動生成を融合した包括的な作文支援システム
2016—2018
Research Fellowship Japan Society for the Promotion of Science (JSPS)
Activity
2022
NLP若手の会 (YANS) 第17回シンポジウム 招待セッション登壇
2021
言語処理学会 第27回年次大会 ワークショップ「若手研究者交流のニューノーマルを考える」登壇
2020-
NLP4MusA2020 オーガナイザ
2019-
最先端NLP勉強会 実行委員
2018/8/30-9/1
Hatsune Miku, Magical Miral 2019, Collaboration with Songle Sync
2018/8/25
LIGHT UP NIPPON HOKKAIDO feat. Hatsune Miku Collaboration with Songle Sync
2018/8/25-26
Hatsune Miku, Magical Miral 2018, Collaboration with Songle Sync
2018/8/3-4
第10回最先端NLP勉強会 発表参加
2018/9/15-16
第9回最先端NLP勉強会 発表参加
2017/2/24-25
第1回若手異分野交流研究会 発表参加
2017/2-3
産業技術総合研究所 インターン.研究テーマ:メロディと歌詞の相関に基づく自動歌詞生成
2015—2017
NLP若手の会 実行委員
2016/9/11-12
第8回最先端NLP勉強会 発表参加
2016/8-9
産業技術総合研究所 インターン.研究テーマ:メロディと歌詞のアライメントデータの自動作成手法の提案
2016/2-3
産業技術総合研究所 インターン.研究テーマ:繰り返し構造に基づく歌詞の構造モデリング
2015/9-10
産業技術総合研究所 インターン.研究テーマ:音響特徴量を考慮した作詞支援統合環境の開発
2015/8/29-30
第7回最先端NLP勉強会 発表参加
2015/3-4
産業技術総合研究所 インターン.研究テーマ:歌詞生成・支援技術のエラー分析と改善策の考察
2014/9-10
産業技術総合研究所 インターン.研究テーマ:歌詞内容の遷移を考慮した歌詞の自動生成
2014/3
言語処理学会第20回年次大会 招待論文講演
Skill
Python
JavaScript
HTML/CSS
C/C++
C#
Unity
AfterEffects
PremierePro
Photoshop
Cubase
VOCALOID
MMD
Shade
Software

マイク入力からリアルタイムで文章を書き下し、リアルタイムで翻訳するWebアプリ。Google翻訳とDeepL翻訳に対応。
Git Hub

入力メロディに対して歌いやすい歌詞を自動生成するRNN-base言語モデルの訓練用Pythonスクリプト。歌詞テキストから自動的にアライメントされた疑似メロディを生成するスクリプトも用意。MIDIファイルを入力して歌詞を自動生成するスクリプトも用意。
Git Hub

テキスト中の各単語に色をつけるサービス。
言語処理系の論文中の図をつくるのに役立つ。
Demo

歌声合成音声システム「UTAU」と歌詞テキストをアライメントするスクリプト。
本スクリプトにより、メロディと歌詞とその楽曲構造(アクセント・行・段落)が対応づいたデータを自動的に作成可能。
Git Hub


音楽ライブの演者の気分になれるChrome拡張。
YouTubeの音楽のコード進行を解析するとこで、誰でもBGMを演奏した気になれる、演奏支援機能を搭載。
更に、キャラクターの3Dモデルを読み込むことで、一緒に音楽ライブを演じた気分になれる。
Git Hub
Chrome Extension
NicoNico

WebカメラとARマーカーを使った、Webブラウザで動くARアプリ。
Miku Miku Danceのモデルファイルやモーションファイルなどを、好みに応じて追加することができる。
さらに音声認識機能により、さまざまな指令を出すことができる。
Git Hub
NicoNico
DEMO

ピラミッド状の透明板に投影することで全方位から3Dモデルを鑑賞できるWebアプリ。
好みのモデルやモーションを入力するだけで、疑似立体映像用の4面動画を作ることができる。
Git Hub
NicoNico
DEMO

Pythonで実装したN-gram言語モデル。
Kneser-nayスムージングを実装。
学習したN-gramから文を生成するビーム探索も実装。
実行速度より、モデルの理解のために実装
Git Hub

Pythonで実装した混合ユニグラムモデル。
最も単純なトピックモデル。
文書に1つの隠れ状態を持ち、隠れ状態の数だけユニグラムモデルが学習される。
また、隠れ状態の数をノンパラメトリックに推定できる「無限混合ユニグラムモデル」も実装。
Git Hub

Pythonで実装したLDA、俗に言うトピックモデル。
実行速度より、モデルの理解のために実装。
Git Hub

Pythonで実装したベイジアンHMM。
単語間の隠れ状態の繊維構造を教師なし学習する。
また、隠れ状態の数をノンパラメトリックに推定できる「無限HMM」も実装。
Git Hub

Pythonで実装したベイジアンHMMを単語単位から段落単位に拡張したモデル。
段落間のトピック遷移を学習することができる。
また、隠れ状態の数をノンパラメトリックに推定できる「無限コンテンツモデル」も実装。
Git Hub

Wikipedia記事をクロールするPythonスクリプト。
Git Hub

json形式ファイルからVOCALOID用のvsqxへ変換するPythonスクリプト。
Git Hub

Google Chromeで再生されているニコニコ動画,YouTubeの動画を一時停止・再生するAppleScript。
Git Hub
Contact
Tel:
+8129-862-6516
Address:
Central 2, 1-1-1 Umezono, Tsukuba, Ibaraki, 305-8568, Japan
E-mail:
kento.watanabe@aist.go.jp
Twitter: