ITmedia NEWS > 科学・テクノロジー >

バーチャルシンガーであなたのカラオケが上手くなる――JOYSOUND「ボーカルアシスト」が目指す未来(1/3 ページ)

» 2013年10月28日 11時47分 公開
[松尾公也ITmedia]

 また名工大か! SinsyMMDAgentCeVIO。今度はカラオケにまで名古屋工業大学の音声合成技術が使われることになった。「カラオケでバーチャルシンガーって、おれらはもう歌わなくていいってこと?」とかいろいろ疑問が生まれたので、この技術を導入したエクシングに話を聞きに行ってきた。

 今回の発表内容は、エクシングの通信カラオケサービス「JOYSOUND」で、f1、fRという2機種のガイドボーカルとして、名古屋工業大学の徳田恵一教授を中心として開発しているHMM(隠れマルコフモデル)方式の歌声合成技術が使われているというもの。これまでのガイドボーカルは1曲ごとに人間の歌手がレコーディングしていたが、それを男女のバーチャルシンガーで提供。「音声合成でカラオケは世界初」でもある。

デモ曲。歌っているのはバーチャルシンガーだ

 HMM方式の歌唱合成は、MusicXMLというフォーマットで記述された楽譜データを読み取って歌い上げるWebサービス「Sinsy」、それをPC用市販アプリとして改良した「CeVIO Creative Studio」が、そして同じHMMを使った音声(おしゃべり)合成に関してはCeVIOと、音声による対話的3Dエージェント「MMDAgent」で提供されている。

 「ボーカルアシスト」は、これと同様の歌声合成プログラムをカラオケ機に搭載。当初1000曲の「合成された歌唱」が日本中のカラオケ店に導入され、毎月200曲以上が更新される。見方を変えれば、「すごい勢いで歌声合成によるカバー曲が増えていく」ということにもなる。

 なぜこのような「冒険」をやろうと思ったのか。エクシング 企画開発部の北村秀仁部長が答えてくれた。

なぜ合成音声? 人間ではいけないの?

photo 北村さん

 既に人間が歌っているガイドボーカルがあるのに、わざわざバーチャルシンガーを使うのか。ちゃんと理由があるのだ。「これまでのガイドボーカルは人間の歌手が歌っているものだったのですが、お手本の先生が人間だと主張しすぎるんですね」と北村さん。

 うまい歌手であれば、節回しやビブラートをオリジナルに近づけようとしてしまう。だけど、そうされてしまうと真似することが難しい。細部が目立ち過ぎてしまい、メロディーラインやリズムを見失ってしまうことも多い。カラオケで歌いたい人を助けるはずのものが、その役目を果たせなくなってしまう。

 お手本が「上手すぎる」と問題なのだ。だが、平板に歌うのも大変だしおもしろくないし、「機械っぽい」と思ってしまう。そのバランスをすべてのジャンル、すべての歌手に要求するのは酷なことだ。

 HMM方式の歌声合成では、数十曲のサンプル曲を実際の歌手が歌い、その歌い方のデータを元に、自然な歌声を合成する。リアルな人間の歌い方を再現することが可能だが、ボーカルアシストの場合は、あえて「こぶし」や「ビブラート」、「歌い方のクセ」を抑えているという。

 その曲に慣れていない利用者がメロディーや歌い方を覚える「ガイドボーカル」の目的があるからだ。

 名工大の徳田教授は「HMM音声合成方式では,与えられた楽譜に対して、確率的にもっとも有りがちと推定される歌声を生成しますので、一緒に歌う人の歌をじゃましないのではと想像しています」と説明する。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.