このグリーティングカード用の声データ(声の素)は、約90文の短い文章を録音するだけで、まるで自分が読み上げているかのような音声合成データを作れるそうですよ! 音声合成用のデータ作成というと、色々な音程の50音を言わされて長時間かかるようなイメージがありましたが、この短さには驚きです。一度、「声の素」を作成すると、家族や友人に音声でメッセージを送ることができるそうです。更に自分の「声の素」をを公開すれば、色々な人に自分の「声の素」を使ってメッセージをおくってもらったりすることもできるそうですよ。
実際に公開されている人の「声の素」で色々と試してみましたが、早口言葉や日常会話的な文章も自然と話せていました。気に入った声があれば、メッセージを送る前のプレビューで色々な文章を読み上げたり、面白いセリフを言わせてみるだけでも結構楽しめます。
ちなみに、東芝が提供している「ToSpeak Online」という企業向けの音声合成サービスでは、約10分の収録音声から話し方や声質の特徴を抽出した「音声辞書」を作成できるそうです。この音声辞書を作る料金は50万円からだそうです。また、作成した音声辞書を利用するには、別途APIの利用ライセンスなどの購入も必要なので、このソリューションで何をやるのかにもよりますが、費用面でまだまだ敷居が高いような気もしますね。
近い将来、この音声合成サービスが安価に利用できるようになれば、Siriなどの音声エージェント系のアプリで自分の恋人やネットで見つけた気に入った声の人に対応してもらえるデータが作れると面白いのかなとか思っちゃいました。音声合成データが手軽に作成できるようになれば、この手のアプリのカスタマイズはもっと楽しくなると思います!
Studio ToSpeak[東芝]
(KENTA)