TTS機能付EPUB作成まで

先日、電子出版制作・流通協議会（通称：電流協）の会誌『電流協ニューズレター』　（ http://aebs.or.jp/NewsLetter.html）　にてTTS機能付EPUBが発表されましたが、これについて問い合わせがあったので、解説します。
(想隆社のページも簡単な解説があります。こちらよりご覧ください。)

まず、このEPUBは、（TTS＝Text To Speech）機能を有したEPUB形式の電子書籍です。音声データを電子書籍に埋め込んであり、音声と同期しながら読み上げ箇所の文字が変化していくという機能を持っています。Kindleのようなリアルタイムにテキストから音声を出力するタイプではなく、コンテンツそのものに、音声データを埋め込んであります。これは、来たる次世代の電子書籍規格EPUB3の機能であり、音声データの生成にハードルがありますが、TTSエンジンで合成した機械音でも、人間が読み上げたものでもデータ使えるという利点があります。

ただ、本稿を書いている11月2日現在ではEPUB3対応のリーダは少なく、Read Aloud Content for iBooksというAPPLEの独自規格を使っています。ビューワであるiBooksの機能には、朗読に追随してページのめくりを行うといったことも可能です。
　

【制作のプロセス】

まず、音声データの入っていないEPUBをシステムに読み込ませます。システムは、テキストを抽出し、句読点、センテンスごとなど音声同期の最小単位に分割します。最小単位とは、音声読み上げのときに、文字が変化する単位のことです。よく、カラオケなどでは、歌詞にあわせて１文字ずつ歌うべき箇所の文字色が変化しますが、TTS機能付EPUBでは、１文字ごとではなく、句読点などのブロック単位で文字色を変化させます。
同時に、読み上げ最小単位に分割されたテキストデータはTTSエンジンに渡され、音声合成を行い、音声ファイルが生成されます。ほぼオートメーション化されていますが、音声ファイルは、後で人による読み上げのチェックを行うため、一まとめに保存されます。

次に、音声ファイルは生成と同時に、ファイルから読み上げ時間が計測され、データベース化されます。
抽出されたテキストは、SMILなどの制御ファイルとテキストデータを関連付けるため、id番号が付与されます。idは<span id="SOUND001">のように、読み上げの最小単位から連番がシステムにより付与されます。

content.opfなどに必要なデータも、自動生成された音声ファイル、XHTMLファイルの情報を基に、元のEPUBのファイルを書き換えます。

最後に、フォルダをまるごとEPUB専用の圧縮をかけるツール（自社開発）にかければTTS機能付EPUBの完成です。

以上のシステムは、全て自社で開発したものです。

この他に、読み上げのデータを人がチェックして修正したり、長い文章を任意の部分で区切って、最小単位に分割したり、といった手動の工程が介在します。これらも、差分を効率よく置き換えるプログラムやチェックプログラムを開発し、コストと時間短縮を行っています。

なお、本データはAPPLE iBooks固有のRead Aloud Contentを利用しています。APPLEから提供されているiBookstore Asset Guide 4.7 Rev.4に準拠しているため、EPUBチェックではエラーや一warningが出ることがあります。

EPUBは、IDPFが策定しているオープンなフォーマットですが、実装におけるビューワごとの差異はどうしてもあります。今は、かつてたくさんのブラウザが出て、同一のHTMLの見え方が異なった時代と似ているような気がします。
EPUBのビューワも仕様のとりこみと実装において安定すれば、本EPUBも様々なデバイス・ビューワで再生することが可能になるでしょう。

電子出版への道－OnDeckアーカイブVol.1－ (インプレスムック OnDeckアーカイ.../著者不明

￥1,680
Amazon.co.jp