ITmedia NEWS > STUDIO >

話した言葉を透明パネルに字幕表示 筑波大、「See-Through Captions」開発Innovative Tech

» 2021年03月22日 07時34分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 筑波大学 デジタルネイチャー研究室のチームが開発した「See-Through Captions」は、話者の音声を自動でテキスト変換し、相手との間に設置した透明ディスプレイに字幕をリアルタイム表示する聴覚障害者向けシステムだ。1対1の対面コミュニケーションにおいて、相手の表情やボディーランゲージを確認しながら自然体でやりとりできる。

 計算機によって多様性を実現する社会に向けた超AI基盤に基づく空間視聴触覚技術の社会実装を目指す「xDiversity」プロジェクトの一環だ。

photo 話者の話し言葉が透明ディスプレイにリアルタイムに字幕表示される
photo 1対1の対面コミュニケーションで使用する

 聴覚障害者との対面コミュニケーションにおいて、最も一般的な手段は手話だが、近年はスマートフォンやARシステムを活用して相手に話し言葉を字幕として提示できる自動音声認識のリアルタイムキャプションが利用されるようになってきた。

 しかし、スマートフォンを見たり、見せたりしていると、相手のボディーランゲージや表情、アイコンタクトなどの非言語コミュニケーションを見落としがちだ。また、ARシステムを用いた手法だと、話者が自動音声認識の誤認識を確認できないことが円滑なコミュニケーションの妨げとなる。

 これらの問題点を解決するために、今回は透明ディスプレイを利用し、会話中に相手を見ながら自動音声認識結果を確認できるリアルタイムキャプションシステムを開発した。1対1の対面時に限定されるが、自動音声認識の誤認識や相手の非言語コミュニケーションの見落としを防ぎながら会話できる。

photo 相手の表情やボディーランゲージと同時に、表示テキストを閲覧できる

 システムの主な機能は、自動音声認識と字幕表示の2つだ。音声入力装置として指向性マイクを使用し、透明ディスプレイ前の話者の音声を入力に、その音声を自動音声認識を介してテキストに変換、音声認識結果のテキストを透明ディスプレイにリアルタイムで表示する。

photo 指向性マイクを利用して音声を捉える
photo 姿勢を崩さず、視線方向もあまり変えることなく会話が行える

 表示される文字は、サイズ、色、透明度、フォントなどユーザーが自由に変更できる。今後は、文字表示速度、行数、消失速度などのパラメーターも設計したいという。

 特筆すべきは、相手に大きな字幕が表示される一方で、話者にも同じ字幕がこちらが読めるように反転し小さな文字で表示されていること。これにより話者もリアルタイムで自動音声認識による変換を確認でき、誤認識にもすぐに気付ける。

photo 手前の話者にも、透明ディスプレイ下部に小さく字幕表示され自動音声認識の誤認識を即時確認できる

 聴覚障害者と対話者は、双方が相手の非言語コミュニケーションを読み取り、字幕で音声内容や誤認識を理解しながら円滑な意思疎通が行える。

 スーパーマーケットから役所まであらゆる場所で飛沫防止用透明パネルが設置されているコロナ禍においては、今回のシステムとの相性も良く、導入も考えられるだろう。

 一方、聴覚障害者の手話や文字による発言を聴者がどのようにして受け取るか、文字よりも手話を好む聴覚障害者への情報提示方法などは、検討の余地がある。

Copyright © ITmedia, Inc. All Rights Reserved.