昔からSF小説などで語られる未来の世界に度々登場する「万能翻訳機」。相手がどこの出身であれ、どのような言語を話す人物であれ、その装置さえあれば問題なく意思疎通が図れるというものだ。アイデア自体は古くから存在するものの、コンピュータの性能的な制約が万能翻訳機の実現を阻んできた。
しかし今日、手のひらサイズの小型ハードウェアが一昔前の大型コンピュータ並みの性能を持ち、高速な無線ネットワーク回線からクラウドを介し、蓄積された膨大なデータとコンピュータ処理能力を演算に利用できるようになった。ソフトウェアの研究も進み、より実用的な「人工知能(AI)」の本格活用も始まった。
ハードウェアの性能が向上し、効率的な学習アルゴリズムが発展したことで、大量にデータを機械学習(Machine Learning)させて処理精度を上げることが可能になったのだ。ディープラーニング(Deep Learning)の世界では従来のパターン認識の枠を超え、より人間に近い判断や認識が行えるようになっている。
今後5年や10年といった近い将来に、これまでのコンピュータでは難しかった「翻訳」や「自動車運転」が自動化されるようになり、「対人接客」の世界でもその作業の多くを機械が担うことになるだろう。
日本で2017年4月7日に提供が始まったMicrosoftのリアルタイム翻訳サービスである「Microsoft Translator」の新版は、間違いなくその最先端の1つだ。
一般に、機械での翻訳作業は「コーパス(Corpus)」と呼ばれる一種の膨大な辞書データを参考に、逐次元となる言語から変換先の言語への置き換え作業が行われる。経験則的には、正確な翻訳が行われたデータが蓄積されるほど、精度の高い翻訳結果が得られる確率が高くなる。こうした一連のマッチング作業は「統計的手法(Statistical Translation)」と呼ばれる。
この手法は文章のパターン翻訳ではあまり問題ないものの、変換作業を行う機械自体は文そのものの意味を理解していないため、翻訳対象となるフレーズの文章全体での位置付けや相互の関係性を把握しておらず、必ずしも意図した結果が出てくるわけではない。入力したデータと出力された結果に対して、学習効率自体がよいわけではないという問題もある。
そこで出てくるのが「機械学習」、その中でも人の思考をベースに学習を進める「ニューラルネットワーク(Neural Network)」の方法論を取り入れた深層学習、ディープラーニングというわけだ。Microsoft Translatorでもこの手法を既に一部の言語翻訳に取り入れ始めており、4月7日のタイミングで日本語も従来の「統計的手法による機械翻訳(SMT:Statistical Machine Translation)」から新しい手法への切り替えが一斉に行われることになる。
それではディープラーニングを用いた新しい手法の機械翻訳はどの程度の能力を持つのか。Microsoftは、従来手法との結果を比較するサイトを用意している。
ただ、筆者が試した範囲では、まだ必ずしも納得できる結果が得られるわけではなかった。新しい手法の機械翻訳は文脈(内容)で判断するため、入力した文章が長いほど精度は上がるものの、意図した形での翻訳ではなかったり、表現に違和感が生じたりする場面も少なくない。
しかし、米MicrosoftのAI & Research部門担当ディレクターのオリヴィエ・フォンタナ氏は「今回の最大のポイントは仕組みが一新されたことだ。データの存在はサービスを改善していくためのガソリンであり、今後もさらによくなっていく。全ては内容次第だ」と説明する。
また翻訳で違和感がある部分についても「日本語においては正確さだけでなく、“丁寧さ(Politeness)”が重視される傾向がある。暴言(Profanity)フィルターも合わせて、こうした部分が重要になるだろう」とコメントしている。
Copyright © ITmedia, Inc. All Rights Reserved.