米Microsoftが3月末に開催した開発者会議「Build 2016」で発表された大きなトピックの1つに「Bot Framework」がある。その名の通り、ユーザーと自動で対話できる「会話Bot」のサービスを開発するための仕組みだ。その概要やメリットについては、同会議のイベントレポートでも触れているが、今回はその中身をもう少し詳しく見ていこう。

Build 2016レポート → Microsoftが「会話Bot」に力を注ぐ理由

Microsoftが開発者会議「Build 2016」で発表した「Bot Framework」と「Cognitive Services」は、ユーザーとコンピュータとのやりとりを大きく変えていくかもしれない

「Bot Framework」と「Cognitive Services」

　Bot Frameworkは、同じくBuild 2016で発表された「Cortana Intelligence Suite」に含まれる機能セットの1つだ。

　Cortanaと銘打っているものの、Cortana Intelligence Suiteは「大量のデータを集め、理解し、必要なアクションを起こす」という「ビッグデータ」「機械学習」「データ解析」といった要素を集めた機能群の総称であり、音声対応パーソナルアシスタントのCortanaは、そのインタフェースの1つでしかない。

　収集されたデータに対して必要なアクションを起こし、ユーザーとの仲介を果たすのがCortanaであり、今回のテーマでもあるBot Frameworkとなる。

　また、集めた大量のデータや機械学習を経て、人間に近い知覚や認識が可能な機能群は「Cognitive Services」と呼ばれる。図では「Intelligence」でくくられているが、機械があたかも人間のように振る舞ってユーザーの行動をアシストする仕組みを構築するのがCortana Intelligence Suiteの狙いと言える。

「Cortana Intelligence Suite」におけるインタフェース的な役割として「Bot Framework」と「Cognitive Services」は存在する

　もしあなたがアプリやサービスの開発者だとして、こうした「認識」に関わる機能を自らのアプリやサービスに組み込もうとした場合、自前でそれを実現するのは容易ではないことはすぐに分かるだろう。写真の中の人物を認識したり、あるいは相手の話している内容を理解したりすることは、その筋の専門家でなければ「使える機能」として実装するのは難しい。

　そこで登場するのがCognitive Servicesだ。同サービスでは画像認識から構文理解、さらには言語変換まで、認識に必要なあらゆる機能群が網羅されており、これらを適時アプリやサービスに組み込むことで、より「インテリジェントな仕組み」を構築できるようになる。

Cognitive Servicesで提供される5つの要素

Cognitive Servicesの5つの構成要素を機能別にまとめたもの

Cognitive Servicesによる自然言語処理の例

Computer Vision APIによる画像認識の例

　このCognitive Servicesで提供される機能の幾つかは、Build 2015で発表された「Project Oxford」がベースとなっている。Project Oxfordでは顔認識から音声認識、言語解析（Language Understanding Intelligent Service：LUIS）などが網羅されていたが、これらを体系化してまとめたのがCognitive Servicesだと言える（実際、Project Oxfordのページにアクセスしようとすると、Cognitive Servicesのページへと自動転送される）。

　筆者も北京にあるMicrosoft Research Asia（MSRA）でProject Oxfordを見たが、近年のMicrosoftは特にこの分野での研究開発を強化していたと認識している。先のCortana Intelligence Suiteはその集大成だ。