#SHIFT

テープ起こしをするなら音声認識が最強AI時代の仕事術(1/4 ページ)

» 2018年12月23日 10時20分 公開
[斎藤健二ITmedia]

 働き方改革が言われて久しいが、本当に大切なのは残業を減らすことではなく、業務効率を改善することだ。となると、これまでと同じ業務をいかに短い時間で済ませるかがポイントになる。今回は、会議などで録音した会話データを、議事録として文字に起こす、いわゆるテープ起こしのうまい方法をお伝えしたい。

ぜひ試してほしい音声認識

 まず前提知識として。最初に試してほしいのは音声認識だ。iPhoneなりAndroidなりのスマホを持っていると思う。その文字入力画面でマイクのボタンを押すと音声入力モードになる。ここでスマホに話しかけると、音声が認識されて文字が出てくる。

 キーボードで文字を打ち込む早さは人それぞれだが、正直音声認識入力の早さにかなう人はまずいない。この早さを一度知ってしまうと、キーボードで打つのがおっくうになるほどだ。

 音声認識システムにはいくつかの種類があるが、テープ起こしの際に気になる特徴を挙げてみよう。

 iPhoneの音声認識は英語が苦手だ。話す言葉の中に英語や数字があると、アルファベットやアラビア数字ではなくカタカナ語や和数表示にしようとする傾向がある。逆に、英語入力モードに変えてから音声認識をすると、(発音が良ければ)英語はばっちりだけど今度は日本語がダメ。なので、アルファベットが多く登場するような会議では意外と苦しむ。

iPhoneで音声認識した例

 iPhoneの素晴らしいところは、「まる」と言えば「。」が、「てん」といえば「、」が、そして「かいぎょう」と言えば改行されるところだ。これはPCを使わずにスマホだけで入力を済ませようとする場合に威力を発揮する。

 Androidの場合、日本語内に英語が混ざっていてもうまく判別してそれぞれを認識してくれる。これはありがたい。ところが、iPhoneのように句読点を音声で入力できないのが課題だ。認識中に間が空くと、半角空白を勝手に入れてくるのも実は使い勝手が悪い。この空白をうまく句読点に変換する方法がないか、いま探しているところだ。

 iPhoneでもAndroidでも、長い文章を音声認識で続けて入力することはあまり想定されていないようで、パラグラフ単位の入力になるという弱点もある。

       1|2|3|4 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.