OCRはどのように間違いを犯すのか？

さて、JPEG2000に関する小難しい話*1が続いていますので、ちょっと休憩です。

本日のお題画像

　　　　　

本日は、OCRについて、お話します。
（http://denshika.cc/faq/faq4.phpも参照してください。）

OCRの技術を簡単に説明しますと、こんな紙面の画像があるとしますと、

http://chroniclingamerica.loc.gov/lccn/sn83030272/1879-07-01/ed-1/seq-1/

赤丸の記事に該当する部分を抜き出して、

さらに、1行を抜き出して、

さらに、単語を抜き出して、

さらに、文字単位に切り分けます。

　　　　　

ここまで来たら、各文字が、それぞれ何か、ということを計算します。

普通に1文字づつ計算をしていくと、たとえば、　　を　　と勘違いしたり、　　を　　と勘違いしたりします。

なので、上の「PIECES」という単語を

　　　　　

と勘違いする可能性があります。

実際に間違っている例をお見せしましょう。

http://www.archive.org/stream/treasureisland09stevgoog#page/n14/mode/1upに行ってみると、

という部分があります。そして、http://www.archive.org/stream/treasureisland09stevgoog/treasureisland09stevgoog_djvu.txtに行くと、OCRの結果があるのですが、該当する部分が、

XXVn. "PiBOBS OP Eight" 218

という感じで、見事に、誤変換しています。

そのほかにも、「PIBOBS」で検索すれば、出てきますよ。

（例）
http://newspapers.nla.gov.au/ndp/del/article/4814383
http://newspapers.nla.gov.au/ndp/del/article/3693201
http://eagle.brooklynpubliclibrary.org/Repository/BEG/1881/12/09/008-BEG-1881-12-09-01-SINGLE.pdfの4ページ
http://fultonhistory.com/newspaper%202/Syracuse%20NY%20Daily%20Courier/Syracuse%20NY%20Daily%20Courier%201857.pdf/Newspapers%20Syracuse%20NY%20Daily%20Courier%201857%20-%200997.PDF
http://cbsrfs.ucr.edu/batches/batch_ca_20070524_tahoe/sn84031933/00000000058/1859101401/0177.pdf

というわけで、OCRというのは、こういうミスをします。しかし、このようなミスは、ある程度予測可能ですので、すでに対策があります。JPEG2000のシリーズが終了したら、その対策について、お話します。

*1:http://d.hatena.ne.jp/denshikA/20091007、http://d.hatena.ne.jp/denshikA/20091008、http://d.hatena.ne.jp/denshikA/20091009