OCRはどのように間違いを犯すのか?
さて、JPEG2000に関する小難しい話*1が続いていますので、ちょっと休憩です。
本日のお題画像
本日は、OCRについて、お話します。
(http://denshika.cc/faq/faq4.phpも参照してください。)
OCRの技術を簡単に説明しますと、こんな紙面の画像があるとしますと、
http://chroniclingamerica.loc.gov/lccn/sn83030272/1879-07-01/ed-1/seq-1/
赤丸の記事に該当する部分を抜き出して、
さらに、1行を抜き出して、
さらに、単語を抜き出して、
さらに、文字単位に切り分けます。
ここまで来たら、各文字が、それぞれ何か、ということを計算します。
普通に1文字づつ計算をしていくと、たとえば、 を
と勘違いしたり、
を
と勘違いしたりします。
なので、上の「PIECES」という単語を
と勘違いする可能性があります。
実際に間違っている例をお見せしましょう。
http://www.archive.org/stream/treasureisland09stevgoog#page/n14/mode/1upに行ってみると、
という部分があります。そして、http://www.archive.org/stream/treasureisland09stevgoog/treasureisland09stevgoog_djvu.txtに行くと、OCRの結果があるのですが、該当する部分が、
XXVn. "PiBOBS OP Eight" 218
という感じで、見事に、誤変換しています。
そのほかにも、「PIBOBS」で検索すれば、出てきますよ。
(例)
http://newspapers.nla.gov.au/ndp/del/article/4814383
http://newspapers.nla.gov.au/ndp/del/article/3693201
http://eagle.brooklynpubliclibrary.org/Repository/BEG/1881/12/09/008-BEG-1881-12-09-01-SINGLE.pdfの4ページ
http://fultonhistory.com/newspaper%202/Syracuse%20NY%20Daily%20Courier/Syracuse%20NY%20Daily%20Courier%201857.pdf/Newspapers%20Syracuse%20NY%20Daily%20Courier%201857%20-%200997.PDF
http://cbsrfs.ucr.edu/batches/batch_ca_20070524_tahoe/sn84031933/00000000058/1859101401/0177.pdf
というわけで、OCRというのは、こういうミスをします。しかし、このようなミスは、ある程度予測可能ですので、すでに対策があります。JPEG2000のシリーズが終了したら、その対策について、お話します。