光学文字認識(Optical Character Recognition)。
イメージスキャナなどで読み取った文書画像を解析し文字データを抽出し、電子テキスト化すること。
類似文字 OCR3→GIANT製の自転車の名称、光学文字認識できる自転車ではない。
SunnyCapturer v3.1 SunnyCapturer は、画像からテキストを抽出する OCR、画像の翻訳、画面への画像の固定などの機能をサポートする、シンプルで美しいクロスプラットフォームのスクリーンショット ソフトウェア ツールです。 - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - 正式公開バージョン v3.1 が公開されました。
SunnyCapturer v3.0.1 SunnyCapturer は、画像からテキストを抽出する OCR、画像の翻訳、画面への画像の固定などの機能をサポートする、シンプルで美しいクロスプラットフォームのスクリーンショット ソフトウェア ツールです。 - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - まだ正式公開バージョンではないけど、日本語言語ファイルが組み込まれました。その他の更新も含まれていると思う。 ダウンロード : Sun…
SunnyCapturer v3.0 x64 日本語言語ファイル SunnyCapturer は、画像からテキストを抽出する OCR、画像の翻訳、画面への画像の固定などの機能をサポートする、シンプルで美しいクロスプラットフォームのスクリーンショット ソフトウェア ツールです。 起動するとトレイにアイコンが表示されるので、アイコンをクリックでキャプチャ開始、右クリでコンテキスト表示。 - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - * 日本語…
エディタースクール通信講座、いまは組方原則とルビについて勉強しているが、覚えることが多い&細かすぎて、学習がやや停滞気味。 このへんの知識については、通信講座を受講する前に独自に勉強したことが何度かあるが、そのたびに「わからん」と投げ出したんだった。 それと版面にまつわる、行送りなどについての計算。 これらを独学で身に着けられる気がしなかったこともあり、通信講座を受講したので、いま否応なく勉強できてうれしい …わけはないが、頑張ってテキストを読み返しているうちに、いくらかポイントがつかめてきた気はする。挫折を繰り返していたとはいえ、通信の勉強を始める前に、組方のややこしさを雰囲気だけでも知って…
NormCap v0.5.9 日本語言語ファイル 画像ではなくテキストをキャプチャする OCR 搭載のスクリーンショット ツール。 - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - 日本語をキャプチャするには、jpn.traineddata が必要です。 使用方法など、以下で詳しく説明してます。 https://www.gigafree.net/tool/ocr/NormCap.html - = - = - = - = - = - = - =…
今回は「GoogleドライブでOCRした後のチェックポイント」に関して書いていきます。GoogleドライブのOCR機能が便利で、主に読書感想を書く際に本から引用する部分をOCRしています。 かなり高精度で文字を読み取ってくれます。ただ、OCRの読み取り精度が100%とまではいきません。 自分の体感としては、90~95%くらいの読み取り精度です。この90~95%を100%まで持っていくために、目視でチェックしています。 この目視チェックを繰り返していくうちに、OCRの読み取りが苦手なところを概ね掴めてきました。どういった目視チェックをしているか、OCRの読み取りが苦手なところはどこか。 今回の記…
二週間ほど前の記事ですが、朝日新聞社 によるストーリー (9/10): 人による目視、フロッピー使用…「アナログ規制ほぼ撤廃」デジ庁発表 人による目視や、紙による掲示を行政手続きなどで義務づける「アナログ規制」の見直しをめぐり、デジタル庁は10日、法律など約8千の条項のうち96%で規制をなくしたと発表した。今年の通常国会に提出された法案も点検し、27の法案に含まれたアナログ規制を未然に防いだという。 アナログ規制とは、目視による検査・調査 ▽国家資格などの講習の対面実施 ▽証明書の紙発行や紙での掲示 ▽フロッピーディスクの使用など。政府の「デジタル臨時行政調査会」が2022年にアナログ規制の総…
はじめに先日、「OCRとOpenAIの比較」や「宝くじの番号をOCRで一括確認する方法」に関する記事を投稿しました。主に画像内の文字や数字の認識精度を比較した内容です。詳しくは以下の記事をご覧ください。 qiita.com qiita.com 今回は、表形式の画像に焦点を当てて、OCRとOpenAIの認識精度を比較してみようと思います。 私自身は現在、別の業務の傍ら「特許情報検索システム」の開発を進めています。特許情報には文章だけでなく、図や数式、表なども含まれるため、それらの内容を正確に読み取る技術が必要です。特に、表の認識精度向上は非常に重要な課題です。この調査結果は今後のシステム開発の貴…
これは、CANVAの生成AIに描いていただいたものです。なかなかよいですね。 はじめに 前回の投稿では、OCRとOpenAIを比較して、認識精度の比較をしてみました。その結果は、下記投稿記事でご確認いただければと思っております。 qiita.com 今回は、宝くじ券の番号をOCRで認識させるプログラムを紹介します。私事で恐縮なのですが、先日「宝くじ記念くじ」を150枚買ったのですが、券を1つ1つ確認すると歳のせいか手がカサカサになり、紙で指が切れて血が出てしまいました。 OCRを使って当選した券を瞬時に見分けられないか、ということで、宝くじ券番号を一括で大量に読み込んで、当選した宝くじ券を判定…
こんにちは。エンジニアの山下です。今回は OCR について書こうと思います。 OCR は画像中の文字を文字データに変換するシステムの総称で、DX の前段階にあたるペーパーレスの推進などの文脈でしばしば見かけます。昨今の AI ブームの恩恵を受けて OCR の精度は非常に高くなっており、実際、以下のように粗悪な質の画像であってもそれなりの精度で機能します。 しかし、DX の前段階という文脈では、単に OCR の読み取り精度が高いだけでは十分とは言えません。というのは、多くの場合、OCR の出力は構造化されたデータではなく、読み取った文字列を列挙しただけのデータ片になりがちだからです。 以下に実際…