OCR処理についての基礎知識

  OCR処理の手順としては

  1. OCR帳票の取り込み
  2. マッチング
  3. 文字認識
  4. 認識された文字の確認,修正
  5. テキスト出力

の5つの段階があります。

1.OCR帳票の取り込み
  OCR処理を行いたい帳票をコンピュータに取込む処理であり、 通常の場合ではイメージスキャナを用います。この他、 エントリーエースでは市販FAXソフトで受信した帳票を入力することが可能です。

2.マッチング
  OCRソフトは、入力された帳票のどの部分を解釈し、 どのように変換するかを知っている必要があり、 これらの情報を定義したものをテンプレートと呼んでいます。

  OCRソフトが、取込まれたOCR帳票の枠線情報を解析し、 同一形状の枠線を持つテンプレートを探し出すことを『マッチング』と言います。 このとき、取込まれたOCR帳票が、どのテンプレートと一致するかが 分からない場合は、『マッチングエラー』となり、文字認識を行うことができません。

  通常のOCRソフトでは、取込まれたOCR帳票の枠線情報と テンプレートの枠線情報が、1mm程度ズレているだけで『マッチングエラー』となります。 OCR帳票がイメージスキャナから読み込まれた場合は、ほとんどズレることが ないので問題になりませんが、FAXを用い読み込まれた場合には数mmから場合に よっては1cm程度ズレることが多く、また傾きや縮小等の影響で更にズレが大きく なるので、一般のFAXを用いてOCR処理を行うと、 ほとんどが『マッチングエラー』となってしまいます。

3.文字認識
  テンプレートには全ての枠線の位置、認識枠内ごとに認識する 文字種類(数字・漢字・アルファベットなど)といった情報が記されており、 OCRソフトはその情報に従って文字認識を行います。 当然、複数の文字種類を認識させるよりも一つに絞ったほうが認識率は高くなります。

4.認識された文字の確認,修正
  文字認識された結果には、間違った認識結果が含まれていると 考えなければなりません。この間違いを探すために認識結果をチェックし、 正しく修正する必要があり、この作業は特別な場合を除き、人手で行う必要があります。

  仮に99%の認識率のOCRで処理した場合でも、100文字認識させた 場合には認識結果に1文字の誤りが含まれていることになり、 1枚のOCR帳票に100文字以上の認識対象文字があった場合、 必ず帳票のどこかに認識ミスが存在することになります。
  また、OCRの認識率とは、各メーカーの規定の条件(文字の書き方等) にしたがったデータでの認識率になるため、『マッチングエラー』となる ようなものは除外されますし、何も意識せず書かれた文字を認識させた場合は、 認識率が低下します。したがって、メーカー公表の認識率は最大認識率と考える必要があります。

5.テキスト出力
  確認,修正が終わったデータをコンピュータのデータとして、ファイル出力します。

詳しくは、メディアドライブ社のホームページをご覧ください。


株式会社エー・シー・イー