FAX-OCRを導入する際のご注意
エントリーエースに限らず、FAX-OCRの導入の際に特に注意が必要な点です。
ユーザー様,ソフトウエア開発業者様は是非ご一読ください。
各社製品比較で認識テストを行う場合の注意

  メーカー別のFAX-OCRのテストを行う際に、文字の認識率だけを気にするお客様が多いのですが、実際にその確認を行うのは、ソフトウエア開発会社様が代行される場合が多いようで、少数のFAXでしかテストしないケースが多いようです。

  また、ソフトウエア開発会社様のFAXは、比較的高精度で、使用頻度も少なく汚れが少ない綺麗なデータを送れるものが多いようで、一般の運用とは条件が異なる事が多いようです。

  この場合、OCRメーカーは、特定のFAXにのみチューニングを合わせる事が可能なため、相手機器との相性が悪い事によるOCR処理自体ができない事(マッチングエラー)による、
運用レベルの認識率低下を隠されてしまう事があります。

  実際の運用では、OCRが可能だったデータの認識率(メーカー公表値)よりも、OCRできなかったデータ量の方が重要になってくる場合が少なくありません。たとえ、認識率が100%に近くても、マッチングエラーが多発するなら、認識率が90%程度であってもマッチングエラーがほとんど無いシステムの方が運用効率は高いと言えます。

  したがって、認識テストを行う場合は、データを記入した用紙を以下のように何度も送ってみる必要があります。
  • できるだけ多くのFAXから送信してテストを行う。
  • 多少用紙を汚したものもテストする。
  • いろいろな割合で用紙を拡大,縮小コピーしたもの(運用で考えられるのは5%未満。縦横異なる拡縮率が望ましい)を使用する。また、多少斜めにコピーしたものを使用してみる
  • 用紙の送信向きを変える
  • マッチングエラーとなりOCRできなかったものは、すべて誤読したものと考える

使用する用紙について

  必ずOCR専用のフォーマットが必要です。また、リプレースの場合でも使用するOCRの仕様に合わせた用紙が必要になるため変更が必要です。

  OCR専用でないものや、他社やスキャナOCR用に設計されたものでも利用できる事はありますが、運用レベルでは精度が低下し実用的とは言えません。特にFAXでは、解像度が低くデータが変形しやすいという絶対条件を考慮した設計が不可欠となります。


自動的に入力データが生成されるものではありません(例外あり)

  通常の場合、OCRは入力用データの候補が作成され、これをオペレータ様が元のイメージと見比べて認識誤りがあれば訂正する事により入力用データとして確定します。

  一般的なOCRでは、データ変換の確信度を「しきい値」で区切る事ができますが、これはあくまでも目安にしかならず、この値で区切れば絶対に間違いのないデータが生成されるという保証はないため、「しきい値」に任せて自動変換し確定することは危険です。

  理想の「しきい値」は入力装置の状態にも影響しますので、不特定多数の「くせ」の異なった入力装置(FAX)を用いるFAX-OCRでは「しきい値」の設定自体が困難です。


  例外として以下の場合は、自動的に入力データを生成する事が可能です。

  • アンケート業務などで、多少認識誤りがあっても誤差として容認できる場合。
  • 受注用紙を例にすると、各コード類にチェックディジットを付加し、数量と合計数量を記入するなどして、後で自動生成したすべてのデータの矛盾をチェックできるようにし、矛盾のあったデータのみ再確認する仕組みにした場合。

OCR機能の2種類の実装方式

  OCRとは本来、イメージデータをテキストデータにコンバートする仕組みであり、業務的用件によるコードチェックやコードによって名前をデータベースより付加するような機能ではありません。

  最近では、業務用入力画面機能とOCR機能をマージし、業務用件を取り込んだような機能もありますが、エントリーエースでは純粋にOCRの機能を尊重し業務用件とは切り離しています。

  その理由は、

  • 機能を明確に分担する事が重要である。
  • 業務を知らない誰でもが扱える方が望ましい。
という点を重視しているからです。もう少し詳しく説明しますと、
  エントリーエースではOCRという特殊技術のみをサポートし、業務用件はエントリーエースをご利用のソフトウエア開発業者様に任せ機能を明確に分担する方が、開発期間短縮,機能変更の容易性,安定性に優れています。
  また、大量のデータ入力が必要な場合、とりあえずデータをディジタル化するまでの業務負荷が高いためオペレータ様の人数も多く必要ですが、この部分は業務と切り離し業務を知らない誰でもが扱える方が、繁忙期の日雇いアルバイトや別部署からの応援で臨機応変に対応できるメリットがあります。また、入力されたデータの整合性チェックなどは業務側システムに任せ、エラーとなったデータの対応は業務知識が不可欠なため、少数の専門人員で対応する方が効率が高い事が多いためです。


OCR化のメリット

  OCR化しても原則として無人化はできないのですが、明確なメリットとして以下のような点があります。

  • 業務を知らないオペレータでも入力が可能です。
  • 認識誤りのあった文字だけを訂正すれば良いので、すべての文字をキーボード入力するより効率的。
  • ペーパーレス化が可能。
  • 入力原票となるFAXを取りにいったり、取りまとめて配ったりする手間が省けます。
  • 入力原票を見てコンピュータ入力するより、オペレータの目線移動距離が少なく疲れません。

その他
活字の認識率
  一般的に活字の方が認識率が高いと思われがちですが、印字文字が小さく線が細い事が多いため、FAXの解像度では十分な情報量を得られない場合が多いため認識率は低下します。
  特に明朝体のようなフォントは線が細く実用的ではありません。活字をご利用になる場合は、文字サイズを手書き文字同様の大きなサイズで、フォントもOCRに合ったものを使用する必要があります。
OCRメーカー公表の認識率
  OCRメーカー独自の条件で、完璧と思われるデータを入力したときの認識率なので、各メーカーとも同じような数字になります。
  実際の運用では、各OCRメーカーの条件の易しさや、データが変形したためOCRできないものの少なさの方が重要になります
OCR認識率の誤解
  OCRの認識率とは、OCRした文字数のうち正しく認識できた文字の割合を示す数字であり、すべて正しく認識できた用紙の割合ではありません。
  したがって、認識率99%のOCRで100文字/枚の用紙を処理した場合は、すべての用紙に1文字ずつ認識誤りが発生する計算になります。
  実運用ではムラが発生し、完璧に認識できた用紙と複数誤読した用紙が発生します。

株式会社エー・シー・イー