OCR の信頼度を使用した出力品質の向上

システム識別領域 (SIR) と光学文字認識 (OCR) の信頼度を使用し、事前定義されたしきい値と比較することで、IQ Bot プラットフォームの出力品質を向上させます。

信頼度ベースの検証は、テキスト型フィールドに役立ちます。信頼度ベースの検証は、たとえ設定されたフィールドが検証基準を満たしてたとしても、人間が見にくいとされる値を持つドキュメントのルーティングなど、日付や数字フィールドにも役立ちます。

OCR 信頼度ベースの検証を有効にする

この機能は、デフォルトでは無効になっています。この機能を有効にするには、<IQ Bot Installation Folder>\Configurations\ で利用可能な Settings.txt 設定ファイルを開き、ConfidenceThreshold プロパティに希望のしきい値を設定します。この例では、文字レベルの信頼度のしきい値を 99、すなわち ConfidenceThreshold=99 に設定します。この機能が無効の場合はデフォルト値が 0 に設定され、これは機能が無効になっていることを表します。

注: 信頼度のしきい値は、すべてのラーニングインスタンスにわたって一様に適用できます。

OCR 信頼度ベースの検証の仕組み

ドキュメント内のフィールドで、SIR 文字レベルの信頼度が設定された信頼度のしきい値よりも低い場合、そのフィールドおよびドキュメントの検証は失敗に終わります。

注: フィールド値が、OCR の信頼度による検証の失敗ではなく、検証ルール (無効な数字形式など) が原因で失敗した場合は、低信頼度用のツール チップではなく、検証ルールに関するツールチップが表示されます。

ドキュメントのトレーニング中、当該のフィールドにその他の検証エラーがない場合、プレビュー中には、フィールドにおける信頼度ベースの検証の失敗を示すものがオレンジ色のボックスに表示されます。その他の検証エラーは、OCR の文字レベルの信頼度検証よりも優先されます。

Trouble: OCR エンジンが中国語の PDF ドキュメントで SIR を識別できない場合は、問題をトラブルシューティングします。

Data objects (SIRs) are not identified by OCR for Chinese PDF documents (A-People login required)

How to convert PDF files to TIFF files (A-People login required)