OCR の信頼度を使用した出力品質の向上

システム識別領域 (SIR) と光学文字認識 (OCR) の信頼度を使用し、事前定義されたしきい値と比較することで、IQ Bot プラットフォームの出力品質を向上させます。

信頼度ベースの検証は、テキスト型および日付または数値型のフィールドに有効です。これは、設定したフィールドが検証基準を満たしているにもかかわらず、判定が難しい値を含むドキュメントをルーティングして表示するのに役立つためです。

OCR 信頼度ベースの検証を有効にする

注: このオプションは、ラーニングインスタンスの作成時に Tesseract OCR を選択した場合にのみ適用されます。

この機能は、デフォルトでは無効になっています。この機能を有効にするには、<IQ Bot Installation Folder>\Configurations\ にある Settings.txt 設定ファイルを開き、ConfidenceThreshold プロパティに目的のしきい値を設定します。この例では、文字レベルの信頼度のしきい値を 99 (ConfidenceThreshold=99) に設定します。この機能が無効の場合はデフォルト値が 0 に設定され、これは機能が無効になっていることを表します。

注: 信頼度のしきい値は、すべてのラーニングインスタンスにわたって一様に適用できます。

OCR 信頼度ベースの検証の仕組み

ドキュメント内のフィールドで、SIR 文字レベルの信頼度が設定された信頼度のしきい値よりも低い場合、そのフィールドおよびドキュメントの検証は失敗に終わります。

注: フィールド値が、OCR の信頼度による検証の失敗ではなく、検証ルール (無効な数値形式など) が原因で失敗した場合は、低信頼度のツール チップではなく、検証ルールに関するツールチップが表示されます。

ドキュメントのトレーニング中、フィールドに信頼度ベースの検証の失敗あると、オレンジ色のボックスにプレビュー中にそのことを示す情報が表示されます (そのフィールドにその他の検証エラーがない場合)。その他の検証エラーは、OCR の文字レベルの信頼度検証よりも優先されます。

Troubleshoot: OCR エンジンが中国語の PDF ドキュメントで SIR を識別できない場合は、問題をトラブルシューティングします。