使用 OCR 可信度改善輸出品質
- 已更新: 2019/05/20
使用 OCR 可信度改善輸出品質
將系統識別區域 (SIR) 和光學字元辨識 (OCR) 可信度與預先定義的門檻進行比較,以改善 IQ Bot 平台的輸出品質。
基於信任的驗證對於文本類型字段和日期或數字字段非常有用,因爲它有助於路由具有爭議值的文檔,即使這些字段滿足了設定的驗證標準,也可以讓人查看。
啟用憑藉 OCR 可信度的驗證
註: 此選項僅適用於 Tesseract OCR 您在建立學習實例時選擇的情況。
預設情況下將停用此功能。要啓用此功能,請打開 <IQ Bot Installation Folder>\Configurations\ 中提供的 settings.txt 配置文件,並在 CONFIeThreshold 屬性中設置所需的閾值。對於此示例,請將字符級別置信閾值設置爲 99,即 CONFIDE閾 值 =99
。若停用此功能,預設值將設為 0,表示此功能已停用。
註: 可信度門檻值一概適用於所有學習實例。
OCR 基於信任的驗證如何工作
如果文件中某個欄位的 SIR 字元等級可信度低於設定的可信度門檻值,該欄位的驗證便會失敗,從而導致該文件驗證失敗。
註: 如果字段值由於除 OCR 置信度驗證失敗之外的驗證規則(例如,無效數字格式)而失敗,您將看到該工具提示,而不是 “低信賴度”工具提示。
訓練文件時,如果該欄位沒有其他驗證錯誤,預覽期間會在橘色方塊中顯示欄位的信任驗證失敗。其他驗證錯誤優先於 OCR 字元等級可信度驗證。
Troubleshoot: 如果 OCR 引擎無法識別中文 PDF 文檔的 SIR ,請解決此問題: