使用 OCR 置信度提高输出质量
- Updated: 2020/10/19
通过将系统识别区域 (SIR) 和光学字符识别 (OCR) 置信度与预定义阈值进行比较,提高 IQ Bot 平台的输出质量。
基于置信度的验证对于文本类型字段、日期或数字字段十分有用。因为它可帮助传送具有争议值的文档以供人工查看,即使字段满足设置的验证标准。
启用基于 OCR 置信度的验证
注: 此选项仅在创建学习实例时选择 Tesseract OCR 时才适用。
默认情况下禁用此功能。 要启用此功能,请打开位于 <IQ Bot Installation Folder>\Configurations\ 中的 Settings.txt 配置文件,并在 ConfidenceThreshold 属性中设置所需的阈值。 对于此示例,请将字符级置信度阈值设置为 99,也就是 ConfidenceThreshold=99
。 禁用此功能时,默认值设置为 0,表示该功能已禁用。
注: 置信度阈值统一适用于所有学习实例。
基于 OCR 置信度的验证的工作方式
在文档中,如果字段的 SIR 字符级置信度低于设置的置信度阈值,则该字段的验证将失败,从而导致该文档的验证失败。
注: 如果字段的值由于除 OCR 置信度验证失败之外的验证规则(例如,“数字格式无效”)而失败,则您会看到相应的工具提示而非置信度低工具提示。
在训练文档时,如果字段不存在其他验证错误,则在预览期间,对该字段进行的基于置信度的验证失败将显示在橙色框中。 其他验证错误优先于 OCR 字符级置信度验证。
故障排除: 如果 OCR 引擎无法识别中文 PDF 文件的 SIR,请按如下排除此问题: