使用 OCR 置信度提高输出质量

通过将IQ Bot平台与预定义阈值进行比较,使用系统识别区(SIR)和光学字符识别(OCR)置信度改善平台的输出质量。

基于置信度的验证对于文本类型字段和日期或数字字段很有用,因为它有助于路由具有争议值的文档,以供人工查看,尽管这些字段满足设定的验证标准。

启用基于 OCR 置信度的验证

注: 此选项仅在创建学习实例Tesseract OCR时选择时才适用。

默认情况下禁用此功能。要启用此功能,请打开 \\Configurations\\ 中提供的 <IQ Bot Installation Folder>Settings.txt 配置文件,并在 ConfidenceThreshold 属性中设置所需的阈值。在此示例中,将字符级置信阈值设置为 99,即 ConfidenceThreshold=99。禁用此功能时,默认值设置为 0,表示该功能已禁用。

注: 置信阈值统一适用于所有学习实例。

OCR 置信度验证的工作原理

在文档中,如果字段的 SIR 字符级置信度低于设定的置信度阈值,则该字段的验证将失败,从而导致文档失败。

注: 如果字段值由于 OCR 置信度验证失败之外的验证规则(例如,无效数字格式)而失败,则您将看到该工具提示,而不是低置信度的工具提示。

在训练文档时,如果该字段不存在其他验证错误,则在预览期间,针对该字段的基于置信度的验证失败将显示在橙色框中。其他验证错误优先于 OCR 字符级置信度验证。