Automation 360

使用 OCR 置信度提高输出质量

Download as PDF

Table of Contents

使用 OCR 置信度提高输出质量

Download as PDF

Updated: 2020/10/19

通过将系统识别区域 (SIR) 和光学字符识别 (OCR) 置信度与预定义阈值进行比较，提高 IQ Bot 平台的输出质量。

基于置信度的验证对于文本类型字段、日期或数字字段十分有用。因为它可帮助传送具有争议值的文档以供人工查看，即使字段满足设置的验证标准。

启用基于 OCR 置信度的验证

注：此选项仅在创建学习实例时选择 Tesseract OCR 时才适用。

默认情况下禁用此功能。要启用此功能，请打开位于 <IQ Bot Installation Folder>\Configurations\ 中的 Settings.txt 配置文件，并在 ConfidenceThreshold 属性中设置所需的阈值。对于此示例，请将字符级置信度阈值设置为 99，也就是 ConfidenceThreshold=99。禁用此功能时，默认值设置为 0，表示该功能已禁用。

注：置信度阈值统一适用于所有学习实例。

基于 OCR 置信度的验证的工作方式

在文档中，如果字段的 SIR 字符级置信度低于设置的置信度阈值，则该字段的验证将失败，从而导致该文档的验证失败。

注：如果字段的值由于除 OCR 置信度验证失败之外的验证规则（例如，“数字格式无效”）而失败，则您会看到相应的工具提示而非置信度低工具提示。

在训练文档时，如果字段不存在其他验证错误，则在预览期间，对该字段进行的基于置信度的验证失败将显示在橙色框中。其他验证错误优先于 OCR 字符级置信度验证。

故障排除：如果 OCR 引擎无法识别中文 PDF 文件的 SIR，请按如下排除此问题：