Document Automation 支持不同的提取提供商,以支持广泛的文档处理场景。 要为文档处理选择提取提供商,可能需要您对不同的提取提供商进行基准测试,或者选择多个提取提供商组合来解决特定场景。

例如,对于贷款申请包,您可能想要使用 Automation Anywhere 提取提供商来提取某些数据,如 W-2 表单和银行对账单,并使用 Google Document AI 提取提供商来提取另一些数据,如发票和身份证件。 在此类场景中,仅由一个提取提供商进行数据提取将无法实现全面覆盖。

用于确定提取提供商的一个关键因素是您要处理的文档类型:结构化、半结构化或非结构化。 有关文档类型的信息,请参阅 文档类型

结构化文档

对于具有一致结构和清晰布局的结构化文档,我们建议在 Document Automation 中使用标准表单提取模型进行数据提取。 该模型将光学字符识别 (OCR) 功能与基于模板的模型相结合,从格式非常一致的结构化文档(如表单 或 ID)中提取键值对和表格数据。 请参阅 使用 Standard Forms 在 Document Automation 中创建自定义模型

半结构化文档

对于半结构化文档,通常需要对不同的提取模型和提供商进行测试和验证,以确定能够提供所需数据的最佳组合。 某些场景可能需要创建多个学习实例,使用不同的提取模型和提供商组合,以从字段和表格中提取所需数据。 该模型将 OCR 功能与基于关键字的提取、正则表达式和验证反馈相结合,以从多种格式中提取键值对和表格数据。

以下表格列出了 Document Automation 中可用于处理半结构化文档的不同预训练提取模型和提供商。 提取模型的可用性取决于您选择的语言。 当一个提取模型同时支持 Automation AnywhereGoogle Document AI 提取提供商时,有时您可能想要对两者进行比较,以确定一个更适合此场景的提供商,或者在必要时结合使用两者以提取所有相关数据。
注: 如果在预训练提取模型列表中没有找到想要使用的模型,请使用通用模型(用户自定义)。
文档类型 提取提供商
Automation Anywhere Google Document AI
发票
到货通知
提货单
装箱单
收据
用户定义
公用事业账单
运单
使用用户定义的文档类型

非结构化文档

对于缺乏标准格式、固定布局或标签数据的非结构化文档(如合同),我们建议在 Document Automation 中使用非结构化文档提取模型进行数据提取。 非结构化文档的提取依赖于能够理解语义意义和分析复杂文档格式的 generative AI 模型。

注: 为了获得更大的灵活性,除了上述选项外,还可以使用配置解析器功能集成第三方解析器。 请参阅 在学习实例中集成第三方解析器