选择提取模型
- Updated: 2025/04/18
Document Automation 支持不同的提取提供商,以支持广泛的文档处理场景。 要为文档处理选择提取提供商,可能需要您对不同的提取提供商进行基准测试,或者选择多个提取提供商组合来解决特定场景。
例如,对于贷款申请包,您可能想要使用 Automation Anywhere 提取提供商来提取某些数据,如 W-2 表单和银行对账单,并使用 Google Document AI 提取提供商来提取另一些数据,如发票和身份证件。 在此类场景中,仅由一个提取提供商进行数据提取将无法实现全面覆盖。
用于确定提取提供商的一个关键因素是您要处理的文档类型:结构化、半结构化或非结构化。 有关文档类型的信息,请参阅 文档类型。
结构化文档
对于具有一致结构和清晰布局的结构化文档,我们建议在 Document Automation 中使用标准表单提取模型进行数据提取。 该模型将光学字符识别 (OCR) 功能与基于模板的模型相结合,从格式非常一致的结构化文档(如表单 或 ID)中提取键值对和表格数据。 请参阅 使用 Standard Forms 在 Document Automation 中创建自定义模型。
半结构化文档
对于半结构化文档,通常需要对不同的提取模型和提供商进行测试和验证,以确定能够提供所需数据的最佳组合。 某些场景可能需要创建多个学习实例,使用不同的提取模型和提供商组合,以从字段和表格中提取所需数据。 该模型将 OCR 功能与基于关键字的提取、正则表达式和验证反馈相结合,以从多种格式中提取键值对和表格数据。
文档类型 | 提取提供商 | |
---|---|---|
Automation Anywhere | Google Document AI | |
发票 | 是 | 是 |
到货通知 | 是 | 否 |
提货单 | 是 | 否 |
装箱单 | 是 | 否 |
收据 | 否 | 是 |
用户定义 | 是 | 是 |
公用事业账单 | 否 | 是 |
运单 | 是 | 否 |
非结构化文档
对于缺乏标准格式、固定布局或标签数据的非结构化文档(如合同),我们建议在 Document Automation 中使用非结构化文档提取模型进行数据提取。 非结构化文档的提取依赖于能够理解语义意义和分析复杂文档格式的 generative AI 模型。