预训练文档类型是一种已经在大量类似文档(例如发票、到货通知和提单)上进行过训练的模型。

概述

预训练由内部或第三方提供商完成,因此客户无需自己进行。 这些文档类型旨在从相同或相似类型的文档中提取键值对、表格数据和非结构化信息。 预训练文档类型或预训练模型附带一组预定义字段,用户可以在创建学习实例时进行选择和自定义。

使用预训练的文档类型实现以下目标:

快速部署
通过节省创建、训练和部署自定义模型的时间,快速实施文档提取流程。
提高准确性
由于这些文档类型经过大型文档集的训练,与自定义文档类型相比,准确率更高。

预训练的文档类型由提取提供程序提供。 提取提供程序是一种专门处理特定文档类型并根据预定义规则或模型从文档中提取数据的服务。

Automation Anywhere
该提取服务在内部开发并且经过训练,可以从发票、到货通知、提单及类似类型的文件中提取数据。 这些文档类型可以选择连接到 Azure OpenAIAnthropic 等生成式人工智能服务,以进一步提升模型的数据提取能力。
Google Document AI
此提取服务由 Google 开发,提供预训练的解析器,可从发票、收据和水电费账单等文档中提取数据。 将来自 Google Document AI 的预训练文档解析器集成到 文档自动化 中,使用户能够利用先进的、即用型的文档处理功能。

支持矩阵

以下表格提供了 文档自动化 中支持的预训练文档类型。

文档类型 提取提供程序 生成式 AI 提供程序
发票 Automation Anywhere
Google Document AI
到货通知 Automation Anywhere 是*
提货单 Automation Anywhere 是*
装箱单 Automation Anywhere 是*
收据 Google Document AI
水电费账单 Google Document AI
运单 Automation Anywhere 是*

*对于此文档类型,生成式 AI 提供程序选项默认启用且无法禁用。

注:

注意: 如果您没有找到想要使用的文档类型,可以使用用户定义的文档类型来支持您的用例。 请参阅 文档类型:支持矩阵