Document Automation - 使用 generative AI 的数据提取

Automation 360 CloudOn-PremisesDocument Automation 提供 generative AI (GenAI) 功能,可以在无需事先训练的情况下从非结构化和半结构化文档中无缝提取数据。 创建具有 GenAI 功能的学习实例,以使用大型语言模型 (LLM) 处理英文文档。

注: 生成式人工智能模型可能会产生错误和/或歪曲其生成的信息。 建议核实人工智能模型生成内容的准确性、可靠性和完整性。

优势

在定义表单和表格字段时,通过使用生成式 AI 模型的搜索查询功能提高学习实例的提取准确性。Document Automation 根据您选择的字段提供默认的可自定义查询。 将您的查询传输到 GenAI 可以增强和实现从不同文档类型中提取数据,无需事先训练。 利用这一创新来提升您的文档处理能力。

generative AI 如何改善提取过程

当您为非结构化文档(例如: 合同、协议、报告、信件和电子邮件)创建学习实例时,将自动选择 GenAI 驱动的数据提取功能。 在为您的学习实例定义表单字段表格字段时,您可以利用生成式 AI 模型的搜索查询选项自定义您的数据提取请求。

对于地址字段,GenAI 查询提供了一个默认查询,例如:“房产地址是什么?”。 您可以自定义此查询以进行更有针对性的提取,例如: “详细的房产地址是什么,包括城市、州和邮政编码?”

使用 Document Automation 的 generative AI 数据提取

在处理文档时,使用此学习实例,GenAI 功能将提取完整地址,而不仅仅是街道名称和编号。 您只需在模型中定义一次搜索查询,然后对于使用此模型处理的每个文档,数据都会被提取,无需额外配置。

在为半结构化文档(如发票、用户定义的订单和采购订单或供应链文档(例如,运单、提单、到货通知和装箱单))创建学习实例时,除了基于 Validator 中用户提供的更新的本机提取功能,您也可以使用 GenAI 驱动的数据提取功能。

重要:
  • 隐私声明: 当选择 generative AI 功能时,查询将被发送到第三方服务。 目前,数据被发送到 Microsoft Azure OpenAI 服务 Amazon BedrockGoogle Vertex AI 上可用的 Anthropic。 如果您不希望将数据发送到第三方服务,我们建议不要使用自带 generative AI 功能的非结构化和半结构化文档类型。 有关区域支持矩阵,请参阅 Document Automation 设置
  • generative AI 查询与结果不匹配时,generative AI 模型将返回空值或空响应。 在这种情况下,调整查询以获得所需的结果。