用本主题作为指南,创建一个学习实例,利用 生成式 AI(生成式人工智能)功能从半结构化文档中提取数据,例如发票、用户定义的订单和采购订单或供应链文档,如: 到货通知、提单、装箱单和运单。

对于从半结构化文档中提取数据,用户可以选择使用 生成式 AI 功能,此外还可以通过在创建学习实例时勾选使用验证提高准确性选项来利用开箱即用的用户验证反馈功能。 这确保了数据提取的一致性和改进,并具有开箱即用的准确性。 让我们带您了解创建具有 生成式 AI 功能的学习实例的步骤,该功能将实现从半结构化文档中准确提取数据。

先决条件

  • 对于供应链文件,生成式人工智能驱动的数据提取功能默认启用,且无法禁用。 因此,您必须启用 生成式 AI 和其他到 文档自动化 的外部连接,以便无错误地处理文档。 请参阅 启用 生成式 AI 以及与 文档自动化 的其他外部连接
  • 公司的一名专业开发人员将执行以下任务:
    • 创建、编辑和删除学习实例
    • 将文档上传以进行处理和测试
    • 将学习实例从私有文件夹签入和签出到公共文件夹
  • 许可证要求:需要 机器人创造程序 许可证来执行上述任务。

  • 分配的角色和权限:
    • AAE_IQBot 服务AAE_IQBot 管理员
    • AAE_Basic

过程

  1. 登录到 Control Room,导航到 AI > Document Automation ,然后单击创建学习实例按钮以开始创建新的学习实例。
  2. 接下来,输入一个独特的学习实例名称,以便在学习实例列表中轻松识别,然后继续选择其他选项,如下所示:
    创建一个具有 生成式 AI 功能的半结构化文档学习实例
    1. 描述(可选): 这是一个可选字段,可用于添加有意义的描述并总结学习实例的使用情况。
    2. 文档类型: 从可用的半结构化文档列表中选择,例如: 发票、自定义、到货通知、提单、装箱单和运单。
      选择此选项后,除了提供的使用验证提高准确性功能外,还会启用生成式人工智能驱动的数据提取功能。该功能基于用户在验证过程中对 验证程序 所做更改发送给系统的反馈。 这是半结构化文档的一项关键功能,因为它结合了用户验证反馈和生成式人工智能能力,确保了更好的数据提取结果。
    3. 语言: 英语
      目前,我们仅支持英语。
    4. 区域设置:根据文档的区域设置。
      根据您的语言和文档来源国家/地区选择区域设置。
    5. 提供商: Automation Anywhere(用户定义)
    6. OCR 提供商Google Vision OCR 或 ABBYY OCR
      您可以从两个支持的 OCR 选项中进行选择。
  3. 单击下一步以开始为学习实例创建表单和表格字段。 从版本 v32 开始,生成式 AI 功能可用于表单和表格字段。 您可以在默认的自定义别名支持之外使用生成式人工智能功能。 请参阅 在 文档自动化 中创建学习实例,步骤 9 以获取有关为字段添加别名的详细信息。
    文档自动化 默认情况下使用自定义别名和反馈功能来处理半结构化文档。 对于置信度较低和缺少字段数据的字段查询,将传递给 生成式 AI 进行提取。
    启用 生成式 AI 搜索查询的半结构化文档学习实例
  4. 表格字段的 生成式 AI 功能可用于列标识,从而增强以表列为重点的数据提取。 此功能为表格提取增添了巨大价值。 生成式人工智能可以根据定义的搜索查询识别特定的表格列,而无需训练文档,并作为 文档自动化 的开箱即用功能。 因此,您可以使用启用生成式人工智能的搜索查询来识别列,然后使用 文档自动化 提取模型从该列中提取特定字段的数据。
  5. 接下来,添加一个字段名称,该名称必须特定于您要提取的数据点,添加一个字段标签,用于创建默认搜索查询,并选择数据类型以定义字段值的数据结构。
    您可以从下拉菜单中选择文本、数字、日期或地址数据类型的值选项。 有关创建表单字段的详细信息,请参阅:在 文档自动化 中创建学习实例,步骤 10。
  6. 表单和表格字段可以设置为必填可选。 当利用 生成式 AI 功能时,置信度字段显示为灰色。
  7. 您还有一个额外的选项,可以使用使用模式提取字段功能进行提取。
  8. 生成式人工智能模型的搜索查询部分,您可以选择使用系统生成的查询或添加自定义查询。
    例如,对于地址字段,默认的 生成式 AI 查询会显示“家庭住址是什么?”。 您可以将查询自定义为“家庭地址是什么,包括城市和州?”
  9. 在下一步中,为表单和表格字段定义字段规则文档规则,然后单击创建以完成学习实例的创建。 有关定义表单和文档规则的详细信息,请参阅:文档自动化中的验证规则

后续步骤

  1. 将学习实例发布到公共存储库,以便学习实例可以在公共模式下用于从真实文档中提取数据,并且验证者可以手动验证文档。 请参阅 实际正式发布学习实例
  2. AI > Document Automation 列表页面中,找到您刚刚创建并发布的学习实例,然后单击处理以开始上传文档进行处理和数据提取。 请参阅 在 文档自动化 中处理文档
  3. 打开包含提取数据的 CSV 文档,与处理后的文档进行比较,以验证和确认 GenAI 启用的搜索查询字段中的提取数据是否高度准确。