学习实例是一种结构,其中包含文档类型、语言和要提取的字段等信息。 在创建自定义提取处理器后,您必须创建学习实例以从文档中提取数据。

先决条件

  • 确保您已成功创建并训练 Google 自定义文档提取器 (CDE) 处理器。
  • 确保您的 Control Room 具有 Document Workspace(页数)产品许可证。
  • 确保您已配置 BYOK。 有关更多信息,请参阅 为 Google CDE 配置自带密钥 (BYOK)

要将新处理器与 Google Document AI 集成,关键步骤是创建学习实例。 这涉及利用提供程序作为 Google Document AI(用户定义)选项。 通过使用此选项来创建学习实例,用户可以定义与处理器中存在的名称匹配的表单字段和表字段。
注:
  • 目前,Google Document AI 支持单表提取。
  • 复选框功能(在预览模式下)可能会导致复选框字段提取不一致,从而可能导致结果不一致。 在这种工单中,如果系统无法准确提取复选框字段值,则会将其标记为找不到

过程

  1. Control Room 主页,导航到 AI > 文档自动化 > 创建学习实例
    创建学习实例窗口在新标签页中打开。
  2. 为要创建的新学习实例添加名称。
  3. 文档类型下拉菜单中,选择用户定义
  4. 提供程序菜单中,选择 Google Document AI(用户定义)
  5. 单击下一步
  6. 选择表单字段表字段选项卡。
  7. 创建与 Google CDE 处理器中使用的模式标签同名的新字段。
    注: 在创建新字段时,请确保其名称与 Google 处理器中使用的模式标签相匹配。 您必须匹配表单字段和表字段的名称。
  8. 单击创建

    当创建一个新的学习实例时,Control Room 会在 自动化 > 文档工作区流程文件夹中创建一个与学习实例同名的文件夹。

    您可以为 Google Document AI 学习实例添加自定义表单字段和表字段。 当您想从 Google 不支持的字段中提取数据时,您可以创建自定义字段。 通过此增强功能,您可以使用来自 Google 的预训练模型以及自定义字段进行文档提取。

    在为 Google Document AI 学习实例添加自定义字段时,请考虑以下几点:
    • 您可以为文档类型添加自定义表单字段和表字段。
    • 您可以编辑并保存自定义字段。
    • 自定义字段可以使用正则表达式 (RegEx)。
    • 您可以为附加到旧package的现有学习实例添加自定义字段。

      在这种情况下,当您保存学习实例时,系统会显示更新package版本的通知。

    • package与多个功能不兼容时,系统会显示与最高package版本对应的消息。
    • 您可以将自定义字段连同设置一起导入或导出到 .dw 文件中。
    • 当您提取自定义字段时,这些字段与较旧的package版本向后兼容。
      • 当学习实例使用自定义字段时,旧package(v.29 及更早版本)不会引发错误,并且包含自定义字段的空值。
      • 与标准字段类似,旧package (v.29) 对自定义字段应用规范化和规则(如果适用)。
  9. 使用服务账户和处理器端点 URL 来更新学习实例的提取机器人。
    1. 自动化 > 文档工作区流程 > <LI name> > <Li name>_extractionbot 打开机器人以进行学习实例。
    2. 附加设置选项中,选择 Google DocAI
    3. 服务账户字段中,选择凭据保管库储物柜、凭据和存储服务账户密钥的属性。 有关更多信息,请参阅 为 Google CDE 配置自带密钥 (BYOK)
    4. 从 Google CDE 处理器复制预测端点 URL。
      Google Document AI 中的预测端点
    5. 将复制的 URL 粘贴到文档处理器的端点 URL 中。

      文档处理器的 Document AI 端点 URL

后续步骤

将文档上传到学习实例,修复验证错误,并验证提取的数据。 有关更多信息,请参阅 在 Document Automation 中处理文档