创建学习实例以开始处理文档。 在 Community Edition 中,您可以使用 ABBYY OCR 提供程序针对支持的文档类型和语言提取数据。

过程

  1. Control Room 主页导航到 AI > Document Automation ,然后单击创建学习实例
  2. 输入该学习实例的名称和描述。
    Document Automation 不允许重复的学习实例名称,因此您提供的名称必须是唯一的。
  3. 选择合适的文档类型。
    注: 使用用户定义的文档类型来处理在视觉上与发票相似的文档,例如包含键值对和表格结构的采购订单和销售订单。 在此文档类型中,您可以创建和配置所有表单和表格字段。
  4. 选择语言。
  5. 可选: 您可以使用通过验证提高准确性选项向系统发送反馈,以改进提取结果。 有关更多信息,请参见 通过验证提高提取准确性
  6. 可选: 选择生成式 AI 驱动的数据提取选项以使用 生成式 AI 功能进行提取。 有关更多信息,请参阅 Document Automation - 使用 生成式 AI 的数据提取

    生成式 AI 提供程序具备以下优势:

    • 高效处理大型非结构化文档
    • 可以处理英文和其他语言的文档
    选择以下 生成式 AI 提供商之一:
    注:
    • 当您从之前的版本更新到 v.38 或更高版本时,Open AI 将被设置为默认的数据提取提供程序。
    • 如果您使用 OpenAI 处理了文档,然后切换到 Anthropic 进行数据提取,那么只有在切换到 Anthropic 之后处理的文档才会使用 Anthropic 进行数据提取。 对于先前处理的文档,提取的数据将使用 Azure OpenAI
    • Open AIAzure OpenAI 模型用于数据提取。 该提供商可通过嵌入式许可证(不需要任何额外的许可证)和自带许可证 (BYOL) 使用。

      如果您使用自带许可证 (BYOL),请确保在提取 机器人 中配置 OpenAI 的附加设置以使用此提供商。 请参阅 提取数据 操作

    • Anthropic: 您现在可以通过 AWS 和 GCP 使用 Anthropic 生成式 AI 模型在 Document Automation 中进行数据提取。 此产品为您提供灵活性,可以根据贵公司认证的 Cloud 提供商选择 生成式 AI 模型。

      如果您使用自带许可证 (BYOL),则必须在 Google Vertex AIAmazon Bedrock 服务上配置 Anthropic Claude 模型,然后在提取 机器人 中配置其他设置以使用此提供商。 请参阅 提取数据 操作

  7. 单击下一步

我们建议您在配置表单和表格字段时,将示例文档与 Control Room 窗口并排打开。

注:
  • 表单字段是指在文档中仅出现一次的字段类型。
  • 表格字段是一种在文档中反复出现的字段,通常以表格的形式出现。

  1. 配置表单和表格字段以进行提取。 有关更多详情,请参阅 查看和搜索字段
    1. 单击字段以打开字段编辑器。 有关更多详情,请参阅 编辑字段和创建自定义别名的指南
    2. 将鼠标悬停在字段右侧的菜单图标上,访问上下箭头。
    3. 使用箭头重新排列字段的顺序,以实现更高效的手动验证。
      字段的顺序不会改变提取。
    有关其他字段属性的更多信息,请参阅 表单和表格字段的注意事项
  2. 单击 添加字段 并指定字段详细信息,例如字段名称、字段标签、置信度、数据类型、格式化日期/数字等。 有关更多详情,请参阅 表单和表格字段的注意事项
    注: 如果您选择了生成式 AI 驱动的数据提取选项,我们建议您在创建学习实例时添加字段的优质提示,以获得预期结果。 请参阅 Document Automation - 使用 生成式 AI 的数据提取
    以下图像显示了在学习实例中配置的表单和表格字段:
    学习实例的表单字段

    学习实例的表格字段和在学习实例级别添加自定义表格
    注: 添加字段选项不适用于收据文档类型。
  3. 单击创建

后续步骤

将文档上传到学习实例,修复验证错误,并验证提取的数据:在 Community Edition 中处理文档