创建学习实例以开始处理文档。 在 Community Edition 中,您可以使用 ABBYY OCR 提供程序针对支持的文档类型和语言提取数据。

过程

  1. From the Control Room home page, navigate to AI > Document Automation , and click Create Learning Instance.
  2. Enter a name and description for the learning instance.
    Document Automation does not allow duplicate learning instance names, so the name you provide must be unique.
  3. 选择合适的文档类型。
    注: 使用用户定义的文档类型来处理在视觉上与发票相似的文档,例如包含键值对和表格结构的采购订单和销售订单。 在此文档类型中,您可以创建和配置所有表单和表格字段。
  4. 选择语言。
  5. 可选: 您可以使用通过验证提高准确性选项向系统发送反馈,以改进提取结果。 有关更多信息,请参见 通过验证提高提取准确性
  6. 可选: 选择生成式 AI 驱动的数据提取选项以使用 生成式 AI 功能进行提取。 有关更多信息,请参阅 Document Automation - 使用 生成式 AI 的数据提取

    生成式 AI 提供程序具备以下优势:

    • 高效处理大型非结构化文档
    • 可以处理英文和其他语言的文档
    选择以下 生成式 AI 提供商之一:
    注:
    • 当您从之前的版本更新到 v.38 或更高版本时,Open AI 将被设置为默认的数据提取提供程序。
    • 如果您使用 OpenAI 处理了文档,然后切换到 Anthropic 进行数据提取,那么只有在切换到 Anthropic 之后处理的文档才会使用 Anthropic 进行数据提取。 对于先前处理的文档,提取的数据将使用 Azure OpenAI
    • Open AIAzure OpenAI 模型用于数据提取。 该提供商可通过嵌入式许可证(不需要任何额外的许可证)和自带许可证 (BYOL) 使用。

      如果您使用自带许可证 (BYOL),请确保在提取 机器人 中配置 OpenAI 的附加设置以使用此提供商。 请参阅 提取数据 操作

    • Anthropic: 您现在可以通过 AWS 和 GCP 使用 Anthropic 生成式 AI 模型在 Document Automation 中进行数据提取。 此产品为您提供灵活性,可以根据贵公司认证的 Cloud 提供商选择 生成式 AI 模型。

      如果您使用自带许可证 (BYOL),则必须在 Google Vertex AIAmazon Bedrock 服务上配置 Anthropic Claude 模型,然后在提取 机器人 中配置其他设置以使用此提供商。 请参阅 提取数据 操作

  7. Click Next.

We recommend that you open a sample document side by side with the Control Room window as you configure the form and table fields.

注:
  • A form field is a type of field that occurs only one time in a document.
  • A table field is a type of field that reoccurs throughout a document, typically in the form of a table.

  1. Configure the form and table fields for extraction. For more details, see 查看和搜索字段.
    1. Click a field to open the fields editor. For more details, see .编辑字段和创建自定义别名的指南
    2. Hover over the menu icon to the right of a field to access the up/down arrows.
    3. Use the arrows to rearrange the order of the fields for a more efficient manual validation.
      The order of the fields does not impact extraction.
    To learn more about the other field attributes, see 表单和表格字段的注意事项.
  2. Click Add a field and specify the fields details such as field name, fields label, confidence, data type, format date/number, and so on. For more details, see 表单和表格字段的注意事项.
    注: If you have selected the Generative AI-driven data extraction option, we recommend that you add good prompts for fields to get the expected results when you create the learning instances. See Document Automation - 使用 生成式 AI 的数据提取.
    The following image shows form and table fields configured in a learning instance:
    Form fields of a learning instance

    Table fields of a learning instance and adding custom table at learning instance level
    注: The Add a field option is not available for Receipts document type.
  3. Click Create.

后续步骤

将文档上传到学习实例,修复验证错误,并验证提取的数据:在 Community Edition 中处理文档