Document Automation 中,您可以创建一个用户训练的学习实例,并使用 Google Custom Document Extractor (CDE) 处理器进行提取。

这项新功能可用于使用 Google Custom Document Extractor (CDE) 对涵盖 50 种语言的任何文档类型进行模型训练。 模型部署完成后,处理器的 URL 可以嵌入到 Document Automation 提取流程中。

要使用 Google CDE,您必须具备:
  • Google Google Document AI 工作台订阅。
  • 已分配 Document AI Editor 角色以创建处理器,并在 Google Cloud Platform 上创建了一个服务账户。 请参阅 Create service accountsIAM roles for Document AI
  • Document Automation 平台 > 文档工作区页面的许可证。
注: 使用 Google CDE 的 API URL 信任列表时,必须在 Bot Agent 计算机上将所有 API 添加到信任列表中。 Google CDE 允许的 API 列表如下:
  • Google 账户
  • Google OAuth
  • Google API
  • 处理器端点(仅将主机添加到信任列表)
    例如:
    https://eu-documentai.googleapis.com/v1/projects/<<Project ID>>/locations/eu/processors/<<Processor ID>>:process

Google CDE 的使用

在许多场景下,都需要使用 Google CDE 创建和维护模型,其中包括:
  • 扩展语言支持: 在处理需要其他语言支持的文档时,如果现有的预训练模型不具备这种能力,Google CDE 就变得至关重要。

    有关支持的语言,请参阅 Google CDE 的语言支持

  • 不支持的文档格式: 在处理缺乏兼容解析器的文档类型时,Google CDE 可发挥重要作用。
  • 解决准确性和性能挑战: 在特定的文档格式中,即使使用预先训练好的模型,也很难达到预期的准确度。 Google CDE 经过专门的文档培训,可以提供更高的准确性。
  • 自定义或非标准字段提取: Google CDE 可用于需要从具有自定义或非标准格式的文档中提取特定字段的场景。
  • 在不存在标签的情况下,基于特定训练进行提取: 当需要从没有预定义标签的字段中提取信息时,Google CDE 就非常有用。