您可以使用非结构化文档类型从缺乏标准格式、固定布局或缺少无标签数据的非结构化文档中提取数据。

模型结合了 OCR 能力、自然语言处理 (NLP) 和 generative AI 技术,以执行语义分析并从非结构化文档中提取键值对和表格数据。

以下是一些非结构化文档的示例:

  • 法律文档
  • 通信(包括电子邮件)
  • 报告

该模型可选择以下 generative AI 供应商:

OpenAI
使用此选项可提供以下功能:
  • 处理各种任务
  • 处理英文和其他语言的文档
  • 支持多模态能力
  • 某些模型的微调功能
Anthropic
使用此选项可提供以下功能:
  • 高效处理大型非结构化文档
  • 处理英文和其他语言的文档
  • 更快的文档处理速度和更高的数据提取准确性

Generative AI 提供商提供通用智能,这意味着对于不同的文档类型,不需要对学习实例或模型进行特定训练。 相反,在配置学习实例时,用户应优化查询提示,以识别和定义如何从文档中提取数据。 例如,您可以定义以下示例提示,以从合同和协议中检索特定数据:

  • 合同的生效日期是什么时候?
  • 参考编号是什么?
  • 合同的生效日期是什么时候?以月/日/年的格式返回答案。
  • 参考编号是什么?它应遵循此模式 AAA-12345。
  • 截至协议生效之日,是否有未缴纳的税款?请回复是或否。
    注: 如果查询提示为空,提取结果或输出将为空。 在您的工作流涉及后处理数据时,有时可能需要保留提示符为空,以作为数据的占位符。 例如,如果您想从数据库中检索数据,并将其用于字段比较。

由于非结构化文档类型不使用标准格式、固定布局或缺乏无标签的数据,因此系统定义的表单和表格字段不可用。 在配置学习实例时,您必须定义所有需要数据提取的表单和表格字段。

对于希望在 Microsoft AzureAWS 或 GCP 上使用私有 Cloud 实例的 generative AI 模型的客户,他们可以连接到其私有 Cloud 中的模型。 请参阅 连接您自己的 generative AI 服务

注: 此模型不提供验证反馈选项。