视觉驱动的 生成式 AI 数据提取
- Updated: 2025/05/22
视觉驱动的 生成式 AI 模型利用布局分析和表单字段识别等功能,提高从复杂和非结构化文档中提取数据的准确性,从而增强文档自动化。 这些模型通过减少人工干预来简化工作流程,并由 Microsoft OpenAI 和 Anthropic Claude 等提供商在各个地区提供支持。
注: 确保您使用的是版本 3.35.14 或更高版本的 文档提取
软件包,以便使用视觉驱动的 生成式 AI 模型。
在 文档自动化 中集成视觉驱动的 生成式 AI 模型将有助于处理具有视觉复杂结构的文档,例如识别复选框和检测签名。
当您使用支持视觉驱动的 生成式 AI 模型的软件包时,可以使用 @GenAIVision 提示标签来指示 文档提取 引擎使用视觉驱动的 生成式 AI 模型进行数据提取。 有关更多信息,请参阅 在 生成式 AI 提示中使用提示标签。
功能
下图展示了在 文档自动化 中使用的视觉驱动 生成式 AI 模型的一些功能:
具有视觉驱动 生成式 AI 模型的 文档自动化 在以下方面提供了相对于其他 生成式 AI 模型的增强功能:
- 布局分析
- 表单字段识别
- 表格识别
- 图像和图形识别
- 签名和复选框识别
优势
视觉驱动的 生成式 AI 模型提供以下优势:
- 无缝数据提取
- 从包含嵌套行、合并列和分段的复杂表格中提取数据。 识别并捕获选择元素,例如复选框。
- 针对实际用例进行开发
- 克服从各种文档类型中提取数据的挑战,例如发票、采购订单、医疗文档和供应链文档。
- 轻松设置
- 使用开箱即用的预训练模型,通过搜索查询来识别和提取信息。
区域支持矩阵
以下表格提供了由不同地区的 生成式 AI 提供商支持的视觉驱动 生成式 AI 模型:
注: 如果您为提供商使用自带许可证 (BYOL),则不会考虑这些设置。 有关为提供商配置 BYOL 的信息,请参阅 提取数据 操作。
地区 | 提供商 | 是否支持视觉驱动的 生成式 AI 模型? | 支持的 生成式 AI 模型 |
---|---|---|---|
美国 | Microsoft OpenAI | 是 | GPT-4o |
Anthropic Claude (Amazon Bedrock) | 是 | Claude 3 Haiku | |
欧洲地区 | Microsoft OpenAI | 是 | GPT-4o |
Anthropic Claude (Amazon Bedrock) | 是 | Claude 3 Haiku | |
世界其他地区 | Microsoft OpenAI | 否* | GPT-3.5 Turbo |
Anthropic Claude (Amazon Bedrock) | 是 | Claude 3 Haiku |
* 您可以配置 BYOL 以使用您自己的视觉驱动 生成式 AI 模型进行数据提取。 请参阅 提取数据 操作。
更多资源
要了解更多详情,请在 Automation Anywhere University: RPA Training and Certification (A-People login required) 中搜索 Vision Powered 生成式 AI Data Extraction 课程。