Automation 360

视觉驱动的 generative AI 数据提取

Download as PDF

视觉驱动的 generative AI 数据提取

Download as PDF

Updated: 2026/03/19

视觉驱动的 generative AI 模型利用布局分析和表单字段识别等功能，提高从复杂和非结构化文档中提取数据的准确性，从而增强文档自动化。这些模型通过减少人工干预来简化工作流程，并由 Microsoft OpenAI 和 Anthropic Claude 等提供商在各个地区提供支持。

注：确保您使用的是版本 3.35.14 或更高版本的 Document Extraction package，以便使用视觉驱动的 generative AI 模型。

在 Document Automation 中集成视觉驱动的 generative AI 模型将有助于处理具有视觉复杂结构的文档，例如识别复选框和检测签名。

当您使用支持视觉驱动的 generative AI 模型的软件包时，可以使用 @GenAIVision 提示标签来指示 Document Extraction 引擎使用视觉驱动的 generative AI 模型进行数据提取。有关更多信息，请参阅在 generative AI 提示中使用提示标签。

功能

下图展示了在 Document Automation 中使用的视觉驱动 generative AI 模型的一些功能：

具有视觉驱动 generative AI 模型功能的 Document Automation

具有视觉驱动 generative AI 模型的 Document Automation 提供了以下优于其他 generative AI 模型的增强功能：

布局分析
表单字段识别
表格识别
图像和图形识别
签名和复选框识别

优势

视觉驱动的 generative AI 模型提供以下优势：

无缝数据提取: 从包含嵌套行、合并列和分段的复杂表格中提取数据。识别并捕获选择元素，例如复选框。
针对实际用例进行开发: 克服从各种文档类型中提取数据的挑战，例如发票、采购订单、医疗文档和供应链文档。
轻松设置: 使用开箱即用的预训练模型，通过搜索查询来识别和提取信息。

区域支持矩阵

以下表格提供了由不同地区的 generative AI 提供商支持的视觉驱动 generative AI 模型：

注：

如果您使用自带密钥 (BYOK)（在您自己的账户中托管的模型），则此矩阵中提供的信息不适用。有关如何配置 BYOK 的说明，请参阅提取数据 action。
使用 BYOK 时，请使用 Model connections。请参阅在 Document Automation 中使用 Model connections。


地区	提供商	是否支持视觉驱动的 generative AI 模型？	支持的 generative AI 模型
美国	Microsoft OpenAI	是	GPT-5.1
	Anthropic Claude (Amazon Bedrock)	是	Claude Haiku 4.5
	Google Gemini	是	Gemini 2.5 Flash
欧洲地区	Microsoft OpenAI	是	GPT-5.1
	Anthropic Claude (Amazon Bedrock)	是	Claude Haiku 4.5
	Google Gemini	是	Gemini 2.5 Flash
澳大利亚	Microsoft OpenAI	是	GPT-4.0
澳大利亚	Anthropic Claude (Amazon Bedrock)	是	Claude Haiku 4.5
印度	Microsoft OpenAI	是	GPT-4.0
印度	Anthropic Claude (Amazon Bedrock)	是	Claude 3 Haiku
加拿大	Microsoft OpenAI	是	GPT-4.0
日本	Microsoft OpenAI	是	GPT-4.0

Automation 360