Extração de dados com generative AI baseada em visão
- Última atualização2025/08/18
Os modelos de generative AI baseados em visão aprimoram a automação de documentos, melhorando a precisão da extração de dados de documentos complexos e não estruturados, utilizando recursos como análise de layout e reconhecimento de campos de formulários. Esses modelos simplificam os fluxos de trabalho ao reduzir a intervenção humana e são compatíveis em várias regiões por provedores como Microsoft OpenAI e Anthropic Claude.
A integração de modelos de generative AI baseados em visão no Document Automation ajudará a processar documentos com estruturas visualmente complexas, como reconhecer caixas de seleção e detectar assinaturas.
Quando você utiliza o pacote que suporta modelos generative AI com tecnologia de visão, pode usar a tag de prompt @GenAIVision para indicar ao mecanismo Document Extraction que utilize modelos generative AI com tecnologia de visão para extração de dados. Para obter mais informações, consulte Usar tags de prompts de generative AI.
Recursos
A imagem a seguir mostra alguns dos recursos dos modelos de generative AI baseados em visão usados no Document Automation:
O Document Automation com modelos de generative AI baseados em visão oferecem os seguintes recursos aprimorados em relação a outros modelos de generative AI:
- Análise de layout
- Reconhecimento de campo de formulários
- Reconhecimento de tabela
- Reconhecimento de imagens e gráficos
- Reconhecimento de assinaturas e caixas de seleção
Benefícios
Modelos de generative AI com tecnologia de visão oferecem os seguintes benefícios:
- Extração de dados sem interrupções
- Extrai dados de tabelas complexas com linhas aninhadas, colunas mescladas e seções. Reconhece e captura elementos de seleção, como caixas de marcação.
- Desenvolvidos para casos de uso do mundo real
- Supera os desafios de extrair dados de vários tipos de documentos, como faturas, pedidos de compra, documentos de saúde e documentos da cadeia de suprimentos.
- Configuração sem esforço
- Usa modelos pré-treinados que funcionam imediatamente, nos quais as consultas de pesquisa são usadas para identificar e extrair informações.
Matriz de suporte de regiões
A tabela a seguir apresenta os modelos de generative AI baseados em visão compatíveis com provedores de generative AI em diferentes regiões:
- Se você estiver usando a licença BYOL (bring your own license) (modelos hospedados em sua própria conta), as informações fornecidas nesta matriz não se aplicam. Para obter Instruções sobre como configurar o BYOL, consulte action Extrair dados.
- Ao usar BYOL, oferecemos suporte aos seguintes modelos:
- Modelos do Anthropic Claude a partir da versão 3
- Modelos do Microsoft OpenAI GPT a partir das famílias GPT 3.5 e GPT 4.0
Regiões | Provedores | O modelo de generative AI baseado em visão é compatível? | Modelos de generative AI compatíveis |
---|---|---|---|
Estados Unidos | Microsoft OpenAI | Sim | GPT-4o |
Anthropic Claude (Amazon Bedrock) | Sim | Claude 3 Haiku | |
Europa | Microsoft OpenAI | Sim | GPT-4o |
Anthropic Claude (Amazon Bedrock) | Sim | Claude 3 Haiku | |
Restante do mundo | Microsoft OpenAI | Não* | GPT-3.5 Turbo |
Anthropic Claude (Amazon Bedrock) | Sim | Claude 3 Haiku |
* Você pode configurar o BYOL para usar seu próprio modelo de generative AI baseado em visão para extração de dados. Consulte action Extrair dados.
Mais recursos
Para saber mais, procure o curso Extração de dados com Generative AI baseada em visão em Automation Anywhere University: RPA Training and Certification (A-People login required).