Os modelos de generative AI baseados em visão aprimoram a automação de documentos, melhorando a precisão da extração de dados de documentos complexos e não estruturados, utilizando recursos como análise de layout e reconhecimento de campos de formulários. Esses modelos simplificam os fluxos de trabalho ao reduzir a intervenção humana e são compatíveis em várias regiões por provedores como Microsoft OpenAI e Anthropic Claude.

Nota: Certifique-se de estar usando o package Document Extraction versão 3.35.14 ou posterior para usar os modelos de generative AI baseados em visão.

A integração de modelos de generative AI baseados em visão no Document Automation ajudará a processar documentos com estruturas visualmente complexas, como reconhecer caixas de seleção e detectar assinaturas.

Quando você utiliza o pacote que suporta modelos generative AI com tecnologia de visão, pode usar a tag de prompt @GenAIVision para indicar ao mecanismo Document Extraction que utilize modelos generative AI com tecnologia de visão para extração de dados. Para obter mais informações, consulte Usar tags de prompts de generative AI.

Recursos

A imagem a seguir mostra alguns dos recursos dos modelos de generative AI baseados em visão usados no Document Automation:

Document Automation com recursos de modelos de generative AI baseados em visão

O Document Automation com modelos de generative AI baseados em visão oferecem os seguintes recursos aprimorados em relação a outros modelos de generative AI:

  • Análise de layout
  • Reconhecimento de campo de formulários
  • Reconhecimento de tabela
  • Reconhecimento de imagens e gráficos
  • Reconhecimento de assinaturas e caixas de seleção

Benefícios

Modelos de generative AI com tecnologia de visão oferecem os seguintes benefícios:

Extração de dados sem interrupções
Extrai dados de tabelas complexas com linhas aninhadas, colunas mescladas e seções. Reconhece e captura elementos de seleção, como caixas de marcação.
Desenvolvidos para casos de uso do mundo real
Supera os desafios de extrair dados de vários tipos de documentos, como faturas, pedidos de compra, documentos de saúde e documentos da cadeia de suprimentos.
Configuração sem esforço
Usa modelos pré-treinados que funcionam imediatamente, nos quais as consultas de pesquisa são usadas para identificar e extrair informações.

Matriz de suporte de regiões

A tabela a seguir apresenta os modelos de generative AI baseados em visão compatíveis com provedores de generative AI em diferentes regiões:

Nota:
  • Se você estiver usando a licença BYOL (bring your own license) (modelos hospedados em sua própria conta), as informações fornecidas nesta matriz não se aplicam. Para obter Instruções sobre como configurar o BYOL, consulte action Extrair dados.
  • Ao usar BYOL, oferecemos suporte aos seguintes modelos:
    • Modelos do Anthropic Claude a partir da versão 3
    • Modelos do Microsoft OpenAI GPT a partir das famílias GPT 3.5 e GPT 4.0
Regiões Provedores O modelo de generative AI baseado em visão é compatível? Modelos de generative AI compatíveis
Estados Unidos Microsoft OpenAI Sim GPT-4o
Anthropic Claude (Amazon Bedrock) Sim Claude 3 Haiku
Europa Microsoft OpenAI Sim GPT-4o
Anthropic Claude (Amazon Bedrock) Sim Claude 3 Haiku
Restante do mundo Microsoft OpenAI Não* GPT-3.5 Turbo
Anthropic Claude (Amazon Bedrock) Sim Claude 3 Haiku

* Você pode configurar o BYOL para usar seu próprio modelo de generative AI baseado em visão para extração de dados. Consulte action Extrair dados.

Mais recursos

Para saber mais, procure o curso Extração de dados com Generative AI baseada em visão em Automation Anywhere University: RPA Training and Certification (A-People login required).