Automation 360

Como escolher um modelo de extração

Baixar como PDF

Contents (Conteúdo)

Como escolher um modelo de extração

Baixar como PDF

Última atualização2024/10/31

O Document Automation oferece suporte a diferentes provedores de extração para dar suporte a uma ampla variedade de casos de uso de processamento de documentos. Determinar qual provedor de extração usar para processar documentos pode exigir que você compare diferentes provedores de extração ou escolha uma combinação de mais de um provedor de extração para abordar um caso de uso específico.

Por exemplo, para pacotes de solicitação de empréstimo, você pode querer usar o provedor de extração da Automation Anywhere para extrair determinados dados, como formulários W-2 e extratos bancários, e o provedor de extração Google Document AI para extrair determinados dados, como faturas e documentos de identidade. Nesse cenário, a extração de dados usando apenas um dos provedores de extração não fornece cobertura completa.

Um dado essencial para decidir sobre um provedor de extração é o tipo de documento que você deseja processar: estruturado, semiestruturado ou não estruturado. Para obter informações sobre os tipos de documentos, consulte Tipos de documento.

Documentos estruturados

Para documentos estruturados que seguem uma estrutura consistente e layout claro, recomendamos usar o modelo de extração de Formulários padrão em Document Automation para extração de dados. Esse modelo usa uma combinação de recursos de reconhecimento óptico de caracteres (OCR) com um modelo baseado em template para extrair pares de valor-chave e dados de tabela de documentos estruturados com formatação muito consistente, como formulários ou IDs. Consulte Criação de modelos personalizados no Document Automation usando Standard Forms.

Documentos semiestruturados

Documentos semiestruturados geralmente exigem testes e validação de diferentes modelos de extração e provedores para determinar a combinação que fornecerá os dados obrigatórios. Alguns casos de uso podem exigir a criação de mais de uma instância de aprendizado com diferentes combinações de modelos de extração e provedores para extrair os dados obrigatórios de campos e tabelas. Esse modelo usa uma combinação de recursos de OCR com extração baseada em palavras-chave, expressões regulares e feedback de validação para extrair pares de chave-valor e dados de tabela de uma ampla variedade de formatos.

A tabela a seguir lista os diferentes modelos de extração pré-treinados e provedores disponíveis no Document Automation para processamento de documentos semiestruturados. A disponibilidade dos modelos de extração depende do idioma que você selecionar. Quando um modelo de extração suporta os provedores de extração Automation Anywhere e Google Document AI, às vezes pode ser necessário comparar os dois para consultar qual é melhor para o caso de uso ou até mesmo usar os dois em conjunto, se obrigatório, para extrair todos os dados relevantes.

Nota: Use o modelo genérico (definido pelo usuário) se o modelo que você deseja usar não estiver disponível na lista de modelos de extração pré-treinados.


Tipo de documento	Provedores de extração
Tipo de documento	Automation Anywhere	Google Document AI
Faturas	Sim	Sim
Aviso de chegada	Sim	Não
Conhecimento de embarque	Sim	Não
Lista de embalagem	Sim	Não
Recibos	Não	Sim
Definido pelo usuário	Sim	Sim
Cobrança de serviços públicos	Não	Sim
Guia de transporte	Sim	Não

Usar o tipo de documento definido pelo usuário

Documentos não estruturados

Para documentos não estruturados que não possuem um formato padrão, layout fixo ou falta de dados sem rótulos, como contratos, recomendamos usar o modelo de extração de documentos não estruturados no Document Automation para extração de dados. A extração de documentos não estruturados depende de modelos do generative AI que podem entender o significado semântico e analisar formatos de documentos complexos.

Nota: Para ainda mais flexibilidade, analisadores de terceiros também podem ser integrados usando o recurso Configurar analisador, além das opções descritas acima. Consulte Integrar o analisador de terceiros na instância de aprendizado