Como escolher um modelo de extração

O Document Automation oferece suporte a diferentes provedores de extração para dar suporte a uma ampla variedade de casos de uso de processamento de documentos. Determinar qual provedor de extração usar para processar documentos pode exigir que você compare diferentes provedores de extração ou escolha uma combinação de mais de um provedor de extração para abordar um caso de uso específico.

Por exemplo, para pacotes de solicitação de empréstimo, você pode querer usar o provedor de extração da Automation Anywhere para extrair determinados dados, como formulários W-2 e extratos bancários, e o provedor de extração IA do Google Document para extrair determinados dados, como faturas e documentos de identidade. Nesse cenário, a extração de dados usando apenas um dos provedores de extração não fornece cobertura completa.

Um dado essencial para decidir sobre um provedor de extração é o tipo de documento que você deseja processar: estruturado, semiestruturado ou não estruturado. Para obter informações sobre os tipos de documentos, consulte Tipos de documento.

Documentos estruturados

Para documentos estruturados que seguem uma estrutura consistente e layout claro, recomendamos usar o modelo de extração de Formulários padrão em Document Automation para extração de dados. Esse modelo usa uma combinação de recursos de reconhecimento óptico de caracteres (OCR) com um modelo baseado em template para extrair pares de valor-chave e dados de tabela de documentos estruturados com formatação muito consistente, como formulários ou IDs. Consulte Criação de modelos personalizados no Document Automation usando Formulários padrão.

Documentos semiestruturados

Documentos semiestruturados geralmente exigem testes e validação de diferentes modelos de extração e provedores para determinar a combinação que fornecerá os dados obrigatórios. Alguns casos de uso podem exigir a criação de mais de uma instância de aprendizado com diferentes combinações de modelos de extração e provedores para extrair os dados obrigatórios de campos e tabelas. Esse modelo usa uma combinação de recursos de OCR com extração baseada em palavras-chave, expressões regulares e feedback de validação para extrair pares de chave-valor e dados de tabela de uma ampla variedade de formatos.

A tabela a seguir lista os diferentes modelos de extração pré-treinados e provedores disponíveis no Document Automation para processamento de documentos semiestruturados. A disponibilidade dos modelos de extração depende do idioma que você selecionar. Quando um modelo de extração suporta os provedores de extração Automation Anywhere e IA do Google Document, às vezes pode ser necessário comparar os dois para consultar qual é melhor para o caso de uso ou até mesmo usar os dois em conjunto, se obrigatório, para extrair todos os dados relevantes.
Nota: Use o modelo genérico (definido pelo usuário) se o modelo que você deseja usar não estiver disponível na lista de modelos de extração pré-treinados.
Tipo de documento Provedores de extração
Automation Anywhere IA do Google Document
Faturas Sim Sim
Aviso de chegada Sim Não
Conhecimento de embarque Sim Não
Lista de embalagem Sim Não
Recibos Não Sim
Definido pelo usuário Sim Sim
Cobrança de serviços públicos Não Sim
Guia de transporte Sim Não
Usar o tipo de documento definido pelo usuário

Documentos não estruturados

Para documentos não estruturados que não possuem um formato padrão, layout fixo ou falta de dados sem rótulos, como contratos, recomendamos usar o modelo de extração de documentos não estruturados no Document Automation para extração de dados. A extração de documentos não estruturados depende de modelos do IA generativa que podem entender o significado semântico e analisar formatos de documentos complexos.

Nota: Para ainda mais flexibilidade, analisadores de terceiros também podem ser integrados usando o recurso Configurar analisador, além das opções descritas acima. Consulte Integrar o analisador de terceiros na instância de aprendizado