Como escolher um modelo de extração
- Última atualização2024/10/31
Como escolher um modelo de extração
O Document Automation oferece suporte a diferentes provedores de extração para dar suporte a uma ampla variedade de casos de uso de processamento de documentos. Determinar qual provedor de extração usar para processar documentos pode exigir que você compare diferentes provedores de extração ou escolha uma combinação de mais de um provedor de extração para abordar um caso de uso específico.
Por exemplo, para pacotes de solicitação de empréstimo, você pode querer usar o provedor de extração da Automation Anywhere para extrair determinados dados, como formulários W-2 e extratos bancários, e o provedor de extração IA do Google Document para extrair determinados dados, como faturas e documentos de identidade. Nesse cenário, a extração de dados usando apenas um dos provedores de extração não fornece cobertura completa.
Um dado essencial para decidir sobre um provedor de extração é o tipo de documento que você deseja processar: estruturado, semiestruturado ou não estruturado. Para obter informações sobre os tipos de documentos, consulte Tipos de documento.
Documentos estruturados
Para documentos estruturados que seguem uma estrutura consistente e layout claro, recomendamos usar o modelo de extração de Formulários padrão em Document Automation para extração de dados. Esse modelo usa uma combinação de recursos de reconhecimento óptico de caracteres (OCR) com um modelo baseado em template para extrair pares de valor-chave e dados de tabela de documentos estruturados com formatação muito consistente, como formulários ou IDs. Consulte Criação de modelos personalizados no Document Automation usando Formulários padrão.
Documentos semiestruturados
Documentos semiestruturados geralmente exigem testes e validação de diferentes modelos de extração e provedores para determinar a combinação que fornecerá os dados obrigatórios. Alguns casos de uso podem exigir a criação de mais de uma instância de aprendizado com diferentes combinações de modelos de extração e provedores para extrair os dados obrigatórios de campos e tabelas. Esse modelo usa uma combinação de recursos de OCR com extração baseada em palavras-chave, expressões regulares e feedback de validação para extrair pares de chave-valor e dados de tabela de uma ampla variedade de formatos.
Tipo de documento | Provedores de extração | |
---|---|---|
Automation Anywhere | IA do Google Document | |
Faturas | Sim | Sim |
Aviso de chegada | Sim | Não |
Conhecimento de embarque | Sim | Não |
Lista de embalagem | Sim | Não |
Recibos | Não | Sim |
Definido pelo usuário | Sim | Sim |
Cobrança de serviços públicos | Não | Sim |
Guia de transporte | Sim | Não |
Documentos não estruturados
Para documentos não estruturados que não possuem um formato padrão, layout fixo ou falta de dados sem rótulos, como contratos, recomendamos usar o modelo de extração de documentos não estruturados no Document Automation para extração de dados. A extração de documentos não estruturados depende de modelos do IA generativa que podem entender o significado semântico e analisar formatos de documentos complexos.