Revisar o serviço de extração
- Última atualização2024/05/17
Revisar o serviço de extração
Após ter confirmado que os documentos dos quais você deseja extrair conteúdo são formulários padrão, você pode planejar o tipo de serviço de extração de formulários padrão que se encaixa em sua necessidade.
As seguintes tecnologias estão disponíveis para o processamento de formulários padrão:
Serviço de extração de IQ Bot
Este é um serviço de extração baseado em modelos que utiliza OCR e heurística para extrair conteúdo de formulários padrão. Você tem que treinar um modelo por formulário padrão.
- Os documentos são de boa qualidade (300 dpi)
- O conteúdo do documento não é muito denso
- Os documentos de entrada não têm cópias manuscritas (suporte limitado)
- Assinaturas atualmente não são suportadas
- Contém um layout de tabela simples (espaço dentro de uma página) com cabeçalho claro, limites de tabela etc.
- Não contém nenhuma tabela ou conteúdo que tenha caixas de seleção (suporte limitado)
- Não tem nenhuma seção repetida (suporte limitado)
- Uma configuração integrada e simples, pronta para uso
- Vários motores de OCR para aumentar a precisão da extração
- Layouts complexos (seções repetidas, tabelas contínuas etc.) podem ser extraídos para casos específicos (precisa testar)
- Só requer licença de IQ Bot
Serviço IA do Azure para Informação de Documentos
Tecnologia de terceiros, que fornece modelos de Inteligência Artificial (IA) construídos sob medida para extrair conteúdo de formulários padrão. É possível criar modelos personalizados em que os documentos podem ser rotulados e treinados.
Diretrizes para o uso do serviço de IA do Azure para Informação de Documentos
- Documentos de entrada:
- pode ser denso (conter muitos detalhes e informações) e ter uma qualidade razoável (>200 dpi)
- pode conter caixas de seleção e botões de opções
- pode ter conteúdo manuscrito
- pode conter assinaturas
- pode conter tabelas
Os documentos de entrada também podem conter tabelas que se estendem ao longo de uma única página. Entretanto, se os formulários padrão contiverem uma tabela que abranja várias páginas, a extração do conteúdo pode falhar.
- Nenhuma das seções nos documentos de entrada não são repetidas
- Documentos que contêm tabelas de transposição
Benefícios do serviço de IA do Azure para Informação de Documentos
- Diversos documentos do tipo formulário padrão podem ser processados
- O recurso de detecção automática pode identificar diferentes tipos de tabelas, como tabela sem cabeçalho, tabelas invertidas etc.
- Bom suporte para formulários manuscritos