Revisar o serviço de extração

Após ter confirmado que os documentos dos quais você deseja extrair conteúdo são formulários padrão, você pode planejar o tipo de serviço de extração de formulários padrão que se encaixa em sua necessidade.

As seguintes tecnologias estão disponíveis para o processamento de formulários padrão:

Serviço de extração de IQ Bot

Este é um serviço de extração baseado em modelos que utiliza OCR e heurística para extrair conteúdo de formulários padrão. Você tem que treinar um modelo por formulário padrão.

Diretrizes para o uso do serviço de extração de IQ Bot
  • Os documentos são de boa qualidade (300 dpi)
  • O conteúdo do documento não é muito denso
  • Os documentos de entrada não têm cópias manuscritas (suporte limitado)
  • Assinaturas atualmente não são suportadas
  • Contém um layout de tabela simples (espaço dentro de uma página) com cabeçalho claro, limites de tabela etc.
  • Não contém nenhuma tabela ou conteúdo que tenha caixas de seleção (suporte limitado)
  • Não tem nenhuma seção repetida (suporte limitado)
Benefícios do serviço de extração de IQ Bot
  • Uma configuração integrada e simples, pronta para uso
  • Vários motores de OCR para aumentar a precisão da extração
  • Layouts complexos (seções repetidas, tabelas contínuas etc.) podem ser extraídos para casos específicos (precisa testar)
  • Só requer licença de IQ Bot

Usando o Serviço de reconhecimento de formulário do Microsoft Azure

Tecnologia de terceiros, que fornece modelos de Inteligência Artificial (IA) construídos sob medida para extrair conteúdo de formulários padrão. Você pode criar modelos personalizados em que os documentos podem ser rotulados e treinados.

Diretrizes para o uso do serviço de reconhecimento de formulários de Microsoft Azure

  • Documentos de entrada:
    • pode ser denso (conter muitos detalhes e informações) e ter uma qualidade razoável (>200 dpi)
    • pode conter caixas de seleção e botões de opções
    • pode ter conteúdo manuscrito
    • pode conter assinaturas
    • pode conter tabelas

      Os documentos de entrada também podem conter tabelas que se estendem ao longo de uma única página. Entretanto, se os formulários padrão contiverem uma tabela que abranja várias páginas, a extração do conteúdo pode falhar.

  • Nenhuma das seções nos documentos de entrada não são repetidas
  • Documentos que contêm tabelas de transposição

Benefícios do serviço de reconhecimento de formulário de Microsoft Azure

  • Diversos documentos do tipo formulário padrão podem ser processados
  • O recurso de detecção automática pode identificar diferentes tipos de tabelas, como tabela sem cabeçalho, tabelas invertidas etc.
  • Bom suporte para formulários manuscritos