Melhorar a extração de dados da tabela

Use as configurações avançadas de treinamento para treinar documentos e fornecer entradas adicionais para o mecanismo de extração do Document Automation melhorar a extração de dados da tabela.

Depois de extrair o documento, é possível usar a opção Configuração de treinamento avançado na página de validação para definir os seguintes valores:
  • Coluna primária: Defina a coluna principal para a identificação da linha com base nos requisitos.
  • Indicador do fim de tabela: Adicione um valor do indicador do fim de tabela para o sistema extrair dados até que o valor atinja o valor especificado, excluindo o valor do indicador do fim de tabela.
  • Rótulos de cabeçalho: Ajustar ou mapear novamente os campos da tabela conforme exigido.
Nota: Recurso aplicável aos provedores apenas se a opção Melhorar a precisão usando validação estiver disponível.

Pré-requisitos

  • A opção Configuração de treinamento avançado estará disponível somente se a opção Melhorar a precisão usando validação estiver habilitada.
  • A permissão Treinar grupos é exigida para fornecer informações sobre rótulos de cabeçalho, indicador do fim de tabela e uma coluna primária usada para a detecção da linha.
  • Só pode haver uma coluna primária.
  • O indicador do fim de tabela é uma região identificada pelo sistema de texto (SIR).

Procedimento

  1. Processe um documento e navegue até a página de validação.
  2. Clique em Configurações avançadas de treinamento.

    Opção de configurações avançadas de treinamento na página do validador
  3. Treine o documento para definir os seguintes valores:
    1. Configure a coluna primária definida pelo usuário para a identificação da linha.

      Configuração da coluna primária usando as Configurações avançadas de treinamento

      Ao especificar esse valor pela primeira vez, na próxima vez que você processar esse documento e novo ou documentos de tipo semelhante, esse valor será atualizado de forma automática.

      Para limpar o valor atualizado de forma automática, clique no menu suspenso e selecione o valor vazio exibido no menu.

    2. Especifique o valor do indicador do fim de tabela.

      Especificação do indicador do fim de tabela para extrair dados excluindo o texto EoT
      Nota: Se uma tabela se estender por várias páginas e incluir um campo de fim de tabela semelhante em cada página, recomendamos que você adicione um indicador de fim de tabela. Adicionar o indicador de fim de tabela melhora a extração de dados para tabelas, pois o indicador é avaliado pelo sistema em cada página.

      Ao especificar esse valor pela primeira vez, na próxima vez que você processar esse documento de novo ou documentos de tipo semelhante, esse valor será atualizado de forma automática mesmo quando o indicador estiver em locais aleatórios no documento.

      Se um documento não tiver esse valor, ele ainda será atualizado de forma automática. No entanto, não haverá nenhuma região identificada pelo sistema (SIR) correspondente no documento, pois o valor está faltando.

      Para limpar o valor atualizado de forma automática, clique no botão fechar próximo ao valor no campo indicador de final da tabela ou na caixa de seleção do valor no documento.

    3. Clique na coluna exigida e especifique o nome do cabeçalho específico.

      Alteração do valor do cabeçalho das colunas
  4. Clique em Enviar e processe o documento outra vez.
    Nota: Clique em Enviar para salvar e aplicar essas configurações ao reprocessar o documento.
    Com base nas configurações avançadas de treinamento especificadas, o documento é reprocessado e enviado outra vez ao validador para validar os campos, se houver, ou os dados são extraídos na pasta Success como um arquivo CSV.

Coluna primária

Por exemplo, após extrair o documento, os dados da tabela multilinha da coluna Número do item são extraídos em uma única linha, mas você quer extraí-los em linhas separadas. Nesses casos, defina o Número do item como a coluna primária para melhorar a extração da tabela. Para obter mais detalhes, consulte Exemplo de configuração da coluna primária usando configurações avançadas de treinamento.

Indicador de fim de tabela

Por exemplo, ao processar um documento, ele extrai dados inteiros da tabela em que você deseja extrair os dados de linha até Total a pagar. Nesses casos, é possível especificar o valor do Indicador do fim de tabela para que os dados da tabela até esse valor (excluindo o valor do Indicador do fim de tabela) sejam extraídos e nenhum outro dado da linha seja extraído.

Rótulo do cabeçalho

Quando há uma incompatibilidade de rótulo nos dados da tabela, por exemplo, o rótulo do cabeçalho extraído é Preço unitário, mas é preferível que seja Preço. Nesses casos, é possível alterar o rótulo do cabeçalho.

Outro caso de uso é que você pode remapear todos os valores do Preço unitário ou alterar o rótulo do cabeçalho com os dados da coluna. Você pode usar o preenchimento automático para agilizar esse remapeamento. Por exemplo, após a extração, a coluna Preço da instância de aprendizado é extraída como Preço estendido, mas é preferível que o rótulo do cabeçalho seja Preço unitário, junto com os dados da coluna. Nesses casos, é possível alterar o rótulo do cabeçalho Preço estendido para Preço unitário e selecionar e remapear todos os valores das células da coluna Preço unitário.


Alteração do rótulo do cabeçalho para obter o cabeçalho exigido junto com os dados da coluna
O vídeo a seguir mostra um exemplo de como definir o Número do item como coluna primária e extrair os dados em uma linha separada em vez de uma única célula.