Processar documentos no Document Automation

Faça upload das amostras de faturas para testar a instância de aprendizado, verificar os dados extraídos e corrigir erros de validação.

Pré-requisitos

  • Se você ainda não o fez, Criar uma instância de aprendizado no Document Automation.
  • Verifique se seu dispositivo está conectado à Control Room: Instalar o Agente de bot e registrar dispositivo
  • Se a instância de aprendizagem utiliza um modelo do IA do Google Document e você não comprou licenças do IA do Google Document por meio do Automation Anywhere , forneça suas credenciais do IA do Google Document para o Bot de extração. Consulte Configurar chave para IA do Google Document
  • Se a instância de aprendizagem utiliza um modelo do Automation Anywhere, garanta que cada arquivo tenha 50 MB ou menos.

    Se a instância de aprendizagem utiliza um modelo de IA de documentos do Google, certifique-se de que cada arquivo tenha 20 MB ou menos, com um máximo de 5 páginas.

  • Certifique-se de que as amostras dos documentos estejam em um dos seguintes tipos de documentos suportados:
    • PDF
    • JPG
    • JPEG
    • PNG
    • TIF
    • TIFF
  • O formato de saída padrão para os dados extraídos é o arquivo CSV. Para mudar a saída para JSON, consulte Mudar o formato de saída de CSV para JSON.

Realize as seguintes etapas para carregar amostras de faturas para a instância de aprendizagem para testar as capacidades de extração de dados da instância de aprendizagem.

Procedimento

  1. Faça upload dos documentos para testar a instância de aprendizagem:
    Veja as etapas em um vídeo:

    1. Clique em Processar documentos.
      Processar documentos
    2. Na janela Processar documentos, clique em Procurar para selecionar os arquivos que serão enviados.
    3. No campo Baixar dados para, digite o caminho do arquivo que vai conter os dados extraídos.
      Quando o processo é executado, ele cria as três pastas a seguir no caminho do arquivo fornecido:
      • Success: Contém os dados extraídos no formato especificado (CSV ou JSON).
      • Invalid: Possui documentos marcados como inválidos.
      • Failed: Armazena documentos que não puderam ser processados.

      Você pode fornecer um caminho de pastas de saída com base em uma das seguintes opções:

      • Opção 1: O caminho do dispositivo local, se você tiver configurado o processamento e a validação de documentos no mesmo dispositivo.

        Esta opção é normalmente utilizada quando se está testando a instância de aprendizagem.

      • Opção 2: O caminho da pasta compartilhada, se você tiver configurado a validação distribuída em dispositivos separados.

        Esta opção é normalmente utilizada para instâncias de aprendizagem publicadas. Por exemplo, \\10.239.192.60\Sharepath\Output.

    4. Clique em Processar documentos.
      A janela do Bot Runner é exibida. A janela desaparece quando o processamento dos documentos termina. Atualize a tabela Instâncias de aprendizagem para ver as métricas atualizadas.

Se houver um valor ao lado do link Validar documentos, você deve validar manualmente os campos do documento. Caso contrário, prossiga para a etapa 3.

  1. Corrigir os erros de validação
    1. Clique em Validar documentos.
      O gerenciador de tarefas do Automation Co-Pilot é aberto em uma nova guia, com o primeiro documento com falha na fila. Para uma introdução à interface do usuário do Validator, consulte Validar documentos usando o validador do Automation Co-Pilot.
    2. Revise cada campo para verificar o tipo de dado e o valor extraído.
      O Document Automation suporta os seguintes tipos de dados: texto, número, data, endereço e caixa de seleção
      Como alternativa, na lista suspensa no painel direito, você pode selecionar Mostrar campos que precisam de validação.
      Nota: Quando os documentos estiverem aguardando validação, se você editar a instância de aprendizagem, clique em Reprocessar para tentar realizar a extração novamente.

      O reprocessamento de documentos não afeta a métrica dos documentos carregados.

    3. Atualize os campos com erros.
      Clique no campo ou desenhe uma caixa ao redor dos valores que você deseja extrair.
      Para modelos Automation Anywhere pré-treinados, você pode configurar a instância de aprendizagem para extrair valores específicos em um campo e ignorar outros. Para obter mais informações, consulte .
      • Para pular um documento sem corrigir os erros, clique em Pular para prosseguir para o próximo documento na fila de validação.
      • Para remover um documento que não pode ser processado, clique em Marcar como inválido.
    4. Depois de fazer as correções necessárias, clique em Enviar para que o processamento do documento possa terminar.
      O próximo documento na fila aparece. Quando todos os documentos são corrigidos, o sistema exibe uma mensagem informando que não há mais tarefas disponíveis.
    5. Feche a guia para retornar à página Instâncias de aprendizagem.
  2. Verifique os resultados da saída:
    1. Abra o arquivo na pasta Success que contém os dados extraídos e revise os resultados para garantir que correspondem ao seu caso de uso.
      Os formulários da Microsoft retornam valores extraídos (dados OCR) no formato JSON, como GUID_0-MSFormTableResult.json. Junto com os dados do documento extraídos no arquivo CSV <<GUID>>_FileName, a pasta Success também mostra os dados da tabela extraídos em separado em outros arquivos CSV. Com base no número de tabelas no documento, é possível encontrar diferentes arquivos CSV para cada tabela. Por exemplo, <<GUID_PAGE_NUMBER-Table_FILENAME_PAGENUMBER_TABLENUMBER.

      Com dados de tabela separados, é possível comparar os dados extraídos com os dados do mecanismo da Microsoft no arquivo GUID_0-MSFormTableResult.json.

    2. Opcional: Revise o painel Instância de aprendizagem.
      O painel exibe o número total de documentos carregados e o número de documentos com validação pendente.
Se a instância de aprendizagem não conseguir encontrar repetidamente um campo ou se os caracteres não forem corretamente reconhecidos (como a letra "l" extraída como o número "1"), pode tentar alterar o OCR para Google Vision OCR.

Próximas etapas

Construa um bot que carregue documentos de uma pasta de origem para a instância de aprendizagem. Em seguida, publique os ativos da instância de aprendizagem (processo, formulário e bots) no repositório público para que a instância de aprendizagem possa ser usada em modo público para extrair dados de documentos reais e os validadores possam validar manualmente os documentos: Publicar a instância de aprendizado para produção