Como usar a ação Treinar classificador

Use a ação Treinar classificador para criar um arquivo de modelo usado pela ação Classificar para classificar os documentos em categorias necessárias para entrada.

Pré-requisitos

Antes de construir o bot, colete exemplos de documentos e categorize-os em pastas. Garanta que o conjunto de documentos de exemplo atenda aos seguintes requisitos:

  • Tenha pelo menos duas categorias.
  • Um mínimo de 15 páginas por categoria (20 páginas recomendadas).
  • Documentos PDF de entrada divididos com várias páginas em documentos PDF de uma página. Consulte Como usar a ação Dividir documento.

    Por exemplo, se você tiver um documento PDF com três páginas, divida em três documentos PDF de uma página.

Se esses requisitos mínimos não forem atendidos, uma mensagem de erro será exibida durante o tempo de execução do bot.

Cada pasta tem uma seleção de documentos que são uma amostra dos documentos que a instância de aprendizagem associada vai processar. A ação Treinar classificador lerá os arquivos nas pastas e construirá um modelo baseado nos documentos armazenados dentro de cada pasta.
Nota: Como o Mecanismo ABBYY FineReader OCR foi revertido para a versão 12.2 da versão 12.4, os arquivos .icmf mais antigos não podem ser usados para retreinar modelos no Automation 360 v.24 do Classificador de documentos pacote. Se você quiser adicionar mais categorias ou mais arquivos a suas categorias existentes, você deve criar um novo modelo.

Procedimento

  1. Na paleta Ações, clique duas vezes ou arraste a ação Treinar classificador do pacote Classificador de documento.
  2. Clique em Treinar para continuar criando um novo modelo de arquivo.
  3. Opcional: Se você tem um arquivo de modelo existente, clique em Retreinar.
    1. Use o campo Caminho da pasta de treinamento para selecionar um caminho de pasta existente na guia Pasta da área de trabalho.
      Como alternativa, clique na guia Variável para inserir manualmente um caminho de pasta de treinamento existente.
    2. Use o campo Caminho do zip existente para selecionar o caminho do arquivo da pasta .zip na guia Arquivo da Control Room ou Arquivo da área de trabalho.
      Como alternativa, clique na guia Variável para inserir manualmente o caminho para a pasta .zip.
      Nota: Quando você treina documentos, uma pasta .zip é criada, que contém arquivos .icmf, .data e .properties. Certifique-se de carregar toda a pasta .zip para retreinar um arquivo de modelo existente.
  4. Selecione o caminho da pasta de entrada em Pasta da área de trabalho ou Variável.

    O caminho da pasta de entrada deve ter subdiretórios com os nomes que correspondem à categoria dos documentos nos quais você deseja treinar o classificador. Por exemplo, se você tiver documentos relacionados a vendas, o caminho da pasta de entrada deve ter subpastas como Invoice e Purchase Order.

  5. Opcional: Se você selecionar Arquivo da área de trabalho, clique em Procurar para alterar o caminho de arquivo padrão.
  6. Digite um nome para o arquivo de modelo no campo Nome do modelo.
  7. Use o campo Caminho de saída do modelo para selecionar o diretório para o arquivo de modelo de saída.
  8. Opcional: Defina as seguintes CONFIGURAÇÕES AVANÇADAS:
    1. Otimização do treinamento: Use o menu suspenso para selecionar o tipo de otimização de treinamento.
      • Precisão: selecione esta opção quando quiser que seu modelo de treinamento seja preciso, mas pode faltar em alguns documentos.
      • Relembrar: selecione esta opção quando desejar que o modelo de treinamento encontre todos os casos relevantes dentro de um conjunto de dados.
      • Pontuação F1: é selecionado por padrão e a configuração recomendada, pois combina a otimização do treinamento de ambos Precisão e Relembrar.

      A Pontuação F1 é selecionada por padrão. Precisão e Relembrar.

    2. Tipo de classificação: Use o menu suspenso para selecionar os recursos que deseja incluir, como texto, imagem ou ambos.

      Texto e imagem é selecionado por padrão. Se você selecionar Texto ou Texto e imagem, a lista de idiomas suportados é exibida no menu suspenso Linguagem de reconhecimento.

    3. Configurações de OCR: Por padrão, as opções Extrair todos os blocos de texto e Extrair texto das imagens são ativadas.

      Com Configurações de OCR ativada por padrão, mais tempo é consumido pelo OCR na extração do conteúdo. Isso garante que documentos de qualidade relativamente inferior também sejam tratados com base nas entradas de OCR.

  9. Clique em Salvar e Executar.
    Ao treinar novamente um modelo existente, você busca os dados já treinados e os combina com novos dados gerados a partir do texto ou dos recursos de layout dos documentos de entrada. Depois disso, você deve treinar o modelo de aprendizado de máquina do zero. Esse método permite que você economize o tempo necessário para gerar novamente dados de texto ou dados de layout para documentos já treinados. No entanto, a parte computacionalmente cara é treinar o modelo de aprendizado de máquina, portanto, espera-se que o método de retreinamento seja demorado. Caso isso se torne uma restrição, recomendamos que você crie arquivos de modelo adicionais e os use para treinamento e classificação adicionais.
    O modelo é criado como um arquivo .icmf no diretório especificado no campo Caminho de saída do modelo.

Próximas etapas

Depois de criar o modelo, construa um bot para classificar os documentos de entrada. Ver Como usar a ação Classificar