Utilisation de l'action Entraîner le classificateur

Utilisez l'action Entraîner le Classificateur pour créer un fichier de modèle qui est utilisé par l'action Classer pour trier les documents dans les catégories requises.

Prérequis

Avant de créer le robot, regroupez des exemples de documents et classez-les dans des dossiers. Assurez-vous que le jeu d'exemples de documents remplit les conditions suivantes :

  • Il doit posséder au moins deux catégories.
  • Il doit disposer d'au moins 15 pages par catégorie (20 pages recommandées).
  • Divisez les documents PDF d'entrée comportant plusieurs pages en documents PDF d'une seule page. Reportez-vous à la rubrique Utilisation de l'action Diviser le document.

    Par exemple, si vous disposez d'un document PDF de trois pages, divisez-le en trois documents PDF d'une seule page.

Si vous ne respectez pas ces conditions minimales, un message d'erreur s'affiche pendant l'exécution du robot.

Chaque dossier contient une sélection de documents constituant un échantillon des documents que l'instance d'apprentissage associée va traiter. L'action Entraîner le classificateur lit les fichiers dans les dossiers, puis crée un modèle basé sur les documents stockés dans chaque dossier.
Remarque : Dans la mesure où Moteur FineReader ABBYY Reconnaissance de texte a été rétrogradé de la version 12.4 à la version 12.2, il est impossible d'utiliser les anciens fichiers .icmf pour entraîner de nouveau les modèles dans Automation 360 v.24 du package Classificateur de documents. Pour ajouter davantage de catégories ou de fichiers à vos catégories existantes, vous devez créer un nouveau modèle.

Procédure

  1. Dans la palette Actions, double-cliquez sur l'action Entraîner le classificateur ou faites-la glisser depuis le package Classificateur de documents.
  2. Cliquez sur Entraîner pour poursuivre la création d'un nouveau fichier de modèle.
  3. Facultatif : Si vous disposez déjà d'un fichier de modèle, cliquez sur Entraîner à nouveau.
    1. Utilisez le champ Chemin du dossier de formation pour sélectionner un chemin de dossier existant dans l'onglet Dossier Bureau.
      Vous pouvez également cliquer sur l'onglet Variable pour saisir manuellement un chemin de dossier de formation existant.
    2. Utilisez le champ Chemin du dossier zip existant pour sélectionner le chemin de fichier du dossier .zip dans l'onglet Fichier de la Control Room ou Fichier de bureau.
      Vous pouvez également cliquer sur l'onglet Variable pour saisir manuellement le chemin d'accès au dossier .zip.
      Remarque : Lorsque vous entraînez des documents, un dossier .zip est créé ; il contient des fichiers .icmf, .data et .properties. Assurez-vous de charger l'intégralité du dossier .zip pour entraîner à nouveau un fichier de modèle existant.
  4. Sélectionnez le chemin du dossier d'entrée dans le dossier Bureau ou dans la variable.

    Le chemin du dossier d'entrée doit disposer de sous-répertoires avec les noms qui correspondent à la catégorie des documents sur lesquels vous souhaitez entraîner le classificateur. Par exemple, si vous disposez de documents commerciaux, le chemin du dossier d'entrée doit avoir des sous-dossiers tels que Facture et Bon de commande.

  5. Facultatif : Si vous sélectionnez Fichier de bureau, cliquez sur Parcourir pour modifier le chemin de fichier par défaut.
  6. Donnez un nom au fichier de modèle dans le champ Nom du modèle.
  7. Utilisez le champ Chemin de sortie du modèle pour sélectionner le répertoire du fichier de modèle de sortie.
  8. Facultatif : Configurez les PARAMÈTRES AVANCÉS suivants :
    1. Optimisation de la formation : utilisez le menu déroulant pour sélectionner le type d'optimisation de la formation.
      • Précision : sélectionnez cette option si vous souhaitez que votre modèle de formation soit précis, mais puisse passer à côté de certains documents.
      • Rappel : sélectionnez cette option si vous souhaitez que le modèle de formation trouve tous les cas pertinents dans un ensemble de données.
      • Score F1 : cette option est sélectionnée par défaut ; il s'agit du paramètre recommandé, car il combine les types d'optimisation de la formation Précision et Rappel.

      L'option Score F1 est sélectionnée par défaut. Précision et Rappel.

    2. Type de classification : utilisez le menu déroulant pour sélectionner les entités que vous souhaitez inclure, telles que du texte, une image ou les deux.

      L'option Texte et image est sélectionnée par défaut. Si vous sélectionnez Texte ou Texte et image, la liste des langues prises en charge s'affiche dans le menu déroulant Langue de reconnaissance.

    3. Paramètres de reconnaissance de texte : les options Extraire tous les blocs de texte et Extraire le texte des images sont activées par défaut.

      Lorsque l'option Paramètres de la reconnaissance de texte est activée (par défaut), la fonction de Reconnaissance de texte met plus de temps à extraire le contenu. De cette manière, les documents de qualité relativement faible sont également traités en fonction des entrées de la fonction de Reconnaissance de texte.

  9. Cliquez sur Enregistrer et sur Exécuter.
    Lorsque vous entraînez à nouveau un modèle existant, vous récupérez les données déjà entraînées et les combinez avec de nouvelles données générées à partir du texte ou des caractéristiques de mise en page des documents d'entrée. Ensuite, vous devez entraîner le modèle d'apprentissage machine à partir de zéro. Cette méthode vous permet de gagner du temps lorsque vous générez à nouveau des données textuelles ou des données de mise en page pour des documents déjà entraînés. Cependant, l'entraînement du modèle d'apprentissage machine est la partie la plus coûteuse en termes de calcul, et la méthode de réentraînement devrait donc être chronophage. Si cela devient une contrainte, nous vous recommandons de créer des fichiers modèles supplémentaires et de les utiliser pour un entraînement et une classification additionnels.
    Le modèle est créé sous forme de fichier .icmf dans le répertoire spécifié dans le champ Chemin de sortie du modèle.

Étapes suivantes

Après avoir créé le modèle, créez un robot pour classer les documents d'entrée. Reportez-vous à la rubrique Utilisation de l'action Classer