Traiter les documents dans Automatisation de documents

Chargez des exemples de factures pour tester l\'instance d\'apprentissage, vérifier les données extraites et corriger les erreurs de validation.

Prérequis

  • Si vous ne l\'avez pas déjà fait, Créer une instance d\'apprentissage dans Automatisation de documents.
  • Vérifiez que votre périphérique est connecté à la Control Room : Installer Bot Agent et enregistrer le périphérique
  • Si l\'instance d\'apprentissage utilise un modèle Google Document AI et que vous n\'avez pas acheté de licences Google Document AI via Automation Anywhere , vous devez fournir vos identifiants Google Document AI au robot d\'extraction. Voir Configuration de la clé pour Google Document AI
  • Si l\'instance d\'apprentissage utilise un modèle Automation Anywhere, assurez-vous que chaque fichier ne dépasse pas 50 Mo.

    Si l\'instance d\'apprentissage utilise un modèle Google Document AI, assurez-vous que chaque fichier ne dépasse pas 20 Mo et contient 5 pages maximum.

  • Assurez-vous que les exemples de documents se présentent dans l\'un des types de documents pris en charge suivants :
    • PDF
    • JPG
    • JPEG
    • PNG
    • TIF
    • TIFF
  • Le format de sortie par défaut pour les données extraites est le fichier CSV. Pour convertir la sortie en JSON, consultez la rubrique Changement du format de sortie de CSV à JSON.

Effectuez les étapes suivantes pour charger des exemples de factures vers l\'instance d\'apprentissage afin de tester les capacités d\'extraction de données de l\'instance d\'apprentissage.

Procédure

  1. Chargez les documents pour tester l\'instance d\'apprentissage:
    écouvrez ces étapes en vidéo :

    1. Cliquez sur Traiter les documents.
      Traiter les documents
    2. Dans la fenêtre Traiter les documents, cliquez sur Parcourir pour sélectionner les fichiers à charger.
      Remarque : Les documents dont les noms de fichiers dépassent 149 caractères afficheront une erreur lors du traitement. Assurez-vous que les noms de fichiers restent en dessous de la limite de 150 caractères.
    3. Dans le champ Télécharger les données vers, saisissez le chemin de fichier où les données seront extraites.
      Lorsque le processus s\'exécute, il crée les trois dossiers suivants dans le chemin de fichier fourni :
      • Succès : contient les données extraites dans le format spécifié (CSV ou JSON).
      • Non valides : détient les documents marqués comme non valides.
      • Échec : détient les documents qui n\'ont pas pu être traités.

      Vous pouvez fournir un chemin de dossier de sortie basé sur l\'une des options suivantes :

      • Option 1: Le chemin du périphérique local si vous avez configuré le traitement et la validation des documents sur le même périphérique.

        Cette option est généralement utilisée lorsque vous testez l\'instance d\'apprentissage.

      • Option 2: le chemin du dossier partagé si vous avez configuré la validation distribuée sur des périphériques distincts.

        Cette option est généralement utilisée pour les instances d\'apprentissage publiées. Par exemple, \\10.239.192.60\Sharepath\Output.

    4. Cliquez sur Traiter les documents.
      La fenêtre Bot Runner s\'affiche. La fenêtre disparaît lorsque le traitement des documents est terminé. Actualisez le tableau Instances d\'apprentissage pour afficher les métriques mises à jour.

S\'il y a une valeur à côté du lien Valider les documents, vous devez valider manuellement les champs du document. Sinon, passez à l\'étape 3.

  1. Corriger les erreurs de validation
    1. Cliquez sur Valider les documents.
      La gestion des tâches Copilote d\'automatisation s\'ouvre dans un nouvel onglet avec le premier document en échec dans la file d\'attente. Pour découvrir l\'interface utilisateur du validateur, consultez la rubrique Validation des documents via le validateur Copilote d\'automatisation.
    2. Examinez chaque champ pour vérifier le type de données et la valeur extraite.
      Automatisation de documents prend en charge les types de données suivants : texte, nombre, date, adresse et case à cocher.
      Dans la liste déroulante du panneau droit, vous pouvez aussi sélectionner Afficher les champs qui nécessitent une validation.
      Remarque : Lorsque des documents sont en attente de validation, si vous modifiez l\'instance d\'apprentissage, cliquez sur Retraiter pour réessayer l\'extraction.

      Le retraitement des documents n\'affecte pas la métrique des documents chargés.

    3. Mettez à jour les champs contenant des erreurs.
      Cliquez sur le champ ou dessinez un cadre autour des valeurs que vous voulez extraire.
      En ce qui concerne les modèles Automation Anywhere pré-entraînés, vous pouvez configurer l\'instance d\'apprentissage pour extraire des valeurs spécifiques dans un champ et ignorer les autres. Pour plus d\'informations, consultez .
      • Pour ignorer un document sans en corriger les erreurs, cliquez sur Ignorer pour passer au document suivant dans la file d\'attente de validation.
      • Pour supprimer un document qui ne peut pas être traité, cliquez sur Marquer comme non valide.
    4. Après avoir apporté les corrections nécessaires, cliquez sur Soumettre afin que le document puisse terminer son traitement.
      Le document suivant dans la file d\'attente apparaît. Lorsque tous les documents sont corrigés, le système affiche un message indiquant qu\'il n\'y a plus de tâches disponibles.
    5. Fermez l\'onglet pour revenir à la page Instances d\'apprentissage.
  2. Vérifiez les résultats de sortie :
    1. Ouvrez le fichier dans le dossier Success contenant les données extraites et examinez les résultats pour vous assurer qu\'ils correspondent à votre cas d\'utilisation.
      Les formulaires Microsoft renvoient les valeurs extraites (données OCR) au format JSON, comme GUID_0-MSFormTableResult.json. Avec les données du document extraites dans le fichier CSV <<GUID>>_FileName, le dossier Success affiche également les données du tableau extraites séparément dans d\'autres Fichiers CSV. En fonction du nombre de tableaux dans le document, vous pouvez trouver différents fichiers CSV pour chaque tableau. Par exemple, <<GUID_PAGE_NUMBER-Table_FILENAME_PAGENUMBER_TABLENUMBER.

      Grâce à des données de tableau distinctes, vous pouvez comparer les données extraites avec les données du moteur Microsoft dans le fichier GUID_0-MSFormTableResult.json.

    2. Facultatif : Examinez le tableau de bord Exemple d\'apprentissage.
      Le tableau de bord affiche le nombre total de documents chargés et le nombre de documents en attente de validation.
Si l\'instance d\'apprentissage ne trouve pas un champ à plusieurs reprises ou si les caractères ne sont pas correctement reconnus (comme la lettre « l » extraite en tant que chiffre « 1 »), vous pouvez essayer de changer l\'OCR en OCR Google Vision.

Étapes suivantes

Créez un robot qui charge les documents d\'un dossier source vers l\'instance d\'apprentissage. Ensuite, publiez les ressources de l\'instance d\'apprentissage (processus, formulaire, et robots) dans le référentiel public afin que l\'instance d\'apprentissage puisse être utilisée en mode public afin d\'extraire des données de documents réels, et que les validateurs puissent valider manuellement les documents : Publication de l'instance d'apprentissage en production