Traiter les documents dans Automatisation de documents

Chargez des exemples de factures pour tester l'instance d'apprentissage, vérifier les données extraites et corriger les erreurs de validation.

Prérequis

  • Si vous ne l'avez pas déjà fait, consultez la rubrique Créer une instance d\'apprentissage dans Automatisation de documents.
  • Vérifiez que votre périphérique est connecté à la Control Room : Installer l'Agent de robot et enregistrer le périphérique
  • Si l'instance d'apprentissage utilise un modèle Google Document AI et que vous n'avez pas acheté de licences Google Document AI par l'intermédiaire d'Automation Anywhere, vous devez fournir vos informations d'identification Google Document AI au robot d'extraction. Consultez la rubrique Configuration de la clé pour Google Document AI.
  • Si l'instance d'apprentissage utilise un modèle Automation Anywhere, assurez-vous que chaque fichier ne dépasse pas 50 Mo.

    Si l'instance d'apprentissage utilise un modèle Google Document AI, assurez-vous que chaque fichier ne dépasse pas 20 Mo et contient 5 pages maximum.

  • Assurez-vous que les exemples de documents se présentent dans l'un des types de documents pris en charge suivants :
    • PDF
    • JPG
    • JPEG
    • PNG
    • TIF
    • TIFF
  • Le format de sortie par défaut pour les données extraites est le fichier CSV. Pour convertir la sortie en JSON, consultez la rubrique Changement du format de sortie de CSV à JSON.

Effectuez les étapes suivantes pour charger des exemples de factures vers l'instance d'apprentissage afin de tester les capacités d'extraction de données de l'instance d'apprentissage.

Procédure

  1. Chargez les documents pour tester l'instance d'apprentissage :
    Découvrez ces étapes en vidéo :

    1. Cliquez sur Traiter les documents.
      Traiter les documents
    2. Dans la fenêtre Traiter les documents, cliquez sur Parcourir pour sélectionner les fichiers à charger.
    3. Dans le champ Télécharger les données vers, saisissez le chemin de fichier où les données seront extraites.
      Lorsque le processus s'exécute, il crée les trois dossiers suivants dans le chemin de fichier fourni :
      • Success : contient les données extraites dans le format spécifié (CSV ou JSON).
      • Invalid : détient les documents marqués comme non valides.
      • Failed : détient les documents qui n'ont pas pu être traités.

      Vous pouvez fournir un chemin de dossier de sortie basé sur l'une des options suivantes :

      • Option 1 : le chemin du périphérique local si vous avez configuré le traitement et la validation des documents sur le même périphérique.

        Cette option est généralement utilisée lorsque vous testez l'instance d'apprentissage.

      • Option 2 : le chemin du dossier partagé si vous avez configuré la validation distribuée sur des périphériques distincts.

        Cette option est généralement utilisée pour les instances d'apprentissage publiées. Par exemple, \\10.239.192.60\Sharepath\Output.

    4. Cliquez sur Traiter les documents.
      La fenêtre Bot Runner s'ouvre. La fenêtre disparaît lorsque le traitement des documents est terminé. Actualisez le tableau Instances d'apprentissage pour afficher les métriques mises à jour.

S'il y a une valeur à côté du lien Valider les documents, vous devez valider manuellement les champs du document. Sinon, passez à l'étape 3.

  1. Corriger les erreurs de validation
    1. Cliquez sur Valider les documents.
      La gestion des tâches Automation Co-Pilot s'ouvre dans un nouvel onglet avec le premier document en échec dans la file d'attente. Pour découvrir l'interface utilisateur du validateur, consultez la rubrique Utilisation du validateur de gestionnaire de tâches Automation Co-Pilot pour Automatisation de documents.
    2. Examinez chaque champ pour vérifier le type de données et la valeur extraite.
      Automatisation de documents prend en charge les types de données suivants : texte, chiffre, date, adresse et case à cocher.
      Dans la liste déroulante du panneau droit, vous pouvez aussi sélectionner Afficher les champs qui nécessitent une validation.
      Remarque : Lorsque des documents sont en attente de validation, si vous modifiez l'instance d'apprentissage, cliquez sur Retraiter pour réessayer l'extraction.

      Le retraitement des documents n'affecte pas la métrique des documents chargés.

    3. Mettez à jour les champs contenant des erreurs.
      Cliquez sur le champ ou dessinez un cadre autour des valeurs que vous voulez extraire.
      En ce qui concerne les modèles pré-entraînés Automation Anywhere, vous pouvez configurer l'instance d'apprentissage pour extraire des valeurs spécifiques dans un champ et ignorer les autres. Pour plus d'informations, consultez Extraction des données dans Automatisation de documents.
      • Pour ignorer un document sans en corriger les erreurs, cliquez sur Ignorer pour passer au document suivant dans la file d'attente de validation.
      • Pour supprimer un document qui ne peut pas être traité, cliquez sur Marquer comme non valide.
    4. Après avoir apporté les corrections nécessaires, cliquez sur Soumettre afin de terminer le traitement du document.
      Le document suivant dans la file d'attente apparaît. Lorsque tous les documents sont corrigés, le système affiche un message indiquant qu'il n'y a plus de tâches disponibles.
    5. Fermez l'onglet pour revenir à la page Instances d'apprentissage.
  2. Vérifiez les résultats de sortie :
    1. Ouvrez le fichier dans le dossier Success contenant les données extraites et examinez les résultats pour vous assurer qu'ils correspondent à votre cas d'utilisation.
      Les formulaires Microsoft renvoient les valeurs extraites (données OCR) au format JSON, comme GUID_0-MSFormTableResult.json. Outre les données de document extraites dans le fichier CSV <<GUID>>_FileName, le dossier Success contient également les données de tableau extraites dans un autre fichier CSV. En fonction du nombre de tableaux dans le document, il peut exister différents fichiers CSV pour chaque tableau. Par exemple, <<GUID_PAGE_NUMBER-Table_FILENAME_PAGENUMBER_TABLENUMBER.

      Grâce à des données de tableau distinctes, vous pouvez comparer les données extraites avec les données du moteur Microsoft dans le fichier GUID_0-MSFormTableResult.json.

    2. Facultatif : Examinez le tableau de bord Instance d'apprentissage.
      Le tableau de bord affiche le nombre total de documents chargés et le nombre de documents en attente de validation.
Si l'instance d'apprentissage ne trouve pas un champ à plusieurs reprises ou si les caractères ne sont pas correctement reconnus (comme la lettre « l » extraite en tant que chiffre « 1 »), vous pouvez essayer de changer l'OCR en OCR Google Vision.

Étapes suivantes

Créez un robot qui charge les documents d'un dossier source vers l'instance d'apprentissage. Ensuite, publiez les ressources de l'instance d'apprentissage (processus, formulaire, et robots) dans le référentiel public afin que l'instance d'apprentissage puisse être utilisée en mode public afin d'extraire des données de documents réels, et que les validateurs puissent valider manuellement les documents : Publication de l'instance d'apprentissage en production