Extraction des données dans Automatisation de documents

Découvrez comment le système améliore la précision de l'extraction par le biais de modifications apportées par l'utilisateur dans le Validator.

Amélioration de la précision de l'extraction par la validation

Lorsqu'une instance d'apprentissage est créée, l'utilisateur a la possibilité d'activer cette fonction pour envoyer des commentaires à l'instance d'apprentissage sur la base des modifications apportées par l'utilisateur dans le Validator. Dans Automatisation de documents, les instances d'apprentissage fonctionnant en mode de production peuvent suivre en temps réel chaque fois qu'un utilisateur redimensionne ou déplace la région d'extraction dans le Validator.

Le graphique suivant donne un aperçu visuel du processus qui envoie continuellement aux instances d'apprentissage des commentaires sur la validation :

Processus d'enseignement des instances d'apprentissage par des commentaires de validation

  1. Un document chargé passe par le moteur d'extraction.
  2. Si l'instance d'apprentissage réussit à extraire les données, le document est ajouté au compte straight-through processing (STP) et les valeurs extraites sont chargées dans un fichier dans le dossier Success.

    Si l'instance d'apprentissage ne peut pas extraire les données, le système évalue si le document contient une mise en page inconnue.

  3. Si l'instance d'apprentissage ne reconnaît pas la mise en page du document (nouvelle mise en page), le document est envoyé pour une validation manuelle où l'utilisateur « apprend » à l'instance d'apprentissage comment extraire les données en définissant la région d'extraction.
  4. Les valeurs extraites sont téléchargées dans un fichier dans le dossier Success et les modifications sont rassemblées dans un fichier de commentaires, qui est envoyé à la base de données des commentaires.
    Remarque :
    • Les commentaires ne sont collectés que lorsque l'utilisateur modifie la région d'extraction. Si l'utilisateur saisit manuellement le texte, le système ne recueille pas de commentaires.
    • Le fichier de commentaires ne contient que des données sur l'emplacement du champ afin d'améliorer la précision de l'extraction pour les documents suivants.

    Si l'instance d'apprentissage reconnaît le cluster, elle récupère les commentaires précédents dans la base de données des commentaires et les utilise pour extraire les données.

Utilisation des commentaires de validation pour extraire des valeurs spécifiques dans un tableau

À compter de Automation 360 v.27, vous pouvez entraîner une instance d'apprentissage à extraire des données d'une cellule contenant plusieurs champs.

Par exemple, si une colonne de description de produit comprend également le numéro d'élément, vous pouvez mettre en surbrillance le numéro d'élément dans l'interface de validation. Lorsque l'instance d'apprentissage traite les documents suivants, elle extrait le numéro d'élément et ignore la description du produit.

Suivez cette procédure pour configurer une instance d'apprentissage afin d'extraire des valeurs spécifiques d'une cellule :
  1. Créez une instance d'apprentissage en utilisant un modèle pré-entraîné Automation Anywhere et sélectionnez l'option permettant d'envoyer des commentaires de validation : Créer une instance d\'apprentissage dans Automatisation de documents
  2. Chargez un exemple de documents : Traiter les documents dans Automatisation de documents
  3. Dans le validateur, localisez le champ et redessinez la zone pour qu'elle n'entoure que les valeurs que vous voulez extraire.
  4. Lorsque vous cliquez sur Soumettre, les informations sur la nouvelle région d'extraction sont envoyées à la base de données des commentaires.
  5. Chargez d'autres documents pour tester la précision de l'extraction. Lorsque vous êtes satisfait des résultats, passez à la préparation de l'instance d'apprentissage à exécuter en production : Publication de l'instance d'apprentissage en production

Comment Automatisation de documents identifie les nouvelles mises en page

L'extraction de Automatisation de documents repose sur la détection des objets. Pendant le traitement d'un document, le moteur d'extraction identifie les objets, ou les paires clé-valeur du champ et de la valeur associée. Le moteur crée une « empreinte » du document, qui stocke la séquence des objets et l'emplacement de chaque objet dans le document.

Lorsqu'un document est traité, si le moteur reconnaît les clés et leurs emplacements, le document est classé et extrait sur la base de cette empreinte existante. Sinon, le moteur enregistre une nouvelle empreinte des clés et de leurs emplacements.

Processus par lequel le moteur reconnaît l'empreinte existante dans un document ou en crée une nouvelle.