Amélioration de l'extraction des données des tableaux

Utilisez les paramètres de formation avancés pour entraîner vos documents et fournir des entrées supplémentaires au moteur d'extraction Automatisation de documents afin d'améliorer l'extraction des données de tableau.

Après avoir extrait le document, vous pouvez utiliser l'option Paramètres de formation avancés sur la page de validation pour définir les valeurs suivantes :
  • Colonne principale : Définissez la colonne principale pour l'identification des lignes en fonction de vos exigences.
  • Indicateur de fin de tableau : Ajouter une valeur d'indicateur de fin de tableau pour que le système extraie les données jusqu'à ce que la valeur atteigne la valeur spécifiée, à l'exclusion de la valeur d'indicateur de fin de tableau.
  • Étiquettes d'en-tête : Ajuster ou remettre en correspondance les champs de tableau si nécessaire.
Remarque : Cette fonctionnalité n'est applicable aux fournisseurs que si l'option Améliorer la précision grâce à la validation est disponible.

Prérequis

  • L'option Paramètres de formation avancés n'est disponible que si l'option Améliorer la précision grâce à la validation est activée.
  • Assurez-vous que vous disposez de l'autorisation Entraîner des groupes pour fournir des informations sur les étiquettes d'en-tête, l'indicateur de fin de tableau et une colonne principale utilisée pour la détection des lignes.
  • Il ne peut y avoir qu'une seule colonne principale.
  • L'indicateur de fin de tableau est une région de texte identifiée par le système (SIR).

Procédure

  1. Traitez un document et accédez à la page de validation.
  2. Cliquez sur Paramètres de formation avancés.

    Option des paramètres de formation avancés dans la page du validateur
  3. Entraînez votre document pour qu'il définisse les valeurs suivantes :
    1. Définir la colonne principale définie par l'utilisateur pour l'identification des lignes.

      Définition de la colonne principale à l'aide des paramètres de formation avancés

      La première fois que vous spécifiez cette valeur, celle-ci est automatiquement mise à jour lors du prochain traitement de ce document ou de documents de type similaire.

      Pour effacer la valeur mise à jour automatiquement, cliquez sur le menu déroulant et sélectionnez la valeur vide.

    2. Spécifiez la valeur de l'indicateur de fin de tableau.

      Spécification de l'indicateur de fin de tableau pour l'extraction des données à l'exclusion du texte EoT

      La première fois que vous spécifiez cette valeur, celle-ci est automatiquement mise à jour lors du prochain traitement de ce document ou de documents de type similaire, même si l'indicateur se trouve à des emplacements aléatoires sur le document.

      Si un document ne dispose pas de cette valeur, il est tout de même automatiquement mis à jour. Cependant, le document ne dispose pas de région identifiée par le système (SIR) correspondante, car la valeur est manquante.

      Pour effacer la valeur mise à jour automatiquement, cliquez sur le bouton de fermeture en regard de la valeur dans le champ de l'indicateur de fin de tableau ou dans la zone de sélection de la valeur sur le document.

    3. Cliquez sur la colonne souhaitée et spécifiez le nom de l'en-tête requis.

      Modification de la valeur de l'en-tête des colonnes
  4. Cliquez sur Soumettre et retraitez le document.
    Remarque : Vous devez cliquer sur Soumettre pour enregistrer et prendre en compte ces paramètres lors du retraitement du document.
    En fonction des paramètres de formation avancés spécifiés, le document est retraité et renvoyé au validateur pour valider les champs, le cas échéant, ou les données sont extraites dans le dossier Success sous la forme d'un fichier CSV.

Colonne principale

Par exemple, après l'extraction du document, les données de tableau à plusieurs lignes de la colonne Numéro d'élément sont extraites dans une seule ligne, mais vous souhaitez les extraire dans des lignes séparées. Dans de tels cas, vous pouvez définir le Numéro d'élément comme colonne principale pour améliorer l'extraction de la table. Pour plus de détails, voir Exemple de définition de la colonne principale à l'aide des paramètres de formation avancés.

Indicateur de fin de tableau

Par exemple, lorsque vous traitez un document, il extrait les données de tableau entier, alors que vous souhaitez extraire les données des lignes jusqu'à Total à payer. Dans de tels cas, vous pouvez spécifier la valeur Indicateur de fin de tableau afin que les données du tableau jusqu'à cette valeur (à l'exclusion de la valeur Indicateur de fin de tableau) soient extraites et qu'aucune autre ligne de données ne soit extraite.

Étiquette d'en-tête

Lorsqu'il y a une erreur d'étiquette dans les données de tableau, par exemple l'étiquette d'en-tête extraite est Prix unitaire mais vous voulez que l'étiquette d'en-tête soit Prix. Dans de tels cas, vous pouvez modifier l'étiquette d'en-tête.

Un autre cas d'utilisation est la possibilité de remapper toutes les valeurs de Prix unitaire ou de modifier l'étiquette d'en-tête en même temps que les données de la colonne. Vous pouvez utiliser le remplissage automatique pour accélérer ce remappage. Par exemple, après l'extraction, la colonne Prix de l'instance d'apprentissage est extraite en tant que Prix étendu, mais vous souhaitez que l'étiquette d'en-tête soit Prix unitaire avec les données de la colonne. Dans de tels cas, vous pouvez remplacer l'étiquette d'en-tête Prix étendu par Prix unitaire, et devez sélectionner et remapper toutes les valeurs de cellules de la colonne Prix unitaire.


Modification de l'étiquette d'en-tête pour obtenir l'en-tête souhaité avec les données de la colonne
La vidéo suivante montre un exemple de définition du Numéro d'élément comme colonne principale et d'extraction des données dans une ligne distincte au lieu d'une seule cellule.