Amélioration de l\'extraction des données des tableaux

Utilisez les paramètres de formation avancés pour entraîner vos documents et fournir des entrées supplémentaires au moteur d\'extraction Automatisation de documents afin d\'améliorer l\'extraction des données de tableau.

Après avoir extrait le document, vous pouvez utiliser l\'option Paramètres de formation avancés sur la page de validation pour définir les valeurs suivantes :
  • Colonne principale : Définissez la colonne principale pour l\'identification des lignes en fonction de vos exigences.
  • Indicateur de fin de tableau : Ajouter une valeur d\'indicateur de fin de tableau pour que le système extraie les données jusqu\'à ce que la valeur atteigne la valeur spécifiée, à l\'exclusion de la valeur d\'indicateur de fin de tableau.
  • Étiquettes d\'en-tête : Ajuster ou remettre en correspondance les champs de tableau si nécessaire.
Remarque : Cette fonctionnalité n\'est applicable aux fournisseurs que si l\'option Améliorer la précision grâce à la validation est disponible.

Prérequis

  • L\'option Paramètres de formation avancés n\'est disponible que si l\'option Améliorer la précision grâce à la validation est activée.
  • Assurez-vous que vous disposez de l\'autorisation Entraîner des groupes pour fournir des informations sur les étiquettes d\'en-tête, l\'indicateur de fin de tableau et une colonne principale utilisée pour la détection des lignes.
  • Il ne peut y avoir qu\'une seule colonne principale.
  • L\'indicateur de fin de tableau est une région de texte identifiée par le système (SIR).

Procédure

  1. Traitez un document et accédez à la page de validation.
  2. Cliquez sur Paramètres de formation avancés.

    Option des paramètres d\'apprentissage avancés dans la page de validation
  3. Entraînez votre document pour qu\'il définisse les valeurs suivantes :
    1. Définir la colonne principale définie par l\'utilisateur pour l\'identification des lignes.

      Définition de la colonne principale à l\'aide des paramètres d\'apprentissage avancés

      Lorsque vous spécifiez cette valeur pour la première fois, la prochaine fois que vous traitez ce document ou des documents de type similaire, cette valeur est automatiquement mise à jour.

      Pour effacer la valeur mise à jour automatiquement, cliquez sur le menu déroulant et sélectionnez la valeur vide dans le menu déroulant.

    2. Spécifiez la valeur de l\'indicateur de fin de tableau.

      Spécification de l\'indicateur de fin de tableau pour l\'extraction des données à l\'exclusion du texte EoT
      Remarque : Si un tableau s\'étend sur plusieurs pages et inclut un champ de fin de tableau similaire sur chaque page, nous vous recommandons d\'ajouter un indicateur de fin de tableau. L\'ajout de l\'indicateur de fin de tableau améliore l\'extraction des données pour les tableaux, car l\'indicateur est évalué par le système sur chaque page.

      Lorsque vous spécifiez cette valeur pour la première fois, la prochaine fois que vous traitez ce document ou des documents de type similaire, cette valeur est automatiquement mise à jour même lorsque l\'indicateur est à des emplacements aléatoires sur le document.

      Si un document n\'a pas cette valeur, il sera tout de même mis à jour automatiquement. Cependant, il n\'y aura pas de Région Identifiée par le Système (SIR) correspondante sur le document car la valeur est manquante.

      Pour effacer la valeur mise à jour automatiquement, cliquez sur le bouton de fermeture à côté de la valeur dans le champ d\'indicateur de fin de tableau ou sur la case de sélection de la valeur dans le document.

    3. Cliquez sur la colonne souhaitée et spécifiez le nom de l\'en-tête requis.

      Modification de la valeur de l\'en-tête des colonnes
  4. Cliquez sur Soumettre et retraitez le document.
    Remarque : Vous devez cliquer sur Soumettre pour enregistrer et prendre en compte ces paramètres lors du retraitement du document.
    En fonction des paramètres de formation avancés spécifiés, le document est retraité et renvoyé au validateur pour valider les champs, le cas échéant, ou les données sont extraites dans le dossier Success sous la forme d\'un fichier CSV.

Colonne principale

Par exemple, après l\'extraction du document, les données de tableau à plusieurs lignes de la colonne Numéro d\'élément sont extraites dans une seule ligne, mais vous souhaitez les extraire dans des lignes séparées. Dans de tels cas, vous pouvez définir le Numéro d\'élément comme colonne principale pour améliorer l\'extraction de la table. Pour plus de détails, voir Exemple de définition de la colonne principale à l\'aide des paramètres de formation avancés.

Indicateur de fin de table

Par exemple, lorsque vous traitez un document, il extrait les données de tableau entier, alors que vous souhaitez extraire les données des lignes jusqu\'à Total à payer. Dans de tels cas, vous pouvez spécifier la valeur Indicateur de fin de tableau afin que les données du tableau jusqu\'à cette valeur (à l\'exclusion de la valeur Indicateur de fin de tableau) soient extraites et qu\'aucune autre ligne de données ne soit extraite.

Étiquette d\'en-tête

Lorsqu\'il y a une erreur d\'étiquette dans les données de tableau, par exemple l\'étiquette d\'en-tête extraite est Prix unitaire mais vous voulez que l\'étiquette d\'en-tête soit Prix. Dans de tels cas, vous pouvez modifier l\'étiquette d\'en-tête.

Un autre cas d\'utilisation est la possibilité de remapper toutes les valeurs de Unit Price ou de modifier l\'étiquette d\'en-tête en même temps que les données de la colonne. Vous pouvez utiliser le remplissage automatique pour accélérer ce re-mappage. Par exemple, après l\'extraction, la colonne Prix de l\'instance d\'apprentissage est extraite en tant que Prix étendu, mais vous souhaitez que l\'étiquette d\'en-tête soit Prix unitaire avec les données de la colonne. Dans de tels cas, vous pouvez changer l\'étiquette d\'en-tête Prix étendu par Prix unitaire et vous devez sélectionner et remapper toutes les valeurs des cellules de la colonne Prix unitaire.


Modification de l\'étiquette d\'en-tête pour obtenir l\'en-tête souhaité avec les données de la colonne
La vidéo suivante montre un exemple de définition du Numéro d\'élément comme colonne principale et d\'extraction des données dans une ligne distincte au lieu d\'une seule cellule.