Utilisation de l'action d'extraction par expression régulière dans une règle de validation

L'action Extraction par expression régulière permet aux utilisateurs d'appliquer une expression régulière (regex) personnalisée aux valeurs extraites des documents. Cette action permet aux utilisateurs de manipuler les données extraites en extrayant des sous-chaînes spécifiques basées sur le modèle d'expression régulière spécifié.

Lors du traitement d'un document et de l'extraction d'une valeur, vous pouvez appliquer l'action Extraction par expression régulière à cette valeur. Vous pouvez définir une expression régulière et l'utiliser pour identifier et extraire une partie spécifique de la valeur extraite.
Remarque : Celle-ci n'extrait que la première correspondance trouvée dans la valeur en fonction du modèle d'expression régulière spécifié.

Prérequis

  • Lorsque vous appliquez l'action d'extraction par expression régulière, le système définit une valeur de champ avec la première correspondance d'expression régulière lors de l'extraction.
  • Si l'expression régulière spécifiée ne correspond pas au champ, elle renvoie une valeur de champ vide.
  • Si vous ne disposez pas d'un package mis à jour (v.31) connecté à une instance d'apprentissage, un message d'avertissement vous indique que cette règle risque de ne pas fonctionner comme prévu.

Exemple

Cette fonctionnalité est particulièrement utile dans les cas où seule une partie des données extraites est nécessaire, notamment pour extraire un ensemble spécifique de chiffres d'une chaîne plus large, isoler une partie d'une adresse ou extraire un fragment spécifique de la description d'un tableau.

Dans l'exemple ci-dessous, si vous souhaitez extraire le code de fournisseur de la colonne Description du document, l'intégralité du texte de description de la colonne Description est extraite.

L'image suivante montre les valeurs du code de fournisseur extraites à l'aide d'un processus d'extraction par expression régulière.

Avant d'appliquer l'action d'extraction par expression régulière

Dans cet exemple, nous vous expliquons comment extraire uniquement le code de fournisseur de la colonne Description du document.

Procédure

  1. Dans l'onglet Règles au niveau du champ, cliquez sur Ajouter une règle.
  2. Spécifiez la condition n'est pas vide pour le champ Code de fournisseur.
  3. Sélectionnez le type d'action Extraction par expression régulière.
  4. Spécifiez le modèle d'expression régulière. Par exemple : Vendor Code: \d{6}
  5. Testez le modèle d'expression régulière en fournissant la valeur correspondant au modèle spécifié et cliquez sur Mettre à jour. Par exemple, Vendor Code: 381823.
    Utilisation de l'action d'extraction par expression régulière
  6. Cliquez sur Traiter pour traiter le document.
    Sur la base du modèle d'expression régulière spécifié, seule la valeur Code de fournisseur est extraite de la colonne Description.

    L'image suivante montre les valeurs du code de fournisseur après l'application de l'action Extraction par expression régulière.

    Extraction du code de fournisseur à l'aide de l'action d'extraction par expression régulière

    Vous trouverez ci-dessous des exemples de modèles d'expressions régulières que vous pouvez utiliser pour l'extraction :
    Type de date Modèle d'expression régulière Exemples
    Texte ou adresse \b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+.[A-Z|a-z]{2,}\b test@gmail.com
    \b\d{3}[-.]?\d{3}[-.]?\d{4}\b 123.456.7890 ou 123-456-7890
    Nombre ^\d{2}$ 12, 23 ou 99
    ^[0-9]+$ 123 ou 12434
    Date \b\d{1,2}[/-]\d{1,2}[/-]\d{4}\b 12/31/2022 ou 02/07/2012
    ^\d{2}/\d{2}/\d{4}$ 28/02/2222
    Remarque : Ces modèles d'expressions régulières ne sont pas fixes et peuvent varier selon votre cas d'utilisation.