Établir des règles de classification des documents ou des pages

Cette rubrique explique comment définir des règles de classification des documents ou des pages.

Comprendre les règles et leur utilisation

Une règle permet de déterminer la catégorie à laquelle un document doit être affecté. Dans l'exemple ci-dessous, une règle peut spécifier une phrase particulière comme Annexure et si cette phrase est trouvée lorsque la règle est appliquée au texte du document, la catégorie associée à la règle se verra attribuer un score élevé (80, par exemple) ce qui indique une correspondance forte.

[
{
"DocumentTypeID": 0,
"Location": 0,
"Distance": 1,
"Score": 80,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": false,
"TextRulePhrases": [
{
"Text": "Annexure",
"IsNegativePhrase": false,
"PhraseType": 1
}
}
]

Les règles sont utiles lorsqu'une orientation supplémentaire est nécessaire pour améliorer la précision d'un modèle de classification dans la détermination de la catégorie de document la plus pertinente. Bien qu'il soit techniquement possible d'effectuer toutes les classifications à l'aide de règles, il ne s'agit pas de la meilleure pratique, car la gestion de la configuration des règles implique des frais importants dans le temps, en particulier lorsqu'il s'agit de traiter un grand nombre de catégories.

Exemple de fichier de règles

Un fichier de règles est un schéma json au format json comme spécifié ci-dessous. Le fichier <nom de fichier>.json peut contenir plusieurs règles. Pour qu'un document soit pris en compte lors du processus d'entraînement pour la classification, il doit être placé dans une catégorie de dossier d'entraînement désignée (C:\NInvoice\NVendor1, par exemple).

[
{
"DocumentTypeID": 0,
"Location": 1,
"Distance": 3,
"Score": 90,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": true,
"TextRulePhrases": [
{
"Text": "Annexure",
"IsNegativePhrase": false,
"PhraseType": 1
},
{
"Text": "Terms & Conditions",
"IsNegativePhrase": false,
"PhraseType": 1
},
{
"Text": "Payment Terms",
"IsNegativePhrase": false,
"PhraseType": 1
}
]
},
{
"DocumentTypeID": 2,
"Location": 2,
"Distance": 1,
"Score": 95,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": false,
"TextRulePhrases": [
{
"Text": "Addendum",
"IsNegativePhrase": true,
"PhraseType": 5
}
]
}
]

Propriétés configurables d'un fichier de règles

Configuration Description
DocumentTypeID Actuellement, ce champ n'est pas pris en charge. Pour une règle en cours d'élaboration, il est possible de conserver un texte statique sous la forme 0.
Location
Cette configuration spécifie à quel endroit du texte du document la règle s'applique. Les valeurs peuvent être 0, 1, 2 ou 3.
  • "Location": 0 N'importe quel emplacement : la phrase peut se trouver n'importe où dans le document et ne fait l'objet d'aucune restriction

  • "Location": 1 Première page : la phrase doit se trouver sur la première page du document.

  • "Location": 2 À l'intérieur de la légende : la phrase doit se trouver à l'intérieur du texte de légende du document.
  • "Location": 3 Dernière page : la phrase doit se trouver sur la dernière page du document. Si seules quelques pages sont fournies au classificateur de règles de texte, c'est la dernière page qui lui sera transmise.
Distance
Cette configuration spécifie la distance entre les phrases lorsque la recherche est effectuée sur le texte du document. La règle ne s'applique que si la distance est celle spécifiée dans cette configuration. Les valeurs peuvent être 0, 1, 2 ou 3.
  • "Distance": 0 Même ligne de texte : toutes les phrases doivent se trouver sur la même ligne de texte.
  • "Distance": 1 Ligne de texte suivante : toutes les phrases doivent se trouver sur la même ligne de texte ou être séparées par un saut de ligne au maximum.
  • "Distance": 2 Même paragraphe : toutes les phrases doivent se trouver dans le même paragraphe.
  • "Distance": 3 Même page : toutes les phrases doivent se trouver sur la même page.
Score Lorsqu'une correspondance de règle est effectuée, une note est attribuée à la catégorie (ou au dossier d'entraînement) associée à cette règle. La valeur de la note peut varier de -100 à 100.
KBGuid Actuellement, ce champ n'est pas pris en charge. Pour une règle en cours d'élaboration, il est possible de conserver un texte statique sous la forme 00000000-0000-0000-0000-000000000000
IsEnabled Cela permet d'activer ou de désactiver la règle en définissant respectivementtrue OU false.
ExpectExactSequence
Lors de la recherche de plusieurs phrases dans une règle, cette configuration spécifie une correspondance basée sur la séquence exacte. Par exemple, si true est défini dans l'exemple,"Text": "Annexure", "Text": "Terms & Conditions" et "Payment Terms" doivent être présents dans le texte du document dans cet ordre pour que la règle corresponde. Il est possible qu'un autre texte soit présent entre ces phrases, mais il est important que l'ordre de ces phrases soit consécutif, l'une après l'autre.
Remarque : à moins qu'il apparaisse très clairement que la séquence attendue suivra un modèle spécifique, il est recommandé de conserver la configuration false

TextRulePhrases

TextRulePhrases contient toutes les valeurs du texte de la phrase qui doivent être recherchées dans le texte du document. Il peut avoir une ou plusieurs valeurs de texte de phrase.

Text Text spécifie les valeurs du texte de la phrase qui doivent être recherchées dans le texte du document
IsNegativePhrase IsNegativePhrase spécifie si la condition de recherche est un type de recherche de phrase négative. Dans l'exemple, si la valeur true est attribuée, cela signifie que "Text": "Addendum" n'est pas présent dans le texte du document pour que la règle corresponde.
PhraseType PhraseType spécifie le type de correspondance utilisé lorsque la valeur du texte de la phrase est comparée au texte du document

"PhraseType": 1 Correspondance partielle permet d'utiliser une certaine tolérance dans la correspondance des mots. Une phrase est trouvée si la distance de Levenshtein est >= 80 %. Pour un mot de 5 caractères, cela signifie qu'un seul caractère peut être différent.

"PhraseType": 5 Correspondance exacte exige une correspondance exacte de la phrase, mais ne tient pas compte de la casse et inclut également un certain filtrage des ponctuations.

"PhraseType": 6 Expression régulière permet de définir une expression régulière qui est ensuite recherchée dans le texte original. Aucun prétraitement du texte ou filtrage des caractères de ponctuation n'est effectué pour ce type de correspondance.