Regeln für die Klassifizierung von Dokumenten oder Seiten einrichten

Dieses Thema beschreibt die Möglichkeit, Regeln für die Klassifizierung von Dokumenten oder Seiten einzurichten.

Verstehen von Regeln und deren Anwendung

Mithilfe einer Regel wird die Kategorie bestimmt, der ein Dokument zugewiesen werden soll. Im folgenden Beispiel kann eine Regel einen bestimmten Ausdruck angeben, z. B. Anlage. Wenn die Regel auf den Text des Dokuments angewendet wird und dieser Ausdruck gefunden wird, erhält die mit der Regel verbundene Kategorie eine hohe Punktzahl, z. B. 80, was auf eine hohe Übereinstimmung hinweist.

[
{
"DocumentTypeID": 0,
"Location": 0,
"Distance": 1,
"Score": 80,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": false,
"TextRulePhrases": [
{
"Text": "Annexure",
"IsNegativePhrase": false,
"PhraseType": 1
}
}
]

Regeln sind nützlich, wenn zusätzliche Hinweise benötigt werden, um die Genauigkeit eines Klassifizierungsmodells bei der Bestimmung der relevantesten Dokumentenkategorie zu verbessern. Obwohl es technisch möglich ist, die gesamte Klassifizierung mit Regeln vorzunehmen, ist dies nicht die beste Vorgehensweise. Die Verwaltung der Regelkonfiguration stellt einen erheblichen Mehraufwand dar, insbesondere wenn es um eine große Anzahl von Kategorien geht.

Beispiel für eine Regeldatei

Eine Regeldatei ist ein json-Schema und liegt im json-Format vor, wie unten angegeben. Für die Datei <Dateiname>.json können mehrere Regeln eingerichtet werden. Damit ein Dokument im Trainingsprozess für die Klassifizierung berücksichtigt werden kann, muss es in einer bestimmten Trainingsordnerkategorie abgelegt werden, zum Beispiel C:\Invoice\Vendor1.

[
{
"DocumentTypeID": 0,
"Location": 1,
"Distance": 3,
"Score": 90,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": true,
"TextRulePhrases": [
{
"Text": "Annexure",
"IsNegativePhrase": false,
"PhraseType": 1
},
{
"Text": "Terms & Conditions",
"IsNegativePhrase": false,
"PhraseType": 1
},
{
"Text": "Payment Terms",
"IsNegativePhrase": false,
"PhraseType": 1
}
]
},
{
"DocumentTypeID": 2,
"Location": 2,
"Distance": 1,
"Score": 95,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": false,
"TextRulePhrases": [
{
"Text": "Addendum",
"IsNegativePhrase": true,
"PhraseType": 5
}
]
}
]

Konfigurierbare Eigenschaften einer Regeldatei

Konfiguration Beschreibung
DocumentTypeID Derzeit wird dieses Feld nicht unterstützt. Für jede Regel, die eingerichtet wird, kann ein statischer Text als 0 beibehalten werden.
Location
Diese Konfiguration gibt an, an welcher Stelle des Dokumenttextes die Regel anwendbar ist. Mögliche Werte sind 0, 1, 2 und 3.
  • "Location": 0 Beliebiger Ort: Es gibt keine Einschränkungen für das Auffinden des Ausdrucks, er kann sich an jeder beliebigen Stelle des Dokuments befinden.

  • "Location": 1 Erste Seite: Der Ausdruck muss sich auf der ersten Seite des Dokuments befinden.

  • "Location": 2Innere Beschriftung: Der Ausdruck muss in der inneren Beschriftung des Dokuments enthalten sein.
  • "Location": 3 Letzte Seite: Der Ausdruck muss auf der letzten Seite des Dokuments zu finden sein. Wenn dem Textregelklassifikator nur einige Seiten zur Verfügung gestellt werden, wird die letzte Seite an den Klassifikator weitergegeben.
Distance
Diese Konfiguration gibt den Abstand zwischen den Ausdrücken an, wenn die Suche im Text des Dokuments durchgeführt wird. Die Regel stimmt nur dann überein, wenn der Abstand den Werten in dieser Konfiguration entspricht. Mögliche Werte sind 0, 1, 2 und 3.
  • "Distance": 0 Dieselbe Textzeile: Alle Ausdrücke müssen in derselben Textzeile stehen.
  • "Distance": 1 Nächste Textzeile: Alle Ausdrücke müssen in derselben Textzeile stehen oder dürfen maximal einen Zeilenumbruch dazwischen haben.
  • "Distance": 2 Derselbe Absatz: Alle Ausdrücke müssen im selben Absatz enthalten sein.
  • "Distance": 3 Dieselbe Seite: Alle Ausdrücke müssen auf derselben Seite stehen.
Score Nachdem ein Regelabgleich durchgeführt wurde, wird der mit dieser Regel verbundenen Kategorie (oder dem Trainingsordner) eine Punktzahl zugewiesen. Der Punktwert kann von -100 bis 100 reichen.
KBGuid Derzeit wird dieses Feld nicht unterstützt. Für jede Regel, die eingerichtet wird, kann ein statischer Text als 00000000-0000-0000-0000-000000000000 beibehalten werden.
IsEnabled So kann die Regel mit der Einstellung von true bzw. false aktiviert und deaktiviert werden.
ExpectExactSequence
Bei der Suche nach mehreren Ausdrücken in einer Regel gibt diese Konfiguration eine exakte sequenzbasierte Übereinstimmung an. Wenn im Beispiel beispielsweise true eingestellt ist, müssen "Text": "Annexure", "Text": "Terms & Conditions" und "Payment Terms" in dieser Reihenfolge im Text des Dokuments vorhanden sein, damit die Regel übereinstimmt. Es ist möglich, dass zwischen diesen Ausdrücken ein anderer Text steht, aber es ist wichtig, dass die Reihenfolge dieser Ausdrücke stimmt, und zwar folgt einer auf den anderen.
Anmerkung: Sofern nicht klar ist, dass die erwartete Sequenz einem bestimmten Muster folgt, wird empfohlen, diese Konfiguration als false beizubehalten.

TextRulePhrases

TextRulePhrases enthält alle Ausdruckstextwerte, die mit dem Text des Dokuments abgeglichen werden müssen. Der Parameter kann einen oder mehrere Ausdruckstextwerte enthalten.

Text Text: gibt den Ausdruckstextwert an, der mit dem Text des Dokuments abgeglichen werden muss.
IsNegativePhrase IsNegativePhrase: gibt an, ob es sich bei der Suchbedingung um einen negativen Ausdruck handelt. Wenn im Beispiel true eingestellt ist, bedeutet dies, dass "Text": "Addendum" nicht im Text des Dokuments vorhanden ist, damit die Regel übereinstimmt.
PhraseType PhraseType: gibt die Art der Übereinstimmung an, die verwendet wird, wenn der Ausdruckstextwert mit dem Text des Dokuments abgeglichen wird.

"PhraseType": 1 Fuzzy Matching lässt eine gewisse Toleranz bei der Wortübereinstimmung zu. Ein Ausdruck ist übereinstimmend, wenn die Levenshtein-Distanz >= 80 % beträgt. Bei einem Wort mit 5 Zeichen bedeutet dies, dass ein Zeichen anders sein kann.

"PhraseType": 5 Exakte Übereinstimmung erfordert eine exakte Übereinstimmung des Ausdrucks, ignoriert aber weiterhin die Groß- und Kleinschreibung und beinhaltet auch eine gewisse Filterung von Interpunktionszeichen.

"PhraseType": 6 Regulärer Ausdruck kann definiert und dann im Originaltext gesucht werden. Bei dieser Art des Abgleichs erfolgt keine Textvorverarbeitung oder Filterung von Interpunktionszeichen.