Automation 360

Regeln für die Klassifizierung von Dokumenten oder Seiten einrichten

Als PDF herunterladen

Inhalte

Inhaltsverzeichnis

Regeln für die Klassifizierung von Dokumenten oder Seiten einrichten

Als PDF herunterladen

Zuletzt aktualisiert2024/10/31

Dieses Thema beschreibt die Möglichkeit, Regeln für die Klassifizierung von Dokumenten oder Seiten einzurichten.

Verstehen von Regeln und deren Anwendung

Mithilfe einer Regel wird die Kategorie bestimmt, der ein Dokument zugewiesen werden soll. Im folgenden Beispiel kann eine Regel einen bestimmten Ausdruck angeben, z. B. Anlage. Wenn die Regel auf den Text des Dokuments angewendet wird und dieser Ausdruck gefunden wird, erhält die mit der Regel verbundene Kategorie eine hohe Punktzahl, z. B. 80, was auf eine hohe Übereinstimmung hinweist.


[
{
"DocumentTypeID": 0,
"Location": 0,
"Distance": 1,
"Score": 80,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": false,
"TextRulePhrases": [
{
"Text": "Annexure",
"IsNegativePhrase": false,
"PhraseType": 1
}
}
]

Regeln sind nützlich, wenn zusätzliche Hinweise benötigt werden, um die Genauigkeit eines Klassifizierungsmodells bei der Bestimmung der relevantesten Dokumentenkategorie zu verbessern. Obwohl es technisch möglich ist, die gesamte Klassifizierung mit Regeln vorzunehmen, ist dies nicht die beste Vorgehensweise. Die Verwaltung der Regelkonfiguration stellt einen erheblichen Mehraufwand dar, insbesondere wenn es um eine große Anzahl von Kategorien geht.

Beispiel für eine Regeldatei

Eine Regeldatei ist ein json-Schema und liegt im json-Format vor, wie unten angegeben. Für die Datei <Dateiname>.json können mehrere Regeln eingerichtet werden. Damit ein Dokument im Trainingsprozess für die Klassifizierung berücksichtigt werden kann, muss es in einer bestimmten Trainingsordnerkategorie abgelegt werden, zum Beispiel C:\Invoice\Vendor1.


[
{
"DocumentTypeID": 0,
"Location": 1,
"Distance": 3,
"Score": 90,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": true,
"TextRulePhrases": [
{
"Text": "Annexure",
"IsNegativePhrase": false,
"PhraseType": 1
},
{
"Text": "Terms & Conditions",
"IsNegativePhrase": false,
"PhraseType": 1
},
{
"Text": "Payment Terms",
"IsNegativePhrase": false,
"PhraseType": 1
}
]
},
{
"DocumentTypeID": 2,
"Location": 2,
"Distance": 1,
"Score": 95,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": false,
"TextRulePhrases": [
{
"Text": "Addendum",
"IsNegativePhrase": true,
"PhraseType": 5
}
]
}
]

Konfigurierbare Eigenschaften einer Regeldatei


Konfiguration	Beschreibung
`DocumentTypeID`	Derzeit wird dieses Feld nicht unterstützt. Für jede Regel, die eingerichtet wird, kann ein statischer Text als `0` beibehalten werden.
`Location`	Diese Konfiguration gibt an, an welcher Stelle des Dokumenttextes die Regel anwendbar ist. Mögliche Werte sind 0, 1, 2 und 3. `"Location": 0` Beliebiger Ort: Es gibt keine Einschränkungen für das Auffinden des Ausdrucks, er kann sich an jeder beliebigen Stelle des Dokuments befinden. `"Location": 1` Erste Seite: Der Ausdruck muss sich auf der ersten Seite des Dokuments befinden. `"Location": 2`Innere Beschriftung: Der Ausdruck muss in der inneren Beschriftung des Dokuments enthalten sein. `"Location": 3` Letzte Seite: Der Ausdruck muss auf der letzten Seite des Dokuments zu finden sein. Wenn dem Textregelklassifikator nur einige Seiten zur Verfügung gestellt werden, wird die letzte Seite an den Klassifikator weitergegeben.
`Distance`	Diese Konfiguration gibt den Abstand zwischen den Ausdrücken an, wenn die Suche im Text des Dokuments durchgeführt wird. Die Regel stimmt nur dann überein, wenn der Abstand den Werten in dieser Konfiguration entspricht. Mögliche Werte sind 0, 1, 2 und 3. `"Distance": 0` Dieselbe Textzeile: Alle Ausdrücke müssen in derselben Textzeile stehen. `"Distance": 1` Nächste Textzeile: Alle Ausdrücke müssen in derselben Textzeile stehen oder dürfen maximal einen Zeilenumbruch dazwischen haben. `"Distance": 2` Derselbe Absatz: Alle Ausdrücke müssen im selben Absatz enthalten sein. `"Distance": 3` Dieselbe Seite: Alle Ausdrücke müssen auf derselben Seite stehen.
`Score`	Nachdem ein Regelabgleich durchgeführt wurde, wird der mit dieser Regel verbundenen Kategorie (oder dem Trainingsordner) eine Punktzahl zugewiesen. Der Punktwert kann von -100 bis 100 reichen.
`KBGuid`	Derzeit wird dieses Feld nicht unterstützt. Für jede Regel, die eingerichtet wird, kann ein statischer Text als `00000000-0000-0000-0000-000000000000` beibehalten werden.
`IsEnabled`	So kann die Regel mit der Einstellung von `true` bzw. `false` aktiviert und deaktiviert werden.
`ExpectExactSequence`	Bei der Suche nach mehreren Ausdrücken in einer Regel gibt diese Konfiguration eine exakte sequenzbasierte Übereinstimmung an. Wenn im Beispiel beispielsweise `true` eingestellt ist, müssen `"Text": "Annexure"`, `"Text": "Terms & Conditions"` und `"Payment Terms"` in dieser Reihenfolge im Text des Dokuments vorhanden sein, damit die Regel übereinstimmt. Es ist möglich, dass zwischen diesen Ausdrücken ein anderer Text steht, aber es ist wichtig, dass die Reihenfolge dieser Ausdrücke stimmt, und zwar folgt einer auf den anderen. Anmerkung: Sofern nicht klar ist, dass die erwartete Sequenz einem bestimmten Muster folgt, wird empfohlen, diese Konfiguration als `false` beizubehalten.
`TextRulePhrases`	`TextRulePhrases` enthält alle Ausdruckstextwerte, die mit dem Text des Dokuments abgeglichen werden müssen. Der Parameter kann einen oder mehrere Ausdruckstextwerte enthalten.
`Text`	`Text`: gibt den Ausdruckstextwert an, der mit dem Text des Dokuments abgeglichen werden muss.
`IsNegativePhrase`	`IsNegativePhrase`: gibt an, ob es sich bei der Suchbedingung um einen negativen Ausdruck handelt. Wenn im Beispiel `true` eingestellt ist, bedeutet dies, dass `"Text": "Addendum"` nicht im Text des Dokuments vorhanden ist, damit die Regel übereinstimmt.
`PhraseType`	`PhraseType`: gibt die Art der Übereinstimmung an, die verwendet wird, wenn der Ausdruckstextwert mit dem Text des Dokuments abgeglichen wird. `"PhraseType": 1` Fuzzy Matching lässt eine gewisse Toleranz bei der Wortübereinstimmung zu. Ein Ausdruck ist übereinstimmend, wenn die Levenshtein-Distanz >= 80 % beträgt. Bei einem Wort mit 5 Zeichen bedeutet dies, dass ein Zeichen anders sein kann. `"PhraseType": 5` Exakte Übereinstimmung erfordert eine exakte Übereinstimmung des Ausdrucks, ignoriert aber weiterhin die Groß- und Kleinschreibung und beinhaltet auch eine gewisse Filterung von Interpunktionszeichen. `"PhraseType": 6` Regulärer Ausdruck kann definiert und dann im Originaltext gesucht werden. Bei dieser Art des Abgleichs erfolgt keine Textvorverarbeitung oder Filterung von Interpunktionszeichen.

Zurück

Kein vorheriges Thema

Weiter

Kein nächstes Thema

Zurück

Kein vorheriges Thema

Weiter

Kein nächstes Thema