Verwenden der Aktion „Klassifizierer trainieren“

Verwenden Sie die Aktion Klassifizierer trainieren, um eine Modelldatei zu erstellen, die von der Aktion Klassifizieren verwendet wird, um die Dokumente in die für die Eingabe erforderlichen Kategorien zu sortieren.

Vorbereitungen

Sammeln Sie vor der Erstellung des Bots Beispieldokumente und kategorisieren Sie sie in Ordnern. Stellen Sie sicher, dass die Beispieldokumente die folgenden Anforderungen erfüllen:

  • Müssen mindestens zwei Kategorien haben.
  • Es müssen mindestens 15 Seiten pro Kategorie (20 Seiten empfohlen) vorhanden sein.
  • PDF-Eingabedokumente mit mehreren Seiten müssen in einseitige PDF-Dokumente unterteilt werden. Einzelheiten finden Sie unter Verwendung der Aktion „Dokument unterteilen“.

    Wenn Sie zum Beispiel ein PDF-Dokument mit drei Seiten haben, unterteilen Sie es in drei einseitige PDF-Dokumente.

Wenn diese Mindestanforderungen nicht erfüllt sind, wird während der Bot-Laufzeit eine Fehlermeldung angezeigt.

Jeder Ordner enthält eine Auswahl von Dokumenten, die ein Beispiel für die Dokumente sind, die die zugehörige Lerninstanz verarbeiten wird. Die Aktion Klassifizierer trainieren liest die Dateien in den Ordnern und erstellt ein Modell auf der Grundlage der in den einzelnen Ordnern gespeicherten Dokumente.
Anmerkung: Da ABBYY FineReader Engine OCR nun von Version 12.4 auf Version 12.2 herabgestuft wurde, können ältere .icmf-Dateien nicht verwendet werden, um Modelle in Automation 360 v.24 des Dokumentenklassifizierer-Pakets neu zu trainieren. Wenn Sie weitere Kategorien oder weitere Dateien zu Ihren bestehenden Kategorien hinzufügen möchten, müssen Sie ein neues Modell erstellen.

Prozedur

  1. Doppelklicken Sie auf oder ziehen Sie in der Palette Aktionen die Aktion Klassifizierer trainieren im Paket Dokumentenklassifizierer.
  2. Klicken Sie auf Trainieren, um mit der Erstellung einer neuen Modelldatei fortzufahren.
  3. Optional: Wenn Sie über eine bestehende Modelldatei verfügen, klicken Sie auf Neu trainieren.
    1. Verwenden Sie das Feld Trainingsordnerpfad, um einen vorhandenen Ordnerpfad auf der Registerkarte Desktopordner auszuwählen.
      Alternativ können Sie auch auf die Registerkarte Variable klicken, um einen vorhandenen Trainingsordnerpfad manuell einzugeben.
    2. Verwenden Sie das Feld Vorhandener Zip-Pfad, um den Dateipfad des .zip-Ordners auf der Registerkarte Control Room-Datei oder Desktop-Datei auszuwählen.
      Alternativ können Sie auch auf die Registerkarte Variable klicken, um den Pfad für den .zip-Ordner manuell einzugeben.
      Anmerkung: Wenn Sie Dokumente trainieren, wird ein .zip-Ordner erstellt, der .icmf-, .data- und .properties-Dateien enthält. Stellen Sie sicher, dass Sie den gesamten .zip-Ordner hochladen, um eine bestehende Modelldatei neu zu trainieren.
  4. Wählen Sie den Pfad des Eingabeordners aus Desktop-Ordner oder Variable.

    Der Pfad des Eingabeordners muss Unterverzeichnisse mit den Namen enthalten, die der Kategorie der Dokumente entsprechen, auf die Sie den Klassifizierer trainieren möchten. Wenn es sich beispielsweise um kaufmännische Dokumente handelt, muss der Pfad des Eingabeordners Unterordner wie Rechnung und Bestellung enthalten.

  5. Optional: Wenn Sie Desktop-Datei wählen, klicken Sie auf Durchsuchen, um den Standard-Dateipfad zu ändern.
  6. Geben Sie im Feld Modellname einen Namen für die Modelldatei ein.
  7. Verwenden Sie das Feld Modellausgabepfad, um das Verzeichnis für die Ausgabemodelldatei auszuwählen.
  8. Optional: Konfigurieren Sie die folgenden ERWEITERTE EINSTELLUNGEN:
    1. Trainingsoptimierung: Verwenden Sie das Dropdown-Menü, um die Art der Trainingsoptimierung auszuwählen.
      • Präzision: Wählen Sie diese Option, wenn Sie möchten, dass Ihr Trainingsmodell präzise ist, aber einige Dokumente nicht berücksichtigt werden können.
      • Rückruf: Wählen Sie diese Option, wenn Sie möchten, dass das Trainingsmodell alle relevanten Fälle innerhalb eines Datensatzes findet.
      • F1 Score: ist standardmäßig ausgewählt und die empfohlene Einstellung, da sie die Trainingsoptimierung von Präzision und Rückruf kombiniert.

      F1 Score ist standardmäßig ausgewählt. Präzision und Rückruf.

    2. Klassifizierungstyp: Verwenden Sie das Dropdown-Menü, um die Funktionen auszuwählen, die Sie einfügen möchten, z. B. Text, Bild oder beides.

      Text und Bild ist standardmäßig ausgewählt. Wenn Sie Text oder Text und Bild wählen, wird eine Liste der unterstützten Sprachen im Dropdown-Menü Erkennungssprache angezeigt.

    3. OCR-Einstellungen: Die Optionen Alle Textblöcke extrahieren und Text aus Bildern extrahieren sind standardmäßig aktiviert.

      Wenn die OCR-Einstellungen standardmäßig aktiviert sind, wird mehr Zeit von OCR für das Extrahieren des Inhalts verbraucht. Dadurch wird sichergestellt, dass auch relativ minderwertige Dokumente auf der Grundlage der Eingaben von OCR bearbeitet werden.

  9. Klicken Sie auf Speichern und Ausführen.
    Wenn Sie ein existierendes Modell neu trainieren, erfassen Sie die bereits trainierten Daten und kombinieren sie mit neuen Daten, die aus dem Text oder den Layoutmerkmalen der Eingabedokumente generiert wurden. Danach müssen Sie das Modell für maschinelles Lernen von Grund auf neu trainieren. Mit dieser Methode können Sie die Zeit einsparen, die für die Neuerstellung von Text- oder Layoutdaten für bereits trainierte Dokumente benötigt wird. Der rechenintensive Teil ist jedoch das Trainieren des maschinellen Lernmodells, sodass die Methode des erneuten Trainierens zeitaufwändig sein dürfte. Für den Fall, dass dies zu einer Einschränkung wird, empfehlen wir, weitere Modelldateien zu erstellen und diese für zusätzliches Training und zusätzliche Klassifizierung zu verwenden.
    Das Modell wird als .icmf-Datei in dem im Feld Modellausgabepfad angegebenen Verzeichnis erstellt.

Nächste Maßnahme

Nach der Erstellung des Modells erstellen Sie einen Bot zur Klassifizierung der Eingabedokumente. Einzelheiten finden Sie unter Verwenden der Aktion „Klassifizieren“.