Verbesserung der Extraktion von Tabellendaten

Verwenden Sie die erweiterten Trainingseinstellungen, um Ihre Dokumente zu trainieren und zusätzliche Eingaben für die Document Automation-Extraktionsmaschine bereitzustellen und damit die Extraktion von Tabellendaten zu verbessern.

Nach dem Extrahieren des Dokuments können Sie die Option Erweiterte Trainingseinstellungen auf der Validierungsseite verwenden, um die folgenden Werte einzustellen:
  • Primärspalte: Legen Sie die Primärspalte für die Zeilenidentifikation entsprechend Ihren Anforderungen fest.
  • Indikator für Ende der Tabelle: Fügen Sie einen Tabellenende-Indikatorwert hinzu, damit das System Daten extrahiert, bis der Wert den angegebenen Wert erreicht hat, ausschließlich des Tabellenende-Indikatorwerts.
  • Headerbezeichnungen: die Tabellenfelder nach Bedarf anpassen oder neu zuordnen.
Anmerkung: Diese Funktion ist für Anbieter nur anwendbar, wenn die Option Genauigkeit durch Validierung verbessern verfügbar ist.

Vorbereitungen

  • Die Option Erweiterte Trainingseinstellungen ist nur verfügbar, wenn die Option Genauigkeit durch Validierung verbessern aktiviert ist.
  • Vergewissern Sie sich, dass Sie über die Berechtigung Gruppen trainieren verfügen, um Informationen über Headerbezeichnungen, den Tabellenende-Indikator und eine Primärspalte für die Zeilenerkennung bereitzustellen.
  • Es kann nur eine einzige Primärspalte geben.
  • Der Tabellenende-Indikator ist ein Text für eine vom System identifizierte Region (SIR).

Prozedur

  1. Verarbeiten Sie ein Dokument und navigieren Sie zur Validierungsseite.
  2. Klicken Sie auf Erweiterte Trainingseinstellungen.

    Option „Erweiterte Trainingseinstellungen“ auf der Validierungsseite
  3. Trainieren Sie Ihr Dokument, um die folgenden Werte einzustellen:
    1. Legen Sie die benutzerdefinierte Primärspalte für die Zeilenidentifikation fest.

      Einstellen der Primärspalte mit erweiterten Trainingseinstellungen

      Wenn Sie diesen Wert zum ersten Mal angeben, wird er bei der nächsten Bearbeitung dieses Dokuments oder von Dokumenten ähnlicher Art automatisch aktualisiert.

      Um den automatisch aktualisierten Wert zu löschen, klicken Sie auf das Dropdown-Menü und wählen Sie den leeren Wert aus dem Dropdown-Menü.

    2. Geben Sie den Wert des Tabellenende-Indikators an.

      Angabe des Tabellenende-Indikators für die Extraktion von Daten ohne den EoT-Text

      Wenn Sie diesen Wert zum ersten Mal angeben, wird er bei der nächsten Bearbeitung dieses Dokuments oder ähnlicher Dokumente automatisch aktualisiert, auch wenn sich der Indikator an einer beliebigen Stelle des Dokuments befindet.

      Wenn ein Dokument diesen Wert nicht hat, wird es trotzdem automatisch aktualisiert. Da der Wert fehlt, gibt es jedoch keine entsprechende vom System identifizierte Region (SIR) in dem Dokument.

      Um den automatisch aktualisierten Wert zu löschen, klicken Sie auf die Schaltfläche „Schließen“ neben dem Wert im Feld „Tabellenende“ oder auf das Auswahlfeld des Wertes auf dem Dokument.

    3. Klicken Sie auf die gewünschte Spalte und geben Sie den gewünschten Headernamen an.

      Ändern des Headerwertes der Spalten
  4. Klicken Sie auf Senden und verarbeiten Sie das Dokument erneut.
    Anmerkung: Sie müssen auf Senden klicken, um diese Einstellungen zu speichern, sodass sie bei der erneuten Verarbeitung des Dokuments übernommen werden.
    Je nach angegebenen erweiterten Trainingseinstellungen wird das Dokument erneut verarbeitet und entweder erneut an den Validator gesendet, um Felder zu validieren, sofern vorhanden, oder die Daten werden als CSV-Datei in den Ordner Erfolg extrahiert.

Primärspalte

Zum Beispiel werden nach dem Extrahieren des Dokuments die Daten aus mehrzeiligen Tabellen aus der Spalte Elementnummer in eine einzige Zeile extrahiert, aber Sie möchten sie in separate Zeilen extrahieren. In solchen Fällen können Sie die Elementnummer als Primärspalte festlegen, um die Tabellenextraktion zu verbessern. Weitere Einzelheiten finden Sie im Beispiel für das Einstellen der Primärspalte mit erweiterten Trainingseinstellungen.

Tabellenende-Indikator

Wenn Sie beispielsweise ein Dokument verarbeiten, werden seine gesamten Tabellendaten extrahiert, obwohl Sie nur die Zeilendaten bis Gesamtbetrag extrahieren möchten. In solchen Fällen können Sie den Wert für den Tabellenende-Indikator angeben, sodass die Tabellendaten bis zu diesem Wert (ohne den Tabellenende-Indikator) und keine weiteren Zeilendaten extrahiert werden.

Headerbezeichnung

Wenn in den Tabellendaten Bezeichnungen nicht übereinstimmen, z. B. die extrahierte Headerbezeichnung Stückpreis lautet, Sie aber die Headerbezeichnung Preis wünschen. In solchen Fällen können Sie die Headerbezeichnung ändern.

Ein weiterer Anwendungsfall ist, dass Sie alle Werte von Stückpreis oder die Headerbezeichnung zusammen mit den Spaltendaten neu zuordnen bzw. ändern können. Sie können automatisches Ausfüllen verwenden, um diese Neuzuordnung zu beschleunigen. Zum Beispiel wird nach der Extraktion die Spalte Preis aus der Lerninstanz als Erweiterter Preis extrahiert, aber Sie wünschen die Headerbezeichnung als Stückpreis mit den entsprechenden Spaltendaten. In solchen Fällen können Sie die Headerbezeichnung Erweiterter Preis zu Stückpreis ändern und Sie müssen alle Zellenwerte der Spalte Stückpreis auswählen und neu zuordnen.


Ändern der Headerbezeichnung, um die gewünschte Headerbezeichnung zusammen mit Spaltendaten zu erhalten
Das folgende Video zeigt ein Beispiel für das Einstellen der Elementnummer als Primärspalte und das Extrahieren der Daten in eine separate Zeile anstelle einer einzelnen Zelle.