Verbesserung der Extraktion von Tabellendaten

Verwenden Sie die erweiterten Trainingseinstellungen, um Ihre Dokumente zu trainieren und zusätzliche Eingaben für die Document Automation-Extraktionsmaschine bereitzustellen und damit die Extraktion von Tabellendaten zu verbessern.

Nach dem Extrahieren des Dokuments können Sie die Option Erweiterte Trainingseinstellungen auf der Validierungsseite verwenden, um die folgenden Werte einzustellen:
  • Primärspalte: Legen Sie die Primärspalte für die Zeilenidentifikation entsprechend Ihren Anforderungen fest.
  • Indikator für Ende der Tabelle: Fügen Sie einen Tabellenende-Indikatorwert hinzu, damit das System Daten extrahiert, bis der Wert den angegebenen Wert erreicht hat, ausschließlich des Tabellenende-Indikatorwerts.
  • Headerbezeichnungen: die Tabellenfelder nach Bedarf anpassen oder neu zuordnen.
Anmerkung: Diese Funktion ist für Anbieter nur anwendbar, wenn die Option Genauigkeit durch Validierung verbessern verfügbar ist.

Vorbereitungen

  • Die Option Erweiterte Trainingseinstellungen ist nur verfügbar, wenn die Option Genauigkeit durch Validierung verbessern aktiviert ist.
  • Vergewissern Sie sich, dass Sie über die Berechtigung Gruppen trainieren verfügen, um Informationen über Headerbezeichnungen, den Tabellenende-Indikator und eine Primärspalte für die Zeilenerkennung bereitzustellen.
  • Es kann nur eine einzige Primärspalte geben.
  • Der Tabellenende-Indikator ist ein Text für eine vom System identifizierte Region (SIR).

Prozedur

  1. Verarbeiten Sie ein Dokument und navigieren Sie zur Validierungsseite.
  2. Klicken Sie auf Erweiterte Trainingseinstellungen.

    Option „Erweiterte Trainingseinstellungen“ auf der Validierungsseite
  3. Trainieren Sie Ihr Dokument, um die folgenden Werte einzustellen:
    1. Legen Sie die benutzerdefinierte Primärspalte für die Zeilenidentifikation fest.

      Einstellen der Primärspalte mit erweiterten Trainingseinstellungen

      Wenn Sie diesen Wert zum ersten Mal angeben, wird dieser Wert beim nächsten Mal, wenn Sie dieses Dokument oder Dokumente ähnlichen Typs erneut verarbeiten, automatisch aktualisiert.

      Um den automatisch aktualisierten Wert zu löschen, klicken Sie auf das Dropdown-Menü und wählen Sie den leeren Wert aus dem Dropdown-Menü.

    2. Geben Sie den Wert des Tabellenende-Indikators an.

      Angabe des Tabellenende-Indikators für die Extraktion von Daten ohne den EoT-Text
      Anmerkung: Wenn eine Tabelle sich über mehrere Seiten erstreckt und auf jeder Seite ein ähnliches Tabellenende-Feld enthält, empfehlen wir, einen Tabellenende-Indikator hinzuzufügen. Das Hinzufügen des Tabellenende-Indikatoren verbessert die Datenextraktion für Tabellen, da der Indikator vom System auf jeder Seite ausgewertet wird.

      Wenn Sie diesen Wert zum ersten Mal angeben, wird dieser Wert beim nächsten Mal, wenn Sie dieses Dokument oder Dokumente ähnlichen Typs erneut verarbeiten, automatisch aktualisiert, selbst wenn der Indikator an zufälligen Stellen im Dokument ist.

      Wenn ein Dokument diesen Wert nicht hat, wird es trotzdem automatisch aktualisiert. Es wird jedoch keine entsprechende Systemidentifizierte Region (SIR) auf dem Dokument geben, da der Wert fehlt.

      Um den automatisch aktualisierten Wert zu löschen, klicken Sie auf die Schaltfläche „Schließen“ neben dem Wert im Feld „Tabellenende“ oder im Auswahlfeld des Wertes im Dokument.

    3. Klicken Sie auf die gewünschte Spalte und geben Sie den gewünschten Headernamen an.

      Ändern des Headerwertes der Spalten
  4. Klicken Sie auf Senden und verarbeiten Sie das Dokument erneut.
    Anmerkung: Sie müssen auf Senden klicken, um diese Einstellungen zu speichern, sodass sie bei der erneuten Verarbeitung des Dokuments übernommen werden.
    Je nach angegebenen erweiterten Trainingseinstellungen wird das Dokument erneut verarbeitet und entweder erneut an den Validator gesendet, um Felder zu validieren, sofern vorhanden, oder die Daten werden als CSV-Datei in den Ordner Erfolg extrahiert.

Primärspalte

Zum Beispiel werden nach dem Extrahieren des Dokuments die Daten aus mehrzeiligen Tabellen aus der Spalte Elementnummer in eine einzige Zeile extrahiert, aber Sie möchten sie in separate Zeilen extrahieren. In solchen Fällen können Sie die Elementnummer als Primärspalte festlegen, um die Tabellenextraktion zu verbessern. Weitere Einzelheiten finden Sie im Beispiel für das Einstellen der Primärspalte mit erweiterten Trainingseinstellungen.

Tabellenende-Indikator

Wenn Sie beispielsweise ein Dokument verarbeiten, werden seine gesamten Tabellendaten extrahiert, obwohl Sie nur die Zeilendaten bis Gesamtbetrag extrahieren möchten. In solchen Fällen können Sie den Wert für den Tabellenende-Indikator angeben, sodass die Tabellendaten bis zu diesem Wert (ohne den Tabellenende-Indikator) und keine weiteren Zeilendaten extrahiert werden.

Headerbezeichnung

Wenn in den Tabellendaten Bezeichnungen nicht übereinstimmen, z. B. die extrahierte Headerbezeichnung Stückpreis lautet, Sie aber die Headerbezeichnung Preis wünschen. In solchen Fällen können Sie die Headerbezeichnung ändern.

Ein weiterer Anwendungsfall ist, dass Sie alle Werte von Unit Price neu zuordnen oder die Headerbezeichnung zusammen mit den Spaltendaten ändern können. Sie können die automatische Ausfüllfunktion verwenden, um diese Neuzuordnung zu beschleunigen. Zum Beispiel wird nach der Extraktion die Spalte Preis aus der Lerninstanz als Erweiterter Preis extrahiert, aber Sie wünschen die Headerbezeichnung als Stückpreis mit den entsprechenden Spaltendaten. In solchen Fällen können Sie die Headerbezeichnung Erweiterter Preis zu Stückpreis ändern, und Sie müssen alle Zellwerte der Spalte Stückpreis auswählen und neu zuordnen.


Ändern der Headerbezeichnung, um die gewünschte Headerbezeichnung zusammen mit Spaltendaten zu erhalten
Das folgende Video zeigt ein Beispiel für das Einstellen der Elementnummer als Primärspalte und das Extrahieren der Daten in eine separate Zeile anstelle einer einzelnen Zelle.