Mit generative KI Lerninstanzen für halbstrukturierte Dokumente erstellen

Dieser Abschnitt ist eine Anleitung zum Erstellen einer Lerninstanz, die die Generative KI-Funktion (GenAI) zur Extraktion von Daten aus halbstrukturierten Dokumenten wie Rechnungen, nutzerdefinierten Dokumente, Bestellaufträgen oder Supply-Chain-Dokumenten nutzt, wie z. B.: Ankunftsanzeige, Konnossement, Packlisten und Frachtbrief.

Für die Datenextraktion aus halbstrukturierten Dokumenten können Nutzer die generative KI-Funktion zusätzlich zu der sofort einsatzbereiten Funktion für Nutzervalidierungsfeedback nutzen. Dazu müssen sie die Option Genauigkeit durch Validierung verbessern aktivieren, wenn sie eine Lerninstanz erstellen. Dies gewährleistet eine konsistente und verbesserte Datenextraktion mit sofortiger Genauigkeit. Im Folgenden werden Sie durch die Schritte zur Erstellung einer Lerninstanz mit generative KI-Funktion geführt, die eine genaue Datenextraktion aus halbstrukturierten Dokumenten ermöglicht.

Vorbereitungen

Ein professioneller Entwickler eines Unternehmens würde folgende Aufgaben übernehmen:
  • Lerninstanzen erstellen, bearbeiten und löschen
  • Hochladen von Dokumenten zur Bearbeitung und Prüfung
  • Ein- und Auschecken von Lerninstanzen von privaten zu öffentlichen Ordnern

Lizenzanforderung: Bot Creator-Lizenz zur Durchführung der oben genannten Aufgaben.

Zugewiesene Rollen und Berechtigung:
  • AAE_IQBot-Dienste oder AAE_IQBot-Administrator
  • AAE_Basic

Prozedur

  1. Melden Sie sich im Control Room an, navigieren Sie zu Managen > Lerninstanzen und klicken Sie auf die Schaltfläche Lerninstanz erstellen, um eine neue Lerninstanz zu erstellen.
  2. Geben Sie dann einen eindeutigen Namen für die Lerninstanz ein, um sie in der Liste Lerninstanzen einfach zu identifizieren, und wählen Sie die anderen Optionen wie folgt aus:
    Mit generative KI-Fähigkeit Lerninstanzen für halbstrukturierte Dokumente erstellen
    1. Beschreibung (optional): Dies ist ein optionales Feld, das verwendet werden kann, um eine aussagekräftige Beschreibung hinzuzufügen und die Verwendung der Lerninstanz zusammenzufassen.
    2. Dokumenttyp: Wählen Sie aus einer Liste von halbstrukturierten Dokumenten wie z. B.: Rechnungen, benutzerdefinierte Dokumente, Ankunftsanzeige, Konnossement, Packlisten und Frachtbrief.
      Bei Auswahl dieser Option wird zusätzlich zu der Funktion Genauigkeit durch Validierung verbessern die Datenextraktion über generative KI aktiviert, die als sofort einsatzbereit angeboten wird. Sie basiert auf dem Feedback, das infolge der Änderungen an das System gesendet wird, die von Nutzern während des Validierungsprozesses am Validator vorgenommen werden. Dies ist eine wichtige Funktion für halbstrukturierte Dokumente, da sie durch eine Kombination von Nutzervalidierungsfeedback und der GenAI-Funktion ein besseres Ergebnis bei der Datenextraktion gewährleistet.
    3. Sprache: English
      Derzeit unterstützen wir nur die englische Sprache.
    4. Gebietsschema: entsprechend dem Gebietsschema der Dokumente.
      Das Gebietsschema wird auf Grundlage Ihrer Sprache und des Landes, aus dem das Dokument stammt, ausgewählt.
    5. Anbieter: Automation Anywhere (benutzerdefiniert)
    6. OCR-Anbieter: Google Vision OCR oder ABBYY OCR
      Sie haben die Möglichkeit, zwischen den beiden unterstützten OCR-Optionen zu wählen.
  3. Klicken Sie auf Weiter, um mit der Erstellung von Formular- und Tabellenfeldern für die Lerninstanz zu beginnen. Ab Version 32 ist die generative KI-Funktion sowohl für Formular- als auch für Tabellenfelder verfügbar. Sie können die GenAI-Funktion zusätzlich zur Standardunterstützung benutzerdefinierter Aliase verwenden. Siehe Erstellen einer Lerninstanz in Document Automation, Schritt 9 für Details zum Hinzufügen von Aliasen für ein Feld.
    Document Automation verwendet standardmäßig benutzerdefinierte Aliase und die Feedback-Funktion für halbstrukturierte Dokumente. Die Abfragen für Felder mit geringerer Zuverlässigkeit und fehlende Felddaten werden zur Extraktion an generative KI übergeben.
    Lerninstanz für halbstrukturierte Dokumente mit generative KI-fähiger Suchanfrage
  4. Die generative KI-Funktion für Tabellenfelder kann zur Spaltenidentifizierung verwendet werden, was die Datenextraktion mit Fokus auf Tabellenspalten verbessert. Diese Funktion ist ein großer Mehrwert für die Tabellenextraktion. GenAI kann eine bestimmte Tabellenspalte auf Grundlage der definierten Suchanfrage identifizieren, ohne dass sie mit Dokumenten trainiert werden muss. Die Funktion ist in Document Automation sofort einsatzbereit. Sie können also die GenAI-fähige Suchabfrage verwenden, um die Spalte zu identifizieren, und dann mithilfe des Document Automation-Extraktionsmodells spezifische Daten für ein Feld aus dieser Spalte extrahieren.
  5. Als nächstes fügen Sie einen Feldnamen hinzu, der für den zu extrahierenden Datenpunkt spezifisch sein muss, eine Feldbezeichnung, die zur Erstellung einer Standardsuchabfrage verwendet wird, und wählen Sie Datentyp, um die Datenstruktur des Feldwertes zu definieren.
    Sie können aus der Dropdown-Liste die Wertoptionen Text, Zahl, Datum oder Adressdaten auswählen. Einzelheiten zum Erstellen von Formularfeldern finden Sie unter: Erstellen einer Lerninstanz in Document Automation, Schritt 10.
  6. Die Formular- und Tabellenfelder können auf Erforderlich oder Optional gesetzt werden. Wenn Sie die generative KI-Fähigkeit nutzen, ist das Feld Zuverlässigkeit ausgegraut.
  7. Sie haben zusätzlich die Möglichkeit, die Funktion Feld nach Muster extrahieren für die Extraktion zu verwenden.
  8. Im Abschnitt Anfrage nach generativem KI-Modell durchsuchen haben Sie die Möglichkeit, die vom System generierte Abfrage zu verwenden oder eine benutzerdefinierte Abfrage hinzuzufügen.
    Zum Beispiel würde die Generative KI-Standardabfrage für ein Adressfeld lauten: „Wie lautet die Privatadresse?“. Sie können die Abfrage so anpassen, dass sie lautet: „Wie lautet die Heimatadresse mit Stadt und Bundesland?“.
  9. Im nächsten Schritt definieren Sie die Feldregeln und Dokumentenregeln für die Formular- und Tabellenfelder und klicken auf Erstellen, um die Erstellung der Lerninstanz abzuschließen. Einzelheiten zur Definition der Formular- und Dokumentenregeln finden Sie unter: Validierungsregeln in Document Automation.

Nächste Maßnahme

  1. Veröffentlichen Sie die Lerninstanz im öffentlichen Repository, so dass die Lerninstanz im öffentlichen Modus verwendet werden kann, um Daten aus echten Dokumenten zu extrahieren, und damit Validatoren Dokumente manuell validieren können. Einzelheiten finden Sie unter Lerninstanz für die Produktion veröffentlichen.
  2. Identifizieren Sie auf der Listenseite Managen > Lerninstanzen die Lerninstanz, die Sie gerade erstellt und veröffentlicht haben, und klicken Sie auf Verarbeiten, um mit dem Hochladen von Dokumenten zur Verarbeitung und Datenextraktion zu beginnen. Einzelheiten finden Sie unter Dokumente bearbeiten in Document Automation.
  3. Öffnen Sie das CSV-Dokument mit den extrahierten Daten und vergleichen Sie es mit dem verarbeiteten Dokument, um zu überprüfen und zu bestätigen, dass die GenAI-aktivierten Suchabfragefelder die Daten mit hoher Genauigkeit extrahiert haben.