Verwenden des unstrukturierten Dokumenttyps

Der unstrukturierte Dokumenttyp ermöglicht die Extraktion von Daten aus unstrukturierten Dokumenten, die kein Standardformat, kein festes Layout oder keine markierten Daten aufweisen.

Das Modell verwendet eine Kombination aus OCR-Funktionen mit natürlicher Sprachverarbeitung (NLP) und generative KI-Technologien, um semantische Analysen durchzuführen und Schlüssel-Wert-Paare sowie Tabellendaten aus unstrukturierten Dokumenten zu extrahieren.

Im Folgenden sind einige Beispiele für unstrukturierte Dokumente aufgeführt:

  • Rechtliche Dokumente
  • Korrespondenz (einschließlich E-Mails)
  • Berichte

Dieses Modell bietet die Möglichkeit, zwischen den folgenden generative KI-Anbietern zu wählen:

OpenAI
Die Verwendung dieser Option bietet die folgenden Funktionen:
  • Eine Vielzahl von Aufgaben erledigen
  • Dokumente in englischer und anderen Sprachen bearbeiten
  • Multimodaler Fähigkeiten unterstützen
  • Bestimmte Modelle verfeinern
Anthropic
Die Verwendung dieser Option bietet die folgenden Funktionen:
  • Effiziente Verarbeitung großer, unstrukturierter Dokumente
  • Dokumente in englischer und anderen Sprachen bearbeiten
  • Schnellere Verarbeitung von Dokumenten mit genauerer Datenextraktion

Generative KI-Anbieter liefern verallgemeinerte Intelligence, was bedeutet, dass kein spezifisches Training der Lerninstanz oder des Modells für verschiedene Dokumenttypen erforderlich ist. Stattdessen sollten Nutzer beim Konfigurieren einer Lerninstanz die Abfrageaufforderungen optimieren, um zu identifizieren und festzulegen, wie Daten aus Dokumenten extrahiert werden müssen. Zum Beispiel können Sie die folgenden Beispielaufforderungen definieren, um spezifische Daten aus Verträgen und Vereinbarungen abzurufen:

  • Wann ist der Vertrag in Kraft getreten?
  • Wie lautet die Referenznummer?
  • Wann ist der Vertrag in Kraft getreten? Gib die Antwort im Format „MM/TT/JJJJ“ zurück.
  • Wie lautet die Referenznummer? Es sollte diesem Muster folgen: AAA-12345.
  • Gibt es zum Stichtag des Vertrags unbezahlte Steuern? Antworte mit Ja oder Nein.
    Anmerkung: Wenn die Abfrageaufforderung leer ist, werden die Extraktionsergebnisse oder die Ausgabe leer sein. Es kann vorkommen, dass Sie einen Platzhalter für Daten leer lassen möchten. Dies ist vor allem dann sinnvoll, wenn Ihr Workflow eine Nachbearbeitung der Daten erfordert. Zum Beispiel, wenn Sie Daten aus einer Datenbank abrufen und sie im Feld zum Vergleich verwenden möchten.

Systemdefinierte Formular- und Tabellenfelder sind nicht verfügbar, da der unstrukturierte Dokumenttyp kein Standardformat und kein festes Layout verwendet oder Daten ohne Beschriftungen enthält. Bei der Konfiguration einer Lerninstanz müssen Sie alle Formular- und Tabellenfelder definieren, die eine Datenauswertung erfordern.

Kunden, die private Cloud-Instanzen von generative KI-Modellen in Microsoft Azure, AWS oder GCP verwenden möchten, können sich mit Modellen in ihren privaten Cloud verbinden. Einzelheiten finden Sie unter Ihre eigenen generative KI-Dienste verbinden.

Anmerkung: Die Option für Validierungsfeedback ist in diesem Modell nicht verfügbar.