Vision-gestützte Datenerfassung über generative KI

Vision-gestützte generative KI-Modelle verbessern die Dokumentenautomatisierung, indem sie die Genauigkeit der Datenerfassung aus komplexen und unstrukturierten Dokumenten erhöhen und Fähigkeiten wie Layout-Analyse und Formularfelderkennung nutzen. Diese Modelle optimieren Arbeitsabläufe, da sie weniger menschliche Eingriffe erfordern, und werden in verschiedenen Regionen von Anbietern wie Microsoft OpenAI und Anthropic Claude unterstützt.

Anmerkung: Vergewissern Sie sich, dass Sie die Dokumentenextraktion Paket-Version 3.35.14 oder höher verwenden, um die Vision-gestützten generative KI-Modelle nutzen zu können.

Die Integration von Vision-gestützten generative KI-Modellen in Document Automation wird dabei helfen, Dokumente mit visuell komplexen Strukturen zu verarbeiten, wie etwa zum Erkennen von Kontrollkästchen und Unterschriften.

Wenn Sie das Paket verwenden, das Vision-basierte generative KI-Modelle unterstützt, können Sie das Eingabeaufforderungs-Tag @GenAIVision verwenden, um der Dokumentenextraktion-Engine mitzuteilen, dass Vision-basierte generative KI-Modelle für die Datenextraktion verwendet werden sollen. Weitere Informationen finden Sie unter Verwenden von Eingabeaufforderungs-Tags in Eingabeaufforderungen für generative KI.

Möglichkeiten

Das folgende Bild zeigt einige der Fähigkeiten der Vision-gestützten generative KI-Modelle, die in Document Automation verwendet werden:

Document Automation mit Vision-gestützten generative KI-Modellfunktionen

Document Automation mit Vision-gestützten generative KI-Modellen bieten im Vergleich zu anderen generative KI-Modellen die folgenden erweiterten Funktionen:

  • Layoutanalyse
  • Formularfelderkennung
  • Tabellenerkennung
  • Bild- und Grafikerkennung
  • Unterschrift- und Kontrollkästchenerkennung

Vorteile

Vision-gestützte generative KI-Modelle bieten die folgenden Vorteile:

Nahtlose Datenextraktion
Extrahiert Daten aus komplexen Tabellen mit verschachtelten Zeilen, zusammengeführten Spalten und Abschnitten. Erkennt und erfasst Auswahlelemente wie Kontrollkästchen.
Entwickelt für reale Anwendungsfälle
Bewältigt Herausforderungen bei der Extraktion von Daten aus verschiedenen Dokumenttypen wie Rechnungen, Bestellungen, Gesundheitsdokumenten und Lieferkettenunterlagen.
Mühelose Einrichtung
Verwendet vortrainierte Modelle, die sofort einsatzbereit sind, wobei Suchanfragen genutzt werden, um Informationen zu identifizieren und zu extrahieren.

Regionen-Supportmatrix

In der folgenden Tabelle sind die Vision-gestützten generative KI-Modelle aufgeführt, die von den generative KI-Anbietern in verschiedenen Regionen unterstützt werden:

Anmerkung: Wenn Sie „Bring Your Own License“ (BYOL) für einen Anbieter verwenden, werden diese Einstellungen nicht berücksichtigt. Informationen zur Konfiguration von BYOL für einen Anbieter finden Sie unter Aktion „Daten extrahieren“.
Regionen Anbieter Wird das Vision-gestützte generative KI-Modell unterstützt? Unterstützte generative KI-Modelle
Vereinigte Staaten Microsoft OpenAI Ja GPT-4o
Anthropic Claude (Amazon Bedrock) Ja Claude 3 Haiku
Europa Microsoft OpenAI Ja GPT-4o
Anthropic Claude (Amazon Bedrock) Ja Claude 3 Haiku
Rest der Welt Microsoft OpenAI Nein* GPT-3.5 Turbo
Anthropic Claude (Amazon Bedrock) Ja Claude 3 Haiku

* Sie können BYOL so konfigurieren, dass Ihr eigenes Vision-gestütztes generative KI-Modell zur Datenextraktion verwendet wird. Einzelheiten finden Sie unter Aktion „Daten extrahieren“.