Vision-gestützte Datenerfassung über generative KI
- Zuletzt aktualisiert2025/02/13
Vision-gestützte Datenerfassung über generative KI
Vision-gestützte generative KI-Modelle verbessern die Dokumentenautomatisierung, indem sie die Genauigkeit der Datenerfassung aus komplexen und unstrukturierten Dokumenten erhöhen und Fähigkeiten wie Layout-Analyse und Formularfelderkennung nutzen. Diese Modelle optimieren Arbeitsabläufe, da sie weniger menschliche Eingriffe erfordern, und werden in verschiedenen Regionen von Anbietern wie Microsoft OpenAI und Anthropic Claude unterstützt.
Die Integration von Vision-gestützten generative KI-Modellen in Document Automation wird dabei helfen, Dokumente mit visuell komplexen Strukturen zu verarbeiten, wie etwa zum Erkennen von Kontrollkästchen und Unterschriften.
Wenn Sie das Paket verwenden, das Vision-basierte generative KI-Modelle unterstützt, können Sie das Eingabeaufforderungs-Tag @GenAIVision verwenden, um der Dokumentenextraktion-Engine mitzuteilen, dass Vision-basierte generative KI-Modelle für die Datenextraktion verwendet werden sollen. Weitere Informationen finden Sie unter Verwenden von Eingabeaufforderungs-Tags in Eingabeaufforderungen für generative KI.
Möglichkeiten
Das folgende Bild zeigt einige der Fähigkeiten der Vision-gestützten generative KI-Modelle, die in Document Automation verwendet werden:
Document Automation mit Vision-gestützten generative KI-Modellen bieten im Vergleich zu anderen generative KI-Modellen die folgenden erweiterten Funktionen:
- Layoutanalyse
- Formularfelderkennung
- Tabellenerkennung
- Bild- und Grafikerkennung
- Unterschrift- und Kontrollkästchenerkennung
Vorteile
Vision-gestützte generative KI-Modelle bieten die folgenden Vorteile:
- Nahtlose Datenextraktion
- Extrahiert Daten aus komplexen Tabellen mit verschachtelten Zeilen, zusammengeführten Spalten und Abschnitten. Erkennt und erfasst Auswahlelemente wie Kontrollkästchen.
- Entwickelt für reale Anwendungsfälle
- Bewältigt Herausforderungen bei der Extraktion von Daten aus verschiedenen Dokumenttypen wie Rechnungen, Bestellungen, Gesundheitsdokumenten und Lieferkettenunterlagen.
- Mühelose Einrichtung
- Verwendet vortrainierte Modelle, die sofort einsatzbereit sind, wobei Suchanfragen genutzt werden, um Informationen zu identifizieren und zu extrahieren.
Regionen-Supportmatrix
In der folgenden Tabelle sind die Vision-gestützten generative KI-Modelle aufgeführt, die von den generative KI-Anbietern in verschiedenen Regionen unterstützt werden:
Regionen | Anbieter | Wird das Vision-gestützte generative KI-Modell unterstützt? | Unterstützte generative KI-Modelle |
---|---|---|---|
Vereinigte Staaten | Microsoft OpenAI | Ja | GPT-4o |
Anthropic Claude (Amazon Bedrock) | Ja | Claude 3 Haiku | |
Europa | Microsoft OpenAI | Ja | GPT-4o |
Anthropic Claude (Amazon Bedrock) | Ja | Claude 3 Haiku | |
Rest der Welt | Microsoft OpenAI | Nein* | GPT-3.5 Turbo |
Anthropic Claude (Amazon Bedrock) | Ja | Claude 3 Haiku |
* Sie können BYOL so konfigurieren, dass Ihr eigenes Vision-gestütztes generative KI-Modell zur Datenextraktion verwendet wird. Einzelheiten finden Sie unter Aktion „Daten extrahieren“.