Vision-gestützte Datenerfassung über generative AI

Vision-gestützte generative AI-Modelle verbessern die Dokumentenautomatisierung, indem sie die Genauigkeit der Datenerfassung aus komplexen und unstrukturierten Dokumenten erhöhen und Fähigkeiten wie Layout-Analyse und Formularfelderkennung nutzen. Diese Modelle optimieren Arbeitsabläufe, da sie weniger menschliche Eingriffe erfordern, und werden in verschiedenen Regionen von Anbietern wie Microsoft OpenAI und Anthropic Claude unterstützt.

Anmerkung: Vergewissern Sie sich, dass Sie die Document Extraction package-Version 3.35.14 oder höher verwenden, um die Vision-gestützten generative AI-Modelle nutzen zu können.

Die Integration von Vision-gestützten generative AI-Modellen in Document Automation wird dabei helfen, Dokumente mit visuell komplexen Strukturen zu verarbeiten, wie etwa zum Erkennen von Kontrollkästchen und zum Erkennen von Unterschriften.

Wenn Sie das Paket verwenden, das Vision-basierte generative AI-Modelle unterstützt, können Sie das Eingabeaufforderungs-Tag @GenAIVision verwenden, um der Document Extraction-Engine mitzuteilen, dass Vision-basierte generative AI-Modelle für die Datenextraktion verwendet werden sollen. Weitere Informationen finden Sie unter Verwenden von Eingabeaufforderungs-Tags in Eingabeaufforderungen für generative AI.

Möglichkeiten

Das folgende Bild zeigt einige der Fähigkeiten der Vision-gestützten generative AI-Modelle, die in Document Automation verwendet werden:

Document Automation mit Vision-gestützten generative AI-Modellfunktionen

Document Automation mit Vision-gestützten generative AI-Modellen bieten im Vergleich zu anderen generative AI-Modellen die folgenden erweiterten Funktionen:

  • Layoutanalyse
  • Formularfelderkennung
  • Tabellenerkennung
  • Bild- und Grafikerkennung
  • Unterschrift- und Kontrollkästchenerkennung

Vorteile

Vision-gestützte generative AI-Modelle bieten die folgenden Vorteile:

Nahtlose Datenextraktion
Extrahiert Daten aus komplexen Tabellen mit verschachtelten Zeilen, zusammengeführten Spalten und Abschnitten. Erkennt und erfasst Auswahlelemente wie Kontrollkästchen.
Entwickelt für reale Anwendungsfälle
Bewältigt Herausforderungen bei der Extraktion von Daten aus verschiedenen Dokumenttypen wie Rechnungen, Bestellungen, Gesundheitsdokumenten und Lieferkettenunterlagen.
Mühelose Einrichtung
Verwendet vortrainierte Modelle, die sofort einsatzbereit sind, wobei Suchanfragen genutzt werden, um Informationen zu identifizieren und zu extrahieren.

Regionen-Supportmatrix

In der folgenden Tabelle sind die Vision-gestützten generative AI-Modelle aufgeführt, die von den generative AI-Anbietern in verschiedenen Regionen unterstützt werden:

Anmerkung:
  • Wenn Sie Ihr eigenes Lizenzmodell (BYOL) verwenden (Modelle, die in Ihrem eigenen Konto gehostet werden), gilt die in dieser Matrix bereitgestellte Information nicht. Anleitungen zur Konfiguration von BYOL finden Sie unter action „Daten extrahieren“.
  • Beim Verwenden von BYOL unterstützen wir die folgenden Modelle:
    • Anthropic Claude-Modelle ab Version 3 und neuer
    • Microsoft OpenAI GPT-Modelle beginnend mit den GPT 3.5- und GPT 4.0-Familien
Regionen Gesundheitsdienstleister Wird das Vision-gestützte generative AI-Modell unterstützt? Unterstützte generative AI-Modelle
Vereinigte Staaten von Amerika Microsoft OpenAI Ja GPT-4o
Anthropic Claude (Amazon Bedrock) Ja Claude 3 Haiku
Europa Microsoft OpenAI Ja GPT-4o
Anthropic Claude (Amazon Bedrock) Ja Claude 3 Haiku
Rest der Welt Microsoft OpenAI Nein* GPT-3.5 Turbo
Anthropic Claude (Amazon Bedrock) Ja Claude 3 Haiku

* Sie können BYOL so konfigurieren, dass Ihr eigenes Vision-gestütztes generative AI-Modell zur Datenextraktion verwendet wird. Einzelheiten finden Sie unter action „Daten extrahieren“.

Weitere Ressourcen

Um mehr zu erfahren, suchen Sie nach dem Kurs Vision Powered Generative AI Data Extraction (Vision-gestützte Datenerfassung) in Automation Anywhere University: RPA Training and Certification (A-People login required).