Erstellen eines Extraktionsmodells
- Zuletzt aktualisiert2024/10/31
Erstellen eines Extraktionsmodells
Document Automation unterstützt verschiedene Extraktionsanbieter, um ein breites Spektrum an Anwendungsfällen der Dokumentverarbeitung zu unterstützen. Um zu bestimmen, welcher Extraktionsanbieter für die Dokumentenverarbeitung verwendet werden soll, müssen Sie möglicherweise verschiedene Extraktionsanbieter in Benchmarks vergleichen oder eine Kombination aus mehreren Extraktionsanbietern auswählen, um einen bestimmten Anwendungsfall abzudecken.
Beispielsweise möchten Sie möglicherweise für Kreditantragspakete den Extraktionsanbieter Automation Anywhere zum Extrahieren bestimmter Daten wie W-2-Formulare und Kontoauszüge und den Extraktionsanbieter Google Document AI zum Extrahieren bestimmter Daten wie Rechnungen und Ausweisdokumente verwenden. In einem solchen Szenario bietet die Datenextraktion mit nur einem der Extraktionsanbieter keine vollständige Abdeckung.
Ein entscheidender Faktor bei der Entscheidung für einen Extraktionsanbieter ist die Art des Dokuments, das Sie verarbeiten möchten: strukturiert, halbstrukturiert oder unstrukturiert. Weitere Informationen zu Dokumenttypen finden Sie unter Dokumenttypen.
Strukturierte Dokumente
Für strukturierte Dokumente, die einer konsistenten Struktur und einem klaren Layout folgen, empfehlen wir die Verwendung des Standardformular-Extraktionsmodells in Document Automation zur Datenextraktion. Dieses Modell verwendet eine Kombination aus Funktionen zur optischen Zeichenerkennung (OCR) mit einem vorlagenbasierten Modell, um Schlüssel-Wert-Paare und Tabellendaten aus sehr konsistent formatierten strukturierten Dokumenten wie Formularen oder Ausweisen zu extrahieren. Einzelheiten finden Sie unter Erstellen von benutzerdefinierten Modellen in Document Automation mit Standardformularen.
Semistrukturierte Dokumente
Bei halbstrukturierten Dokumenten müssen häufig unterschiedliche Extraktionsmodelle und -anbieter getestet und validiert werden, um die Kombination zu ermitteln, die die benötigten Daten liefert. Für einige Anwendungsfälle ist zum Extrahieren der erforderlichen Daten aus Feldern und Tabellen möglicherweise die Erstellung mehrerer Lerninstanzen mit unterschiedlichen Kombinationen aus Extraktionsmodellen und -anbietern erforderlich. Dieses Modell nutzt eine Kombination aus OCR-Funktionen mit schlüsselwortbasierter Extraktion, regulären Ausdrücken und Validierungsfeedback, um Schlüssel-Wert-Paare und Tabellendaten aus einer Vielzahl von Formaten zu extrahieren.
Dokumenttyp | Extraktionsanbieter | |
---|---|---|
Automation Anywhere | Google Document AI | |
Rechnungen | Ja | Ja |
Ankunftsanzeige | Ja | Nein |
Frachtbrief | Ja | Nein |
Packliste | Ja | Nein |
Quittungen | Nein | Ja |
Nutzerdefiniert | Ja | Ja |
Stromrechnung | Nein | Ja |
Frachtbrief | Ja | Nein |
Unstrukturierte Dokumente
Für unstrukturierte Dokumente ohne Standardformat, festes Layout oder fehlende Daten ohne Kennzeichnungen (z. B. Verträge) empfehlen wir die Verwendung des Extraktionsmodells für unstrukturierte Dokumente in Document Automation zur Dokumentenextraktion. Bei der Extraktion unstrukturierter Dokumente wird auf generative KI Modelle zurückgegriffen, die semantische Bedeutungen verstehen und komplexe Dokumentformate analysieren können.