Dokumenttypen
- Zuletzt aktualisiert2024/12/16
Dokumenttypen
Dokumenttyp ist die Klassifizierung von Dokumenten basierend auf ihrem Zweck, Layout und Inhalt. Document Automation unterstützt die folgenden Dokumenttypen zur Verarbeitung: strukturierte, habstrukturierte und unstrukturierte Dokumente.
Strukturierte Dokumente
Strukturierte Dokumente folgen einer konsistenten Struktur und einem klaren Layout, wobei Daten eingegeben oder geschrieben werden, was es automatisierten Systemen erleichtert, Daten zu extrahieren und zu verarbeiten. Das für solche Dokumente verwendete Datenextraktionsmodell kombiniert Funktionen zur optischen Zeichenerkennung (OCR) mit einem vorlagenbasierten Modell, um Schlüssel-Wert-Paare und Tabellendaten aus strukturierten Dokumenten zu extrahieren.
Im Folgenden sind einige Beispiele für strukturierte Dokumente aufgeführt:
- Antragsformulare
- Umfragen
- Reisepässe
- Steuerformulare
Semistrukturierte Dokumente
Semistrukturierte Dokumente sind Dokumente, die wie strukturierte Dokumente eine gewisse Struktur oder ein vorhersehbares Format aufweisen, aber auch einige Variationen im Layout oder Inhalt aufweisen. Einige Dokumente enthalten möglicherweise gemeinsame Datenelemente, die Daten können sich in verschiedenen Dokumenten jedoch an unterschiedlichen Stellen befinden. Das für solche Dokumente verwendete Datenextraktionsmodell kombiniert OCR-Funktionen mit schlüsselwortbasierter Extraktion, regulären Ausdrücken und Validierungsfeedback, um Schlüssel-Wert-Paare und Tabellendaten aus semistrukturierten Dokumenten zu extrahieren.
Im Folgenden sind einige Beispiele für semistrukturierte Dokumente aufgeführt:
- Rechnungen
- Aufträge
- Frachtbrief
- Leistungserläuterungen
Unstrukturierte Dokumente
Unstrukturierten Dokumenten fehlt ein Standardformat, ein festes Layout oder es liegen Daten ohne Beschriftungen vor. Die Daten liegen überwiegend in einem natürlichen Sprachformat ohne einheitliche Struktur vor. Das Datenextraktionsmodell verwendet eine Kombination aus OCR-Funktionen mit natürlicher Sprachverarbeitung (NLP) und generativen KI-Technologien, um semantische Analysen durchzuführen und Schlüssel-Wert-Paare sowie Tabellendaten aus unstrukturierten Dokumenten zu extrahieren.
Im Folgenden sind einige Beispiele für unstrukturierte Dokumente aufgeführt:
- Rechtliche Dokumente
- Korrespondenz (einschließlich E-Mails)
- Berichte