Extraktionsdienste überprüfen
- Zuletzt aktualisiert2024/05/17
Extraktionsdienste überprüfen
Nachdem Sie sich vergewissert haben, dass es sich bei den Dokumenten, aus denen Sie Inhalte extrahieren möchten, um Standardformulare handelt, können Sie die Art des Extraktionsdienstes für Standardformulare planen, die Ihren Anforderungen entspricht.
Für die Verarbeitung von Standardformularen stehen die folgenden Technologien zur Verfügung:
IQ Bot-Extraktionsdienst
Dies ist ein vorlagenbasierter Extraktionsdienst, der OCR und Heuristiken verwendet, um Inhalte aus Standardformularen zu extrahieren. Sie müssen eine Vorlage pro Standardformular trainieren.
- Die Dokumente sind von guter Qualität (300 dpi).
- Der Inhalt des Dokuments ist nicht sehr dicht.
- Eingangsdokumente haben keine handschriftlichen Kopien (eingeschränkte Unterstützung).
- Unterschriften werden derzeit nicht unterstützt.
- Enthält ein einfaches Tabellenlayout (Spanne innerhalb einer Seite) mit eindeutiger Kopfzeile, Tabellengrenze usw.
- Enthält keine Tabellen oder Inhalte, die Kontrollkästchen haben (eingeschränkte Unterstützung).
- Hat keine sich wiederholenden Abschnitte (eingeschränkte Unterstützung).
- Ein integriertes und einfaches Out-of-the-Box-Setup.
- Verschiedene OCR-Engines für eine erhöhte Extraktionsgenauigkeit.
- Komplexe Layouts (sich wiederholende Abschnitte, durchgehende Tabellen usw.) können für bestimmte Fälle extrahiert werden (muss getestet werden).
- Erfordert nur IQ Bot-Lizenz.
Azure AI Document Intelligence-Dienst
Technologie von Drittanbietern, die maßgeschneiderte KI-Modelle (Künstliche Intelligenz) zur Extraktion von Inhalten aus Standardformularen bereitstellt. Sie können benutzerdefinierte Modelle erstellen, in denen Dokumente beschriftet und trainiert werden können.
Leitlinien für die Nutzung des Azure AI Document Intelligence-Dienstes
- Eingabedokumente:
- können dicht sein (viele Details und Informationen enthalten) und eine angemessene Qualität haben (> 200 dpi).
- können Kontrollkästchen und Optionsfelder enthalten.
- können handschriftlichen Inhalt haben.
- können Unterschriften enthalten.
- können Tabellen enthalten.
Die Eingabedokumente können auch Tabellen enthalten, die sich über eine einzige Seite erstrecken. Wenn die Standardformulare jedoch Tabellen enthalten, die sich über mehrere Seiten erstrecken, kann die Extraktion des Inhalts fehlschlagen.
- Keiner der Abschnitte in den Eingabedokumenten wird nicht wiederholt.
- Dokumente, die anders gruppierte Tabellen enthalten
Vorteile des Azure AI Document Intelligence-Dienstes
- Diverse Standardformulardokumente können verarbeitet werden.
- Die automatische Erkennungsfunktion kann verschiedene Arten von Tabellen erkennen, z. B. Tabellen ohne Kopfzeile, invertierte Tabellen usw.
- Gute Unterstützung für handschriftliche Formulare.