Deaktivieren der PDFBox-Option
- Zuletzt aktualisiert2021/04/20
Deaktivieren der PDFBox-Option
Die PDFBox-Option ist standardmäßig aktiviert. Deaktivieren Sie die Option, wenn Sie Hybrid-PDF-Dokumente mit Bildern und Text trainieren.
Die PDFBox-Option funktioniert am besten mit vollständig digitalen Dokumenten. Wenn Sie hybride Dokumente verwenden, die Bilder und Text enthalten, empfehlen wir, die PDFBox-Option zur besseren Dokumentklassifizierung zu deaktivieren.
Anmerkung: Die PDFBox-Option ist im System standardmäßig aktiviert. Stellen Sie sicher, dass PDFBox nur dann aktiviert bleibt, wenn Sie digitale Dokumente verarbeiten wollen, da die Verarbeitung sonst fehlschlägt.
Wenn PDFBox aktiviert ist, können Sie die folgenden PDF-Typen verarbeiten:
- Vektor- und Hybrid-PDF kann mit PDFBox verarbeitet werden.
- Raster-PDF kann zunächst mit PDFBox verarbeitet werden, und wenn kein Segment gefunden wird, wird das PDF erneut mit Dokumentenbild-OCR verarbeitet.
Es gibt zwei Möglichkeiten, wie Sie die PDFBox-Option in IQ Botdeaktivieren/aktivieren können:
- Direkt in der Nutzeroberfläche während der Erstellung einer Lerninstanz. Wechseln Sie auf der Seite Neue Lerninstanz erstellen zu und aktivieren/deaktivieren Sie das Kontrollkästchen Meine PDF-Dokumente enthalten keine Bilder.
- In der Datei Setting.txt wie folgt beschrieben: