Deaktivieren der PDFBox-Option

Die PDFBox-Option ist standardmäßig aktiviert. Deaktivieren Sie die Option, wenn Sie Hybrid-PDF-Dokumente mit Bildern und Text trainieren.

Die PDFBox-Option funktioniert am besten mit vollständig digitalen Dokumenten. Wenn Sie hybride Dokumente verwenden, die Bilder und Text enthalten, empfehlen wir, die PDFBox-Option zur besseren Dokumentklassifizierung zu deaktivieren.
Anmerkung: Die PDFBox-Option ist im System standardmäßig aktiviert. Stellen Sie sicher, dass PDFBox nur dann aktiviert bleibt, wenn Sie digitale Dokumente verarbeiten wollen, da die Verarbeitung sonst fehlschlägt.
Wenn PDFBox aktiviert ist, können Sie die folgenden PDF-Typen verarbeiten:
  • Vektor- und Hybrid-PDF kann mit PDFBox verarbeitet werden.
  • Raster-PDF kann zunächst mit PDFBox verarbeitet werden, und wenn kein Segment gefunden wird, wird das PDF erneut mit Dokumentenbild-OCR verarbeitet.
Es gibt zwei Möglichkeiten, wie Sie die PDFBox-Option in IQ Botdeaktivieren/aktivieren können:
  • Direkt in der Nutzeroberfläche während der Erstellung einer Lerninstanz. Wechseln Sie auf der Seite Neue Lerninstanz erstellen zu Erweiterte Einstellungen > Optische Zeichenerkennung und aktivieren/deaktivieren Sie das Kontrollkästchen Meine PDF-Dokumente enthalten keine Bilder.
  • In der Datei Setting.txt wie folgt beschrieben:

Prozedur

  1. Navigieren Sie zu C:\Program Files (x86)\Automation Anywhere IQ Bot\Configurations.
  2. Öffnen Sie die Datei Setting.txt und ändern Sie PDFBoxOCREnabled=true in PDFBoxOCREnabled=false.
    Dadurch wird die Verarbeitung hochgeladener Dokumente durch PDFBox für neue Lerninstanzen (nach Anwendung dieser Änderung) deaktiviert und gilt nicht für die vorhandenen Lerninstanzen. IQ Bot verwendet die ausgewählte OCR-Engine auch für PDF-Dokumente.
    Anmerkung: Stellen Sie sicher, dass Ihr PDF-Dokument weniger als 60 Seiten enthält, wenn PDFBox deaktiviert ist.
  3. Nach der Aktualisierung der Datei Setting.txt ist die Ausführung der IQ Bot-Dienste stoppedanduninstalled und installedandstartedstart nicht erforderlich.