Deshabilite la opción PDFBox
- Última actualización2021/04/20
Deshabilite la opción PDFBox
La opción PDFBox está habilitada de forma predeterminada. Desactive la opción cuando esté capacitando documentos PDF híbridos que contengan imágenes y texto.
La opción PDFBox funciona mejor solo con documentos completamente digitales. Cuando se utilizan documentos híbridos que contienen imágenes y texto, nuestra recomendación es deshabilitar la opción PDFBox para una mejor clasificación de documentos.
Nota: La opción PDFBox está habilitada en el sistema de forma predeterminada. Asegúrese de que la opción PDFBox se mantenga habilitada solo si tiene previsto procesar documentos digitales; de lo contrario, el procesamiento fallará.
Si la opción PDFBox está habilitada, puede procesar los siguientes tipos de PDF:
- Los PDF Vector e Hybrid pueden procesarse con PDFBox
- Los PDF Raster pueden procesarse primero con PDFBox y, si no se encuentra ningún segmento, el PDF se procesa de nuevo con OCR de imagen de documento
Hay dos maneras en las que puede deshabilitar/habilitar la opción PDFBox en IQ Bot:
- Directamente en la IU durante la creación de una instancia de aprendizaje. En la página Crear nueva instancia de aprendizaje, vaya a e inhabilite o habilite la casilla de verificación Mis documentos PDF no tienen imágenes.
- En el archivo Setting.txt descrito a continuación: