Désactiver l'option PDFBox
- Dernière mise à jour2021/04/20
Par défaut, l'option PDFBox est activée. Désactivez l'option lorsque vous entraînez des documents PDF hybrides contenant des images et du texte.
L'option PDFBox fonctionne mieux avec les documents entièrement numériques uniquement. Lorsque nous utilisons des documents hybrides contenant des images et du texte, nous recommandons de désactiver l'option PDFBox pour une meilleure classification des documents.
Remarque : Par défaut, l'option PDFBox est activée dans le système. Vérifiez que l'option PDFBox n'est activée que si vous prévoyez de traiter des documents numériques. Dans le cas contraire, le traitement échoue.
Si l'option PDFBox est activée, vous pouvez traiter les types de PDF suivants :
- Les documents PDF Vector et Hybrid peuvent être traités à l'aide de PDFBox
- Les documents PDF Raster peuvent être traités en premier à l'aide de PDFBox et si aucun segment n'est trouvé, le PDF est traité à nouveau à l'aide de la reconnaissance de texte de l'image de document
Il existe deux façons de désactiver/activer l'option PDFBox dans IQ Bot :
- Directement dans l'interface utilisateur lors de la création d'une instance d'apprentissage. Sur la page Créer une nouvelle instance d'apprentissage, accédez à et désactivez/activez la case à cocher Mes documents PDF n'ont pas d'image.
- Dans le fichier Setting.txt décrit comme suit :