禁用 PDFBox 选项
- Updated: 2021/04/20
默认情况下,PDFBox 选项被启用。 训练包含图像和文本的混合 PDF 文档时禁用此选项。
文档只包含数字时,PDFBox 选项发挥最大效用。 在使用包含图像和文本的混合文档时,建议禁用 PDFBox 选项以更好地进行文档分类。
注: 默认情况下,PDFBox 选项被启用。 确保仅在计划处理数字文档时才保持启用 PDFBox,否则处理将失败。
如果启用了 PDFBox,您可以处理以下 PDF 类型:
- 矢量和混合 PDF 可以使用 PDFBox 处理
- 栅格 PDF 可以首先使用 PDFBox 进行处理,如果没有找到段落,则使用文档图像 OCR 再次处理 PDF。
有两种方法可以禁用/启用 IQ Bot 中的 PDFBox 选项:
- 在创建学习实例期间直接在 UI 中。 在创建新学习实例页面中,前往 ,并禁用/启用我的 PDF 文档没有图像复选框。
- 在 Setting.txt 文件中,如下所述: