默认情况下,PDFBox 选项被启用。 训练包含图像和文本的混合 PDF 文档时禁用此选项。

文档只包含数字时,PDFBox 选项发挥最大效用。 在使用包含图像和文本的混合文档时,建议禁用 PDFBox 选项以更好地进行文档分类。
注: 默认情况下,PDFBox 选项被启用。 确保仅在计划处理数字文档时才保持启用 PDFBox,否则处理将失败。
如果启用了 PDFBox,您可以处理以下 PDF 类型:
  • 矢量和混合 PDF 可以使用 PDFBox 处理
  • 栅格 PDF 可以首先使用 PDFBox 进行处理,如果没有找到段落,则使用文档图像 OCR 再次处理 PDF。
有两种方法可以禁用/启用 IQ Bot 中的 PDFBox 选项:
  • 在创建学习实例期间直接在 UI 中。 在创建新学习实例页面中,前往高级设置 > 光学字符识别,并禁用/启用我的 PDF 文档没有图像复选框。
  • Setting.txt 文件中,如下所述:

过程

  1. 前往 C:\Program Files (x86)\Automation Anywhere IQ Bot\Configurations
  2. 打开 Setting.txt 文件,并更改 PDFBoxOCREnabled=truePDFBoxOCREnabled=false
    这将通过 PDFBox 关闭上传文档的过程,以用于新的学习实例(应用此更改后),并且不适用于现有的学习实例。IQ Bot 还将使用您选择的 OCR 引擎处理 PDF 文档。
    注:PDFBox 禁用时,确保您的 PDF 文档少于 60 页。
  3. 更新 Setting.tx 文件后,无需执行 IQ Bot 服务的 stopedanduninstalledinstalledandstartedstart