使用从 PDF 提取文本 action

使用提取文本 action 从 PDF 文件中提取文本,并将其保存为文本文件。

重要:
  • 如果 PDF 文件中没有嵌入正确的字体,则提取文本 action 无法正确提取文本。
  • 当您使用此 action 从 PDF 文件中提取文本时,如果该文本是单行数据,但是 PDF 文件中的相同数据分为两行,则数据可能会显示为两行。
注: 当您从包含 20 个表单字段的 PDF 中提取字段时,处理时间可能比没有表单字段的 PDF 长 30% 到 40%。

过程

要从 PDF 文件中提取文本,请执行以下步骤:

  1. Actions 面板中,从 PDF package action 双击或拖动取提取文本
  2. PDF 路径中,选择以下选项之一来指定 PDF 的位置:
    • Control Room 文件: 用于选择 Control Room 内文件夹中可用的 PDF 文件。
    • 桌面配置文件: 用于选择设备上可用的 PDF 文件。
    • 变量: 用于指定包含 PDF 文件位置的文件变量。
  3. 可选: 用户密码所有者密码字段中,输入密码以限制对加密 PDF 文件的访问。
    • 用户密码: 允许用户对加密的 PDF 文件执行特定操作。
    • 所有者密码: 允许用户使用密码打开文件。
  4. 文本类型字段中,选择以下选项之一:
    • 纯文本: 提取文本并将其复制到文本文件中。

      这类似于将 PDF 文件中的文本复制并粘贴到文本文件中。

    • 结构化文本: 保留从 PDF 文件中提取的文本的原始格式。
      您可以选择减少数据丢失选项,以确保以最小的字符重叠提取完整的文本。 使用此功能,可以减少与其他字符重叠的字符数。
      注: 选择此选项以提取文本时,提取的文本可能包含额外的空格字符。 您可以选择其中的一些 actions 例如从提取的 PDF 文档中使用替换修剪 字符串 package 来解决此类问题。
  5. 页面范围字段中,选择以下选项之一:
    • 所有页面: 用于将 PDF 文件中的所有页面另存为图像。
    • 页面: 用于输入要另存为图像的页面的页码。
  6. 将数据导出为文本文件字段中,指定文本文件的名称和位置。
    注: 必须在文本文件的名称中包含 .txt 扩展名。 例如,如果文件名为 June_Quarter_report,则 .txt 扩展名为 June_Quarter_report.txt
  7. 选择覆盖具有相同名称的文件复选框以覆盖现有的同名文件。
    注: 如果未选择此选项,并且 bot 在指定位置遇到同名的文件,bot 将会失败。
  8. 可选: 为字典变量分配 PDF 属性列表中,选择字典变量以保存文件属性。
    有关更多信息,请参阅 将字典变量用于 PDF 属性
  9. 单击保存