Automation 360

使用从 PDF 提取文本 action

Download as PDF

Table of Contents

使用从 PDF 提取文本 action

Download as PDF

Updated: 2022/12/08

使用从 PDF 提取文本 action

使用提取文本 action 从 PDF 文件中提取文本，并将其保存为文本文件。

重要：

如果 PDF 文件中没有嵌入正确的字体，则提取文本 action 无法正确提取文本。
当您使用此 action 从 PDF 文件中提取文本时，如果该文本是单行数据，但是 PDF 文件中的相同数据分为两行，则数据可能会显示为两行。

注：当您从包含 20 个表单字段的 PDF 中提取字段时，处理时间可能比没有表单字段的 PDF 长 30% 到 40%。

过程

要从 PDF 文件中提取文本，请执行以下步骤：

在 Actions 面板中，从 PDF package action 双击或拖动取提取文本。
在 PDF 路径中，选择以下选项之一来指定 PDF 的位置：
- Control Room 文件：用于选择 Control Room 内文件夹中可用的 PDF 文件。
- 桌面配置文件：用于选择设备上可用的 PDF 文件。
- 变量：用于指定包含 PDF 文件位置的文件变量。
可选： 在用户密码、所有者密码字段中，输入密码以限制对加密 PDF 文件的访问。
- 用户密码：允许用户对加密的 PDF 文件执行特定操作。
- 所有者密码：允许用户使用密码打开文件。
在文本类型字段中，选择以下选项之一：
- 纯文本：提取文本并将其复制到文本文件中。
  这类似于将 PDF 文件中的文本复制并粘贴到文本文件中。
- 结构化文本：保留从 PDF 文件中提取的文本的原始格式。
  您可以选择减少数据丢失选项，以确保以最小的字符重叠提取完整的文本。使用此功能，可以减少与其他字符重叠的字符数。
  注：选择此选项以提取文本时，提取的文本可能包含额外的空格字符。您可以选择其中的一些 actions 例如从提取的 PDF 文档中使用替换或修剪字符串 package 来解决此类问题。
在页面范围字段中，选择以下选项之一：
- 所有页面：用于将 PDF 文件中的所有页面另存为图像。
- 页面：用于输入要另存为图像的页面的页码。
在将数据导出为文本文件字段中，指定文本文件的名称和位置。

注：必须在文本文件的名称中包含 .txt 扩展名。例如，如果文件名为 June_Quarter_report，则 .txt 扩展名为 June_Quarter_report.txt。
选择覆盖具有相同名称的文件复选框以覆盖现有的同名文件。

注：如果未选择此选项，并且 bot 在指定位置遇到同名的文件，bot 将会失败。
可选： 从为字典变量分配 PDF 属性列表中，选择字典变量以保存文件属性。
有关更多信息，请参阅将字典变量用于 PDF 属性。
单击保存。