为了简化涉及预处理和数据提取的文档处理工作流,您可以将预处理任务集成到文档处理工作流中。 这种集成消除了手动文档预处理的需求,实现了统一且自动化的工作流,从而在单一工作流中依次处理这两项任务。

先决条件

确保您已创建要用于此流程的学习实例,并将其发布到实际正式环境。 请参阅 实际正式发布学习实例

在此过程中,我们使用了预处理包中的增强图像操作,并相应地创建了变量。 根据您选择的预处理器操作,您可能需要修改此过程并创建不同的变量集。

过程

  1. 登录到您的 Control Room
  2. 导航到 自动化 > 私有选项卡
  3. 单击 创建 > 任务机器人
    确保不要将 机器人 放置在文档工作区流程文件夹中。
  4. 机器人 提供一个名称,例如 doc-processing-with-classification。
  5. 创建以下变量:
    变量名称 描述 数据类型
    SourcePath 包含待预处理文档的文件夹路径 字符串 输入待预处理文档所在的文件路径
    PreProcessedFilePath 包含已预处理文档的文件夹路径 字符串 输入已预处理文档可用的文件路径
    OutputPath 包含提取数据和无效或失败文档的文件夹的文件路径 字符串 输入您希望提取输出的文件路径
    FilesInFolderPreProcessing 保存文件名和扩展名 字典 不适用
    FilesInFolderDataProcessing 保存文件名和扩展名 字典 不适用

    请参阅 创建变量

  6. 插入一个循环操作,以遍历特定文件路径中的所有待分类的文档。
    1. 双击循环操作或将该操作拖动到编辑器中。
    2. 选择对于文件夹中的每个文件迭代器
    3. 文件夹路径字段中,输入$SourcePath$
    4. 将文件名和扩展名分配给此变量字段中,输入 $FilesInFolderPreProcessing$
    请参阅 循环 软件包
  7. 配置文档预处理的操作。
    1. 将预处理器 软件包 中的增强图像操作拖动到循环容器中。
    2. 输入文件字段中,选择桌面文件选项,并输入 $SourcePath$/$FilesInFolder{name}$.$FilesInFolder{extension}$
    3. 输出路径字段中,选择桌面文件夹选项,并输入 $PreProcessedFilePath$
  8. 插入一个循环操作,以遍历特定文件路径中所有用于数据处理的文档。
    1. 双击循环操作或将该操作拖动到编辑器中。
    2. 选择对于文件夹中的每个文件迭代器
    3. 文件夹路径字段中,输入 $PreProcessedFilePath$
    4. 将文件名和扩展名分配给此变量字段中,输入 $FilesInFolderDataProcessing$
    请参阅 循环 软件包
  9. 配置操作以将文档上传到与特定学习实例关联的流程。
    1. Process Composer 软件包 中的创建请求操作拖动到循环容器中。
    2. 公共流程字段中,单击浏览,然后选择一个在公共模式下可用的学习实例。
    3. 输入文件字段中,选择桌面文件选项,并输入 $PreProcessedFilePath$/$FilesInFolderDataProcessing{name}$.$FilesInFolderDataProcessing{extension}$
    4. 字符串“InputFileName”字段中,输入 $FilesInFolderDataProcessing{name}$.$FilesInFolderDataProcessing{extension}$
    5. 字符串“OutputFolder”字段中,输入 $OutputPath$
  10. 使用文件包,您可以执行以下操作:
    • 使用复制桌面文件操作,您可以将成功处理的文件复制到桌面上的不同位置。 例如,在源文件字段中输入 $PreProcessedFilePath$/$FilesInFolderDataProcessing{name}$.$FilesInFolderDataProcessing{extension}$
    • 使用删除操作,您可以在文档上传到 Document Automation 后将其移除。 例如,在文件字段中输入 $PreProcessedFilePath$/$FilesInFolderDataProcessing{name}$.$FilesInFolderDataProcessing{extension}$

    请参阅 文本文件 软件包

  11. 单击保存
现在,当您运行此自动化时,文档会先经过预处理以增强图像质量,然后用于学习实例中进行数据提取。