使用分类 action

IQ Bot 分类 action 根据使用 IQ Bot Train Classifier action 创建的模型文件,对输入文档的页面进行分组。

先决条件

  • 如果您尚未执行此操作,请使用 Train Classifier action 创建一个模型文件。 请参阅 使用培训分类器 action
  • 确保输入文件采用 PDF 格式。 如果输入文件是图像文件(.gif.jpg.png.tiff),将图像转换为 PDF。 请参阅 使用将图像转换为 PDF action

循环 action 中使用分类 action 构建 bot,对所选文件夹中的每个文件进行迭代分类。

过程

  1. Actions 面板中,从循环 package 中双击或拖动循环 action
  2. 循环类型字段中,选择迭代器选项。
  3. 迭代器字段中,从下拉列表中选择对于文件夹中的每个文件
  4. 文件夹路径字段中,选择包含输入文件的文件夹路径。
  5. 为此变量分配文件名和扩展名字段中,创建或选择字典变量,以存储所选文件夹路径中文件的名称和扩展名。
    在此示例中,我们将使用一个名称为 dictFile 的字典变量。
  6. Actions 面板中,从 Document Classifier package 双击或拖动分类 action
  7. 输入文件字段中,使用变量输入动态文件路径。
    1. 添加指向文件夹的文件路径,例如 C:\input\
    2. 添加动态文件名字符串:$dictFile(name)$.$dictFile(extension)$
      注: 确保在保存文件名的变量和保存扩展名的变量之间包含一个句点。
    名称扩展键是预定义的。 在循环中插入和运行时,action 将在整个文件夹中循环,并一次调用文件夹中的一个文件。 输入文件值如下所示: C:\input\$dictFile(name)$.$dictFile(extension)$
  8. 分类器字段中,提供模型文件的文件路径。
    您可以选择 .zip 文件夹,或者从该文件夹中提取 .icmf 文件并选择。
    注: 为了获得更好的分类结果和性能,我们建议您使用在 Train Classifier action.zip 文件夹中获得的 .icmf 文件。
  9. 使用输出文件夹路径选项保存分类输出文档。
  10. 可选: 配置以下高级设置
    • 置信度阈值 (%): 如果页面的类别预测的置信度值小于置信度阈值,则会移至未分类文件夹。
    • 保存分类输出变量: 使用以下键将分类结果保存为字典列表:
      • fileName
      • pageIndex
      • 类别
      • confidence
    注:
    • 您可以在 Document Classifier 中选择分类类型:
      • 基于图像的分类
      • 基于文本的分类
      • 基于图像和文本的分类
    • 为了能够预测一个更高的置信度阈值,我们建议您在文档页面相似时计算置信度阈值。 要确定所需的置信度阈值,您可以查看分类输出中的置信度值。
    • Document Classifier 可以自动检测语言进行分类,并支持 ABBYY(光学字符识别应用程序)支持的所有语言。
  11. 单击保存运行
    输出文档的页面将根据在模型文件中创建的类别保存在相应的子文件夹中。 输出文件夹中任何先前已分类的文件都将被覆盖。

后续步骤

您可以使用每个包含相似文档的子文件夹来创建和训练一个学习实例,以从文档中提取数据。 请参阅 创建学习实例