使用培训分类器 action

使用培训分类器 action 创建分类 action 所使用的模型文件,将文档分类至所需的类别以供输入。

先决条件

在构建 bot 之前,收集示例文档并将其分类到文件夹中。 确保示例文档集符合以下要求:

  • 至少有两个类别。
  • 每个类别至少 15 页(建议 20 页)。
  • 将包含多页的输入 PDF 文档拆分为单页 PDF 文档。 请参阅 使用拆分文档 action

    例如,如果您有一个包含三页的 PDF 文档,请将其拆分为三个单页 PDF 文档。

如果未满足这些最低要求,bot 运行时将显示错误消息。

每个文件夹都有一组选定的文档,这些文档是相关学习实例将要处理的文档的样本。 训练分类器 action 将读取文件夹中的文件,并基于每个文件夹内存储的文档构建模型。
注: 由于 ABBYY FineReader Engine OCR 现在已从版本 12.4 降级到版本 12.2,旧版 .icmf 文件将无法再用于重新训练 Document Classifier package Automation 360 v.24 中的模型。 如果您想在现有类别中添加更多类别或文件,您必须创建一个新模型。

过程

  1. Actions 面板中,从文档分类器 package 双击或拖动 训练分类器 action
  2. 单击训练,以继续创建新的模型文件。
  3. 可选: 如果您有现有模型文件,请单击重新训练
    1. 使用训练文件夹路径字段,从桌面文件夹选项卡中选择一个现有文件夹路径。
      或者,单击变量选项卡,手动输入一个现有训练文件夹路径。
    2. 使用 现有 zip 路径字段中,从 Control Room 文件桌面文件选项卡中选择 .zip 文件夹的文件的路径。
      或者,单击变量选项卡,手动输入 .zip 文件夹的路径。
      注: 当您训练文档时,会创建一个 .zip 文件夹,其中包含 .icmf.data.properties 文件。 确保您上传整个 .zip 文件夹,以重新训练现有模型文件。
  4. Desktop 文件夹变量中选择输入文件夹路径。

    输入文件夹路径必须具有与您要培训分类器的文档类别对应的名称的子目录。 例如,如果您有销售相关的文档,则输入文件夹路径必须包含子文件夹,如 InvoicePurchase Order

  5. 可选: 如果选择 Desktop 文件,请单击浏览以更改默认文件路径。
  6. 型号名称字段中输入型号文件的名称。
  7. 使用型号输出路径字段选择输出模型文件的目录。
  8. 可选: 配置以下高级设置
    1. 培训优化: 使用下拉菜单选择培训优化的类型。
      • 精确性:如果您希望您的培训模型精确,但可能错过少数文档,请选择此选项。
      • 召回:当您希望培训模型查找数据集中的所有相关案例时,请选择此选项。
      • F1 分数:默认选择,推荐设置,因为它结合了精确性召回的培训优化。

      默认情况下选择F1 分数精确度召回

    2. 分类类型: 使用下拉菜单选择要包括的功能,例如文本、图像或两者。

      默认选择文本和图像。 如果您选择文本文本和图像,受支持语言列表将显示在识别语言下拉菜单中。

    3. OCR 设置: 默认情况下会启用提取所有文本块从图像提取文本

      由于默认启用 OCR 设置OCR 在提取内容时会消耗更多时间。 这确保也会根据 OCR 的输入处理质量相对较低的文档。

  9. 单击保存运行
    当您重新训练现有模型时,您会获取已训练的数据,并将其与从输入文档的文本或布局特征生成的新数据相结合。 在此之后,您必须从头开始训练机器学习模型。 这种方法可以节省重新生成已训练文档的文本数据或布局数据所需的时间。 然而,计算量大的部分是训练机器学习模型,因此重新训练方法预计较为耗时。 如果这构成限制,我们建议您创建额外的模型文件用于进行额外的训练和分类。
    模型输出路径字段指定的目录中创建作为 .icmf 文件的模型。

后续步骤

创建模型后,构建一个 bot 对输入文档进行分类。 请参阅 使用分类 action