文档分类是一个自动化过程,通过使用分类器软件包将文档或文档内的页面根据其属性(如布局和/或内容)分组或分成不同类别。

您可以在需要组织文档并执行文档处理的场景中使用此过程。 例如,在文档分类过程完成后,您可以在适当的学习实例中处理。

如何进行分类

文档分类按照以下方式处理文档:

组织文档
当一个文件包含大量文档时,文档分类有助于将文档整理到相关类别中,从而便于管理和检索这些文档。 这些文件可以包含相同类型的文档(例如发票)或不同类型的文档(例如发票、提单和采购订单)。
精简的工作流
当分类器识别出正确的文档时,您可以在正确的文档处理工作流中使用分类后的文档,从而提高文档识别和数据提取的准确性,例如,在适当的学习实例中处理文档以进行数据提取。
提高效率
通过减少在文档排序和分类上花费的人工努力,文档分类节省了时间并最小化了人工错误。

分类器类型

您可以根据您的个人场景或业务需求选择以下一个分类器选项。

文档分类器

该分类器根据每个文档的第一页将文档分配到不同类别的文件夹中(代表文档类别)。

此外,文档分类器还可以将文档中的各个页面分配到不同的文件夹中。 如果较大文档中嵌入了多页文档,在完成页面级分类后,需要将各个页面合并,以便将其作为单个文档进行处理。 例如,如果抵押文件的第 1 页和第 2 页包含客户信息 (KYC),第 3 页和第 4 页包含客户银行对账单,则将第 1 页和第 2 页分类为客户信息并保存在 KYC 文件夹中,将第 3 页和第 4 页分类为银行对账单并保存在银行对账单文件夹中。 要将 KYC 页面作为单个文档处理,您需要合并存储在 KYC 文件夹中的第 1 页和第 2 页。 同样,要将银行对账单作为单个文档处理,您需要合并存储在银行对账单文件夹中的第 3 页和第 4 页。

高级分类器
除了文档分类器的功能外,此分类器还能够将一个文档拆分为多个文档,并使用预定义规则实现文档或页面级分类。 我们建议您仅在文档分类器无法满足您的要求时使用此分类器。

要了解高级分类器和文档分类器之间的差异,请参阅Advanced Classifier 与 Document Classifier 对比