本主题介绍了对文档或页面进行分类的设置规则功能。

理解规则及其使用

规则用于确定应将文档分配到哪个类别。 对于以下示例,规则可以指定一个特定的短语,如 Annexure,当规则应用于文档文本时,如果找到该短语,则与规则关联的类别将被赋予一个高分,例如 80,表示强匹配。
[ { "DocumentTypeID": 0, "Location": 0, "Distance": 1, "Score": 80, "KBGuid": "00000000-0000-0000-0000-000000000000", "IsEnabled": true, "ExpectExactSequence": false, "TextRulePhrases": [ { "Text": "Annexure", "IsNegativePhrase": false, "PhraseType": 1 } } ]

当需要额外的指导来提高分类模型在确定最相关的文档类别时的准确性时,规则是有用的。 从技术上讲,虽然可以使用规则进行所有分类,但这并不是最佳实践,因为随着时间的推移,规则配置的管理会成为一个显著的负担,尤其是在处理大量类别时。

规则文件示例

规则文件是一个 json 模式,并且是 json 格式,如下所示。 <filename>.json 可以设置多个规则。 要在培训过程中对文件进行分类,必须将其放在指定的培训文件夹类别中,例如,C:\Invoice\Vendor1
[ { "DocumentTypeID": 0, "Location": 1, "Distance": 3, "Score": 90, "KBGuid": "00000000-0000-0000-0000-000000000000", "IsEnabled": true, "ExpectExactSequence": true, "TextRulePhrases": [ { "Text": "Annexure", "IsNegativePhrase": false, "PhraseType": 1 }, { "Text": "Terms & Conditions", "IsNegativePhrase": false, "PhraseType": 1 }, { "Text": "Payment Terms", "IsNegativePhrase": false, "PhraseType": 1 } ] }, { "DocumentTypeID": 2, "Location": 2, "Distance": 1, "Score": 95, "KBGuid": "00000000-0000-0000-0000-000000000000", "IsEnabled": true, "ExpectExactSequence": false, "TextRulePhrases": [ { "Text": "Addendum", "IsNegativePhrase": true, "PhraseType": 5 } ] } ]

规则文件的可配置属性

配置 描述
DocumentTypeID 当前,此字段不受支持。 对于任何正在设置的规则,都可以保留静态文本,如 0
位置
此配置指定了规则适用的文档文本位置。 这些值可以是 0、1、2 或 3。
  • "Location": 0 任何位置: 在查找该短语时没有限制,它可以出现在文档的任何位置。

  • "Location": 1 第一页: 该短语必须在文档的第一页找到。

  • "Location": 2 内部标题: 该短语必须在文档的内部标题文本中找到。
  • "Location": 3 最后一页: 该短语必须在文档的最后一页找到。 如果只向文本规则分类器提供了几页,最后一页将是传递给分类器的那一页。
距离
此配置指定在文档文本中进行查找时短语之间的距离。 只有当距离符合此配置中指定的条件时,规则才会匹配。 这些值可以是 0、1、2 或 3。
  • "Distance": 0 同一文本行:所有短语必须在同一文本行中。
  • "Distance": 1 下一个文本行: 所有短语必须在同一行文本中,或者彼此之间最多有一个换行符。
  • "Distance": 2 同一段落: 所有短语必须在同一段文本中。
  • "Distance": 3 同一页面: 所有短语都必须在同一页面上。
分数 在规则匹配执行后,会将一个分数分配给与该规则相关的类别(或训练文件夹)。 分数值可以在 -100 到 100 之间。
KBGuid 当前,此字段不受支持。 对于任何正在设置的规则,它可以保持静态文本为 00000000-0000-0000-0000-000000000000
IsEnabled 这允许通过设置 truefalse 分别启用或禁用规则。
期望精确序列
在规则中查找多个短语时,此配置指定基于精确序列的匹配。 例如,如果在示例中设置 true"Text": "附录""Text": "条款和条件",以及 "付款条款"必须按此顺序出现在文档文本中,以便规则匹配。 这些短语之间可能存在其他文本,但重要的是这些短语的顺序是连续的,一个接着一个。
注: 除非非常清楚预期序列将遵循特定模式,否则建议将此配置保持为 false

文本规则短语

文本规则短语包含需要对照文档文本查找的所有短语文本值。 它可以有一个或多个短语文本值。

文本 文本 - 指定需要对照文档文本查找的短语文本值
是否为否定短语 是否为否定短语- 指定查询条件是否为否定短语类型的查询。 当在示例中设置 true 时,这将意味着 "Text": "附录" 在规则匹配的文档文本中存在。
短语类型 短语类型指定根据文档文本查找短语文本值时使用的匹配类型

"PhraseType": 1 模糊匹配允许在词语匹配中使用一定的容差。 如果短语的莱文斯坦距离大于等于 80%,则视为匹配。 对于一个 5 个字符的单词,这意味着可以有 1 个字符不同。

"PhraseType": 5 精确匹配要求对短语进行精确匹配,但仍然忽略字符大小写,还包括对标点符号的一些过滤。

"PhraseType": 6 正则表达式允许您定义一个正则表达式,然后在原始文本中进行搜索。 对于这种类型的匹配,不进行文本预处理或标点符号过滤。