为文档或页面的分类设置规则
- Updated: 2025/04/30
本主题介绍了对文档或页面进行分类的设置规则功能。
理解规则及其使用
[ { "DocumentTypeID": 0, "Location": 0, "Distance": 1, "Score": 80, "KBGuid": "00000000-0000-0000-0000-000000000000", "IsEnabled": true, "ExpectExactSequence": false, "TextRulePhrases": [ { "Text": "Annexure", "IsNegativePhrase": false, "PhraseType": 1 } } ]
当需要额外的指导来提高分类模型在确定最相关的文档类别时的准确性时,规则是有用的。 从技术上讲,虽然可以使用规则进行所有分类,但这并不是最佳实践,因为随着时间的推移,规则配置的管理会成为一个显著的负担,尤其是在处理大量类别时。
规则文件示例
[ { "DocumentTypeID": 0, "Location": 1, "Distance": 3, "Score": 90, "KBGuid": "00000000-0000-0000-0000-000000000000", "IsEnabled": true, "ExpectExactSequence": true, "TextRulePhrases": [ { "Text": "Annexure", "IsNegativePhrase": false, "PhraseType": 1 }, { "Text": "Terms & Conditions", "IsNegativePhrase": false, "PhraseType": 1 }, { "Text": "Payment Terms", "IsNegativePhrase": false, "PhraseType": 1 } ] }, { "DocumentTypeID": 2, "Location": 2, "Distance": 1, "Score": 95, "KBGuid": "00000000-0000-0000-0000-000000000000", "IsEnabled": true, "ExpectExactSequence": false, "TextRulePhrases": [ { "Text": "Addendum", "IsNegativePhrase": true, "PhraseType": 5 } ] } ]
规则文件的可配置属性
配置 | 描述 |
---|---|
DocumentTypeID
|
当前,此字段不受支持。 对于任何正在设置的规则,都可以保留静态文本,如 0 。 |
位置
|
此配置指定了规则适用的文档文本位置。 这些值可以是 0、1、2 或 3。
|
距离
|
此配置指定在文档文本中进行查找时短语之间的距离。 只有当距离符合此配置中指定的条件时,规则才会匹配。 这些值可以是 0、1、2 或 3。
|
分数
|
在规则匹配执行后,会将一个分数分配给与该规则相关的类别(或训练文件夹)。 分数值可以在 -100 到 100 之间。 |
KBGuid
|
当前,此字段不受支持。 对于任何正在设置的规则,它可以保持静态文本为 00000000-0000-0000-0000-000000000000
|
IsEnabled
|
这允许通过设置 true 或 false 分别启用或禁用规则。 |
期望精确序列
|
在规则中查找多个短语时,此配置指定基于精确序列的匹配。 例如,如果在示例中设置
true ,"Text": "附录" 、"Text": "条款和条件" ,以及 "付款条款" 必须按此顺序出现在文档文本中,以便规则匹配。 这些短语之间可能存在其他文本,但重要的是这些短语的顺序是连续的,一个接着一个。注: 除非非常清楚预期序列将遵循特定模式,否则建议将此配置保持为
false
|
|
|
文本
|
文本 - 指定需要对照文档文本查找的短语文本值 |
是否为否定短语
|
是否为否定短语 - 指定查询条件是否为否定短语类型的查询。 当在示例中设置 true 时,这将意味着 "Text": "附录" 在规则匹配的文档文本中不存在。 |
短语类型
|
短语类型 指定根据文档文本查找短语文本值时使用的匹配类型
|