문서 또는 페이지 분류 규칙 설정
- 최종 업데이트2024/10/31
문서 또는 페이지 분류 규칙 설정
이 항목에서는 문서 또는 페이지 분류 규칙을 설정하는 기능에 대해 설명합니다.
규칙 및 사용법 이해
문서를 할당해야 하는 카테고리를 결정하는 데 규칙이 사용됩니다. 아래 예에서 규칙은 Annexure와 같은 특정 구문을 지정할 수 있으며 규칙이 문서 텍스트에 적용될 때 해당 구문이 발견되면 규칙과 관련된 카테고리에 80과 같은 높은 점수가 할당되어 강력한 일치를 나타냅니다.
[
{
"DocumentTypeID": 0,
"Location": 0,
"Distance": 1,
"Score": 80,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": false,
"TextRulePhrases": [
{
"Text": "Annexure",
"IsNegativePhrase": false,
"PhraseType": 1
}
}
]
규칙은 가장 관련 있는 문서 카테고리를 결정할 때 분류 모델의 정확도를 향상시키는 데 추가 지침이 필요할 때 유용합니다. 기술적으로는 규칙을 사용하여 모든 분류를 수행할 수 있지만 특히 많은 수의 카테고리를 처리할 때 규칙 구성 관리가 시간이 지남에 따라 상당한 오버헤드가 되기 때문에 모범 사례는 아닙니다.
규칙 파일의 예
규칙 파일은 json 스키마이며 아래에 지정된 json 형식입니다. <filename>.json에는 여러 규칙 설정이 있을 수 있습니다. 분류 트레이닝 프로세스 중에 문서를 고려하려면 지정된 트레이닝 폴더 카테고리(예: C:\Invoice\Vendor1)에 배치되어야 합니다.
[
{
"DocumentTypeID": 0,
"Location": 1,
"Distance": 3,
"Score": 90,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": true,
"TextRulePhrases": [
{
"Text": "Annexure",
"IsNegativePhrase": false,
"PhraseType": 1
},
{
"Text": "Terms & Conditions",
"IsNegativePhrase": false,
"PhraseType": 1
},
{
"Text": "Payment Terms",
"IsNegativePhrase": false,
"PhraseType": 1
}
]
},
{
"DocumentTypeID": 2,
"Location": 2,
"Distance": 1,
"Score": 95,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": false,
"TextRulePhrases": [
{
"Text": "Addendum",
"IsNegativePhrase": true,
"PhraseType": 5
}
]
}
]
규칙 파일의 구성 가능한 속성
구성 | 설명 |
---|---|
DocumentTypeID |
현재 이 필드는 지원되지 않습니다. 설정 중인 모든 규칙에 대해 정적 텍스트를 0 과 같이 유지할 수 있습니다. |
Location |
이 구성은 규칙이 적용되는 문서 텍스트의 위치를 지정합니다. 값은 0, 1, 2 또는 3일 수 있습니다.
|
Distance |
이 구성은 문서 텍스트에서 조회가 수행될 때 문구 사이의 거리를 지정합니다. 규칙은 거리가 이 구성에 따라 지정된 경우에만 일치합니다. 값은 0, 1, 2 또는 3일 수 있습니다.
|
Score |
규칙 일치가 수행되면 해당 규칙과 연결된 카테고리(또는 트레이닝 폴더)에 점수가 할당됩니다. 점수 값의 범위는 -100에서 100까지입니다. |
KBGuid |
현재 이 필드는 지원되지 않습니다. 설정 중인 모든 규칙에 대해 정적 텍스트를 00000000-0000-0000-0000-000000000000 과 같이 유지할 수 있습니다 |
IsEnabled |
이렇게 하면 true 또는 false 로 각각 설정하여 규칙을 활성화하거나 비활성화할 수 있습니다. |
ExpectExactSequence |
규칙에서 여러 구문을 조회할 때 이 구성은 정확한 시퀀스 기반 일치를 지정합니다. 예를 들어,
true 를 예에서 설정했다면 "Text": "Annexure" , "Text": "Terms & Conditions" , "Payment Terms" 는 이 순서대로 문서 텍스트에 있어야 규칙과 일치합니다. 이러한 문구 사이에 다른 텍스트가 존재할 수 있지만 이러한 문구의 순서가 연속적이고 한 문구가 다른 문구 뒤에 오는 것이 중요합니다.주: 예상되는 시퀀스가 특정 패턴을 따를 것이라는 것이 매우 명확하지 않은 한 이 구성을 false 로 유지하는 것이 좋습니다. |
|
|
Text |
Text - 문서 텍스트에 대해 조회해야 하는 문구 텍스트 값을 지정합니다 |
IsNegativePhrase |
IsNegativePhrase - 조회 조건이 조회의 부정문 유형인지 여부를 지정합니다. 예에서 true 를 설정한다면, 이것은 "Text": "Addendum" 이 일치시킬 규칙에 대한 문서 텍스트에 없다는 것을 의미합니다. |
PhraseType |
PhraseType 은 문구 텍스트 값이 문서 텍스트에 대해 조회될 때 사용될 일치 유형을 지정합니다.
|