문서 또는 페이지 분류 규칙 설정

이 항목에서는 문서 또는 페이지 분류 규칙을 설정하는 기능에 대해 설명합니다.

규칙 및 사용법 이해

문서를 할당해야 하는 카테고리를 결정하는 데 규칙이 사용됩니다. 아래 예에서 규칙은 Annexure와 같은 특정 구문을 지정할 수 있으며 규칙이 문서 텍스트에 적용될 때 해당 구문이 발견되면 규칙과 관련된 카테고리에 80과 같은 높은 점수가 할당되어 강력한 일치를 나타냅니다.

[
{
"DocumentTypeID": 0,
"Location": 0,
"Distance": 1,
"Score": 80,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": false,
"TextRulePhrases": [
{
"Text": "Annexure",
"IsNegativePhrase": false,
"PhraseType": 1
}
}
]

규칙은 가장 관련 있는 문서 카테고리를 결정할 때 분류 모델의 정확도를 향상시키는 데 추가 지침이 필요할 때 유용합니다. 기술적으로는 규칙을 사용하여 모든 분류를 수행할 수 있지만 특히 많은 수의 카테고리를 처리할 때 규칙 구성 관리가 시간이 지남에 따라 상당한 오버헤드가 되기 때문에 모범 사례는 아닙니다.

규칙 파일의 예

규칙 파일은 json 스키마이며 아래에 지정된 json 형식입니다. <filename>.json에는 여러 규칙 설정이 있을 수 있습니다. 분류 트레이닝 프로세스 중에 문서를 고려하려면 지정된 트레이닝 폴더 카테고리(예: C:\Invoice\Vendor1)에 배치되어야 합니다.

[
{
"DocumentTypeID": 0,
"Location": 1,
"Distance": 3,
"Score": 90,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": true,
"TextRulePhrases": [
{
"Text": "Annexure",
"IsNegativePhrase": false,
"PhraseType": 1
},
{
"Text": "Terms & Conditions",
"IsNegativePhrase": false,
"PhraseType": 1
},
{
"Text": "Payment Terms",
"IsNegativePhrase": false,
"PhraseType": 1
}
]
},
{
"DocumentTypeID": 2,
"Location": 2,
"Distance": 1,
"Score": 95,
"KBGuid": "00000000-0000-0000-0000-000000000000",
"IsEnabled": true,
"ExpectExactSequence": false,
"TextRulePhrases": [
{
"Text": "Addendum",
"IsNegativePhrase": true,
"PhraseType": 5
}
]
}
]

규칙 파일의 구성 가능한 속성

구성 설명
DocumentTypeID 현재 이 필드는 지원되지 않습니다. 설정 중인 모든 규칙에 대해 정적 텍스트를 0과 같이 유지할 수 있습니다.
Location
이 구성은 규칙이 적용되는 문서 텍스트의 위치를 지정합니다. 값은 0, 1, 2 또는 3일 수 있습니다.
  • "Location": 0 모든 위치: 문구를 찾는 데 제한이 없으며 문서의 어느 위치에나 있을 수 있습니다.

  • "Location": 1 첫 페이지: 문구는 문서의 첫 페이지에 있어야 합니다.

  • "Location": 2 내부 캡션: 문구는 문서의 캡션 텍스트 안에 있어야 합니다.
  • "Location": 3 마지막 페이지: 문구는 문서의 마지막 페이지에 있어야 합니다. 몇 페이지만 텍스트 규칙 분류기에 제공된다면 마지막 페이지가 분류기에 전달됩니다..
Distance
이 구성은 문서 텍스트에서 조회가 수행될 때 문구 사이의 거리를 지정합니다. 규칙은 거리가 이 구성에 따라 지정된 경우에만 일치합니다. 값은 0, 1, 2 또는 3일 수 있습니다.
  • "Distance": 0 동일한 텍스트 라인: 모든 문구는 동일한 텍스트 라인에 있어야 합니다.
  • "Distance": 1 다음 텍스트 라인: 모든 구문은 동일한 텍스트 라인에 있거나 서로 간에 최대 한 라인의 줄바꿈이 있어야 합니다.
  • "Distance": 2 같은 단락: 모든 구문은 동일한 단락 텍스트 내에 있어야 합니다.
  • "Distance": 3 같은 페이지: 모든 문구는 같은 페이지에 있어야 합니다.
Score 규칙 일치가 수행되면 해당 규칙과 연결된 카테고리(또는 트레이닝 폴더)에 점수가 할당됩니다. 점수 값의 범위는 -100에서 100까지입니다.
KBGuid 현재 이 필드는 지원되지 않습니다. 설정 중인 모든 규칙에 대해 정적 텍스트를 00000000-0000-0000-0000-000000000000과 같이 유지할 수 있습니다
IsEnabled 이렇게 하면 true 또는 false로 각각 설정하여 규칙을 활성화하거나 비활성화할 수 있습니다.
ExpectExactSequence
규칙에서 여러 구문을 조회할 때 이 구성은 정확한 시퀀스 기반 일치를 지정합니다. 예를 들어, true를 예에서 설정했다면 "Text": "Annexure", "Text": "Terms & Conditions", "Payment Terms"는 이 순서대로 문서 텍스트에 있어야 규칙과 일치합니다. 이러한 문구 사이에 다른 텍스트가 존재할 수 있지만 이러한 문구의 순서가 연속적이고 한 문구가 다른 문구 뒤에 오는 것이 중요합니다.
주: 예상되는 시퀀스가 특정 패턴을 따를 것이라는 것이 매우 명확하지 않은 한 이 구성을 false로 유지하는 것이 좋습니다.

TextRulePhrases

TextRulePhrases는 문서 텍스트에 대해 조회해야 하는 모든 구문 텍스트 값을 포함합니다. 하나 이상의 문구 텍스트 값을 가질 수 있습니다.

Text Text - 문서 텍스트에 대해 조회해야 하는 문구 텍스트 값을 지정합니다
IsNegativePhrase IsNegativePhrase- 조회 조건이 조회의 부정문 유형인지 여부를 지정합니다. 예에서 true를 설정한다면, 이것은 "Text": "Addendum"이 일치시킬 규칙에 대한 문서 텍스트에 없다는 것을 의미합니다.
PhraseType PhraseType은 문구 텍스트 값이 문서 텍스트에 대해 조회될 때 사용될 일치 유형을 지정합니다.

"PhraseType": 1 Fuzzy Match를 사용하면 단어 일치에서 약간의 허용 오차를 사용할 수 있습니다. 구문은 Levenshtein 거리가 80% 이하이면 일치합니다. 5자 단어의 경우 이는 1자가 다를 수 있음을 의미합니다.

"PhraseType": 5 완전 일치는 구문이 정확히 일치해야 하지만 여전히 문자 대소문자를 무시하고 일부 구두점 필터링도 포함합니다.

"PhraseType": 6 RegularExpression을 사용하면 원본 텍스트에서 검색되는 정규식을 정의할 수 있습니다. 이 유형의 일치에 대해서는 텍스트 사전 처리 또는 구두점 문자 필터링이 수행되지 않습니다.