Train Advanced Classifier 작업 사용

Train Advanced Classifier 작업을 사용하여 문서 분류, 페이지 분류 또는 문서 분할 작업에서 사용하는 모델 파일을 생성하여 문서를 입력에 필요한 범주로 정렬합니다.

전제 조건

Bot을 구축하기 전에 예제 문서를 수집하고 폴더로 분류합니다. 예제 문서 세트가 다음 요구 사항을 충족하는지 확인하십시오.
  • 최소 2개의 범주가 있습니다.
  • 범주당 최소 15개의 파일이 필요하며 범주당 20개의 파일이 권장됩니다.
  • 최대 범주 수에는 제한이 없습니다. 그러나 학습 데이터 세트와 해당 모델 크기가 증가함에 따라 분류 프로세스의 성능이 저하될 수 있다는 점을 유의하십시오. 따라서 최적의 성능을 위해 모델 파일당 범주 수를 150개 범위 내로 유지하는 것이 좋습니다.
  • 지원되는 파일 형식은 다음과 같습니다.
    • .tiff
    • .bitmap
    • .jepg
    • .png
    • .pdf
    • .txt
  • 300dpi(인치당 도트 수) 해상도의 이미지를 제공하는 것이 좋습니다. 최소 허용 해상도는 200dpi입니다.
주:

이러한 최소 요구사항이 충족되지 않으면 Bot 실행시간에 오류 메시지가 나타납니다.

프로시저

  1. 작업 팔레트의 Advanced Classifier 패키지에서 Train Advanced Classifier 작업을 더블 클릭하거나 드래그합니다.
  2. 모델 이름 필드에 모델 파일의 이름을 입력합니다.
  3. 바탕화면 폴더 또는 변수에서 교육 폴더 경로를 선택합니다. 입력 폴더 경로에는 Classifier를 교육할 문서의 범주에 해당하는 이름이 있는 하위 디렉토리가 있어야 합니다. 예를 들어, 판매 관련 문서가 있는 경우, 입력 폴더 경로에는 Invoice 및 Purchase Order와 같은 하위 폴더가 있어야 합니다.
  4. 선택 사항: 바탕화면 파일을 선택한 경우, 찾아보기를 클릭하여 기본 파일 경로를 변경합니다. 예: C:\Users\Dave\BankStatement\TrainingData
  5. 모델 출력 경로 필드를 이용하여 출력 모델 파일의 디렉터리를 선택합니다.
  6. 라이선스 필드에 라이선스 자격증명을 입력합니다.
  7. 자격증명 옵션을 선택한 경우 선택을 클릭하여 라이선스 로커에서 라이선스를 가져옵니다.
  8. 문서 분할 교육 필드에서:
    비활성화를 선택한 경우:
    1. 고급 설정의 드롭다운 메뉴에서 빌드하려는 분류기 유형에 따라 분류 유형을 선택합니다.
      • 시각적 분류자
      • 콘텐츠 분류자
      • 시각 및 콘텐츠 분류자
    2. 선택 사항: 텍스트 규칙을 추가합니다.
    활성화를 선택한 경우:
    1. 다음 옵션이 표시됩니다.
      • 알 수 없는 문서 병합 - 기본적으로 선택 취소되어 있습니다.
      • 알 수 없는 페이지 임계값 - 기본적으로 30%
      • 분할 신뢰도 임계값 (또는 분리 분할 임계값) - 기본적으로 70%
    2. 고급 설정의 드롭다운 메뉴에서 빌드하려는 분류기 유형에 따라 분류 유형을 선택합니다.
      • 시각적 분류자
      • 콘텐츠 분류자
      • 시각 및 콘텐츠 분류자
    3. OCR 유형 필드에서 분류를 위한 OCR 엔진을 선택합니다.
    4. 선택 사항: 텍스트 규칙을 추가합니다.
    주: 범주당 하나의 규칙 파일만 있어야 합니다. 규칙 파일이 범주 폴더 외부에 있는 경우 다음 오류 메시지가 표시됩니다.

    유효하지 않은 규칙 파일 위치

  9. 저장실행을 클릭합니다.

다음 단계

모델을 생성한 후 Bot을 구축하고 입력 문서를 분류합니다. 자세한 내용은 문서 분류 작업 사용 항목을 참조하십시오.