Classifier 트레이닝 작업 사용

Classifier 트레이닝 작업을 이용하여 분류 작업에서 이용하는 모델 파일을 생성하여 문서를 입력에 필요한 범주로 정렬합니다.

전제 조건

Bot을 구축하기 전에 예제 문서를 수집하고 폴더로 분류합니다. 예제 문서 세트가 다음 요구 사항을 충족하는지 확인하십시오.

  • 최소 2개의 범주가 있습니다.
  • 카테고리당 최소 15페이지(20페이지 권장).
  • 여러 페이지가 있는 입력 PDF 문서를 단일 페이지 PDF 문서로 분할합니다. 문서 분할 작업 사용 항목을 참조하십시오.

    예를 들어, 세 페이지가 있는 PDF 문서가 있는 경우 세 개의 단일 페이지 PDF 문서로 분할됩니다.

이러한 최소 요구사항이 충족되지 않으면 Bot 실행시간에 오류 메시지가 나타납니다.

각 폴더에는 관련 학습 인스턴스가 처리할 문서의 샘플인 문서가 선택되어 있습니다. Classifier 트레이닝 작업에서 폴더에 있는 파일을 읽고, 각 폴더에 저장된 문서를 기반으로 모델을 구축합니다.
주: ABBYY FineReader Engine OCR이 이제 버전 12.4에서 버전 12.2로 다운그레이드되므로 이전 .icmf 파일을 사용하여 문서 분류기 패키지Automation 360 v.24의 모델을 다시 트레이닝할 수 없습니다. 기존 범주에 더 많은 범주 또는 파일을 추가하려면 새 모델을 생성해야 합니다.

프로시저

  1. 작업 팔레트의 Document Classifier 패키지에서 Classifier 트레이닝 작업을 더블 클릭하거나 드래그합니다.
  2. 트레이닝을 클릭하여 새 모델 파일 생성을 계속합니다.
  3. 옵션: 기존 모델 파일이 있는 경우 다시 트레이닝을 클릭합니다.
    1. 트레이닝 폴더 경로 필드를 사용하여 바탕화면 폴더 탭에서 기존 폴더 경로를 선택합니다.
      또는 변수 탭을 클릭하여 기존 트레이닝 폴더 경로를 수동으로 입력합니다.
    2. 기존 zip 경로 필드를 사용하여 Control Room 파일 또는 바탕화면 파일 탭에서 .zip 폴더의 파일 경로를 선택합니다.
      또는 변수 탭을 클릭하여 .zip 폴더의 경로를 수동으로 입력합니다.
      주: 문서를 트레이닝할 때 .icmf, .data.properties 파일이 포함된 .zip 폴더가 생성됩니다. 기존 모델 파일을 다시 트레이닝하기 위해 전체 .zip 폴더를 업로드해야 합니다.
  4. 바탕화면 폴더 또는 변수에서 입력 폴더 경로를 선택합니다.

    입력 폴더 경로에는 Classifier를 교육할 문서의 범주에 해당하는 이름이 있는 하위 디렉토리가 있어야 합니다. 예를 들어, 판매 관련 문서가 있는 경우, 입력 폴더 경로에는 InvoicePurchase Order와 같은 하위 폴더가 있어야 합니다.

  5. 옵션: 바탕화면 파일을 선택한 경우, 찾아보기를 클릭하여 기본 파일 경로를 변경합니다.
  6. 모델 이름 필드에 모델 파일의 이름을 입력합니다.
  7. 모델 출력 경로 필드를 이용하여 출력 모델 파일의 디렉터리를 선택합니다.
  8. 옵션: 다음 고급 설정을 구성합니다.
    1. 트레이닝 최적화: 드롭다운 메뉴를 이용하여 트레이닝 최적화 유형을 선택합니다.
      • 정밀: 트레이닝 모델이 정확하기를 원하지만 몇 가지 문서가 없는 경우 이 옵션을 선택합니다.
      • 리콜: 트레이닝 모델이 데이터 세트 내의 모든 관련 예시를 찾도록 하려면 이 옵션을 선택합니다.
      • F1 점수: 이는 정밀리콜에 대한 트레이닝 최적화를 결합하기 때문에 기본으로 선택되며 권장 설정입니다.

      F1 점수는 기본으로 선택됩니다. 정밀리콜.

    2. 분류 유형: 드롭다운 메뉴를 이용하여 텍스트, 이미지 또는 양쪽과 같이 포함할 기능을 선택합니다.

      텍스트 및 이미지는 기본으로 선택됩니다. 텍스트 또는 텍스트 및 이미지를 선택하는 경우 지원되는 언어 목록이 인식 언어 드롭다운 메뉴에 표시됩니다.

    3. OCR 설정: 모든 텍스트 블록 추출이미지에서 텍스트 추출은 기본으로 활성화됩니다.

      OCR 설정이 기본적으로 활성화되어 있으면 OCR에서 콘텐츠를 추출하는 데 더 많은 시간이 걸립니다. 이렇게 하면 상대적으로 낮은 품질의 문서도 OCR의 입력을 기반으로 처리됩니다.

  9. 저장실행을 클릭합니다.
    기존 모델을 다시 훈련할 때 이미 훈련된 데이터를 가져와 입력 문서의 텍스트 또는 레이아웃 기능에서 생성된 새 데이터와 결합합니다. 그런 다음 머신 러닝 모델을 처음부터 학습해야 합니다. 이 방법을 사용하면 이미 학습된 문서의 텍스트 데이터 또는 레이아웃 데이터를 다시 생성하는 데 필요한 시간을 절약할 수 있습니다. 그러나 머신 러닝 모델을 교육하는데 계산 비용이 많이 들어 재교육 방법은 시간이 많이 소요될 것으로 예상됩니다. 이것이 제약이 되는 경우 추가 모델 파일을 생성하여 추가 교육 및 분류에 사용하는 것이 좋습니다.
    모델은 모델 출력 경로 필드에 지정된 디렉터리에 .icmf 파일로 생성됩니다.

다음 단계

모델을 생성한 후 Bot을 구축하고 입력 문서를 분류합니다. 분류 작업 사용 항목을 참조하십시오.