학습 인스턴스 생성
- 최종 업데이트2024/07/31
학습 인스턴스 생성
학습 인스턴스를 생성하고 트레이닝을 위해 샘플 문서를 업로드합니다. 이 단계에서는 송장 또는 구매 주문서와 같은 단일 문서 유형에 대한 데이터 요소와 추출할 필드를 정의합니다.
전제 조건
샘플 문서가 다음 요구 사항을 충족하는지 확인하십시오.
- 각 문서는 별도의 파일입니다. 예를 들어 이메일과 그 첨부 파일을 하나의 PDF로 다운로드한 경우 이메일 본문을 첨부 파일과 분리해야 합니다. 문서 분할 작업 사용 항목을 참조하십시오.
- 문서는 다음과 같이 지원되는 파일 유형 중 하나입니다.
- JPG
- JPEG
- PNG
- TIFF
- 해상도 값이 300dpi 이상인 문서를 사용합니다.
- 스테이징에서는 학습 인스턴스당 파일 크기가 10MB인 문서를 최대 150개까지 업로드할 수 있습니다.
- 프로덕션에서는 문서당 최대 50MB 크기의 파일을 업로드할 수 있습니다. 그러나 학습 인스턴스당 허용되는 최대 문서 수는 라이선스에 따라 다릅니다.
- pdfbox OCR의 문서당 페이지 수에는 제한이 없습니다.
- 이미지 기반 OCR에서 문서당 60페이지를 업로드할 수 있습니다.
- 최대 12MB 크기의 파일을 업로드할 수 있습니다. 학습 인스턴스를 생성한 후에도 다른 문서를 업로드할 수 있습니다.
- 업로드하는 문서의 파일 이름은 하이픈(-)과 같은 특수 문자로 시작하지 않아야 합니다.
- 추출하려는 텍스트가 다음 특수 문자로 시작하는 경우: ‘# : , \ ` '', 텍스트를 캡처할 때 특수 문자가 IQ Bot에서 무시됩니다.
주:
- Tesseract4 OCR에는 현재 문서당 페이지 수를 60페이지 미만으로 제한하는 알려진 제한 사항이 있습니다.
- Azure 기밀 컴퓨팅을 통해 조직은 암호화된 데이터를 가상 머신의 개인 폴더와 같은 보안 저장소에 업로드할 수 있습니다. 이러한 보안 폴더에서 IQ Bot으로 문서를 업로드하면 해당 문서에서 데이터 추출이 지원되지 않으므로 분류되지 않은 상태로 이동됩니다.
디지털 프로세스에 삽입할 문서 모음으로 시작할 때 문서 유형, 형식 및 방향이 혼합되어 있을 수 있습니다. 예를 들어 송장에는 일관된 데이터 요소 집합이 있는 반면 구매 주문서에는 서로 다른 데이터 요소 집합이 포함됩니다. 다음 단계를 사용하여 이러한 문서 유형 각각에 대해 다른 학습 인스턴스를 생성해야 합니다.
프로시저
다음 단계
분류기가 문서 정렬을 마친 후에는 디자이너로 리디렉션되고, 여기에서 각 샘플 문서에서 데이터를 추출하도록 Bot을 트레이닝합니다. 학습 사례 교육.