Google CDE를 사용하여 학습 인스턴스 생성

학습 인스턴스는 문서 유형, 언어 및 추출할 필드와 같은 정보를 가지는 구조입니다. 사용자 정의 추출기 프로세서를 생성한 후 문서에서 데이터를 추출하려면 학습 인스턴스를 생성해야 합니다.

전제 조건

  • Google CDE(Custom Document Extractor) 프로세서를 성공적으로 생성하고 교육했는지 확인합니다.
  • Control Room에 문서 워크스페이스(페이지 수) 제품 라이선스가 있는지 확인합니다.
  • BYOK를 구성했는지 확인합니다. 자세한 내용은 Google CDE용 BYOK 키 가져오기 구성 항목을 참조하십시오.

새 프로세서를 Google Document AI와 통합하기 위해 학습 인스턴스를 생성하는 것이 중요합니다. 여기에는 제공업체를 Google Document AI(사용자 정의) 옵션으로 활용하는 것이 포함됩니다. 이 옵션을 사용하여 학습 인스턴스를 생성하면 사용자는 프로세서 내 이름과 동일하게 양식 및 테이블 필드를 정의할 수 있습니다.
주:
  • 현재 Google Document AI는 단일 테이블 추출을 지원합니다.
  • 확인란 기능(미리보기 모드)은 확인란 필드에 일관되지 않은 추출을 야기하여 일관되지 않은 결과를 초래할 수 있습니다. 이러한 경우 시스템에서 확인란 필드 값을 정확하게 추출할 수 없으면 찾을 수 없음으로 라벨링됩니다.

프로시저

  1. Control Room 홈 페이지에서 관리 > 학습 인스턴스 > 학습 인스턴스 생성으로 이동합니다.
    학습 인스턴스 생성 창이 새 탭에서 열립니다.
  2. 생성할 새 학습 인스턴스의 이름을 추가합니다.
  3. 문서 유형 드롭다운 메뉴에서 사용자 정의를 선택합니다.
  4. 제공업체 메뉴에서 Google Document AI(사용자 정의)를 선택합니다.
  5. 다음을 클릭합니다.
  6. 양식 필드 또는 테이블 필드 탭을 선택합니다.
  7. Google CDE 프로세서에서 사용되는 스키마 레이블과 동일한 이름으로 새 필드를 만듭니다.
    주: 새 필드를 만들 경우 해당 필드의 이름이 Google 프로세서에서 사용되는 스키마 라벨과 일치하는지 확인합니다. 양식 필드와 테이블 필드의 이름을 모두 일치시켜야 합니다.
  8. 생성을 클릭합니다.

    새 학습 인스턴스가 생성되면 Control Room자동화 > 문서 워크스페이스 프로세스 폴더에 학습 인스턴스와 같은 이름의 폴더를 생성합니다.

    Google Document AI 학습 인스턴스에 대한 사용자 정의 양식 및 표 필드를 추가할 수 있습니다. Google이 지원하지 않는 필드에서 데이터를 추출하려는 경우 사용자 정의 필드를 만들 수 있습니다. 이 개선된 기능은 문서 추출 시 사용자 정의 필드와 함께 Google의 사전 트레이닝됨 모델을 사용할 수 있습니다.

    Google Document AI 학습 인스턴스에 대한 사용자 정의 필드를 추가할 때는 다음 사항을 고려하십시오.
    • 문서 유형에 대한 사용자 정의 양식 및 테이블 필드를 추가할 수 있습니다.
    • 사용자 정의 필드를 편집하고 저장할 수 있습니다.
    • 사용자 정의 필드에 정규식(RegEx)을 사용할 수 있습니다.
    • 이전 패키지에 첨부된 기존 학습 인스턴스에 사용자 정의 필드를 추가할 수 있습니다.

      이 경우, 학습 인스턴스를 저장하면 패키지 버전을 업데이트하라는 알림이 표시됩니다.

    • 패키지가 여러 기능과 호환되지 않는 경우 가장 높은 패키지 버전에 해당하는 메시지가 표시됩니다.
    • 설정과 함께 사용자 정의 필드를 .dw 파일로 가져오거나 내보낼 수 있습니다.
    • 사용자 정의 필드를 추출할 때 필드가 이전 패키지 버전과 역호환됩니다.
      • 학습 인스턴스에서 사용자 정의 필드를 사용하는 경우, 이전 패키지(v.29 이하)에서는 오류가 발생하지 않으며 사용자 정의 필드에 빈 값이 포함됩니다.
      • 표준 필드와 마찬가지로, 이전 패키지(v.29)는 해당되는 경우 사용자 정의 필드에 정규화 및 규칙을 적용합니다.
  9. 학습 인스턴스의 추출 Bot을 서비스 계정 및 프로세서 엔드포인트 URL로 업데이트합니다.
    1. 자동화 > 문서 워크스페이스 프로세스 > <LI 이름> > <Li 이름>_extractionbot에서 해당 학습 인스턴스에 대한 bot을 엽니다.
    2. 추가 설정 옵션에서 Google DocAI를 선택합니다.
    3. 서비스 계정 필드에서 서비스 계정 키가 저장된 자격증명 저장소 로커, 자격증명 및 속성을 선택합니다. 자세한 내용은 Google CDE용 BYOK 키 가져오기 구성 항목을 참조하십시오.
    4. Google CDE 프로세서에서 예측 엔드포인트 URL을 복사합니다.
      Google Document AI의 예측 엔드포인트
    5. 복사한 URL을 문서 프로세서용 엔드포인트 URL에 붙여넣습니다.

      문서 프로세서용 Document AI 엔드포인트 URL

다음 단계

학습 인스턴스에 문서를 업로드하고, 유효성 검사 오류를 수정하고, 추출된 데이터를 확인합니다. 자세한 내용은 Document Automation에서 문서 처리 항목을 참조하십시오.