Community Edition에서 학습 인스턴스 생성

학습 인스턴스를 만들어 문서 처리를 시작합니다. Community Edition에서 ABBYY OCR 제공자를 사용하여 영어로 된 송장에서 데이터를 추출할 수 있습니다.

프로시저

  1. Control Room 홈 페이지에서 관리 > 학습 인스턴스 > 학습 인스턴스 생성으로 이동합니다.
  2. 학습 인스턴스의 이름 및 설명을 입력합니다.
    Document Automation은 중복 학습 인스턴스 이름을 허용하지 않으므로 제공하는 이름은 고유해야 합니다.
  3. 다음을 클릭합니다.

양식 및 테이블 필드를 구성할 때 샘플 문서를 Control Room 창과 나란히 여는 것이 좋습니다.

주:
  • 양식 필드는 한 문서에서 한 번만 발생하는 필드 유형입니다.
  • 테이블 필드는 문서 전체에서 반복되는 필드 유형으로, 일반적으로 테이블 형식입니다.

  1. 추출을 위한 양식 및 테이블 필드를 구성합니다.
    Document Automation은 표준 양식 및 테이블 필드 세트를 제공하며 이들 대부분은 처음에는 보이지 않습니다. 필드 이름, 필드 라벨 또는 데이터 유형으로 필드를 검색할 수 있습니다.
    전체 필드 목록을 보려면 미사용 필드 표시를 클릭합니다. 데모는 다음 비디오를 참조하십시오.
    필드를 클릭하여 필드 편집기를 엽니다. 필드의 속성은 대부분 편집할 수 있습니다. 이름 및 기본 별칭은 편집할 수 없습니다. Document Automation은 하드 코딩된 키워드인 기본 별칭을 표준 필드에 할당하여 추출을 지원합니다. 기본 별칭을 수정하거나 삭제할 수 없지만 사용자 지정 별칭 필드에서 별칭을 추가할 수 있습니다. 사용자 지정 별칭을 만드는 방법에 대한 데모는 다음 비디오를 참조하십시오.

    Google Document AI 학습 인스턴스에 대한 사용자 정의 양식 및 표 필드를 추가할 수 있습니다. Google이 지원하지 않는 필드에서 데이터를 추출하려는 경우 사용자 정의 필드를 만들 수 있습니다. 이 개선된 기능은 문서 추출 시 사용자 정의 필드와 함께 Google의 사전 트레이닝됨 모델을 사용할 수 있습니다.

    Google 문서 AI 학습 인스턴스에 대한 사용자 정의 필드를 추가할 때는 다음 사항을 고려하십시오.
    • 송장, 공과금 고지서 등의 문서 유형에 대한 사용자 정의 양식 및 표 필드를 추가할 수 있습니다.
      주: 영수증 문서에는 사용자 정의 필드를 추가할 수 없습니다.
    • 사용자 정의 필드를 편집하고 저장할 수 있습니다.
    • 사용자 정의 필드에 정규식(RegEx)을 사용할 수 있습니다.
    • 이전 패키지에 첨부된 기존 학습 인스턴스에 사용자 정의 필드를 추가할 수 있습니다.

      이 경우, 학습 인스턴스를 저장하면 패키지 버전을 업데이트하라는 알림이 표시됩니다.

    • 별칭을 기반으로 V8 엔진을 사용하여 사용자 정의 필드를 추출할 수 있습니다.
    • 패키지가 여러 기능과 호환되지 않는 경우 가장 높은 패키지 버전에 해당하는 메시지가 표시됩니다.
    • 정의된 별칭 및 설정과 함께 사용자 정의 필드를 .dw 파일로 가져오거나 내보낼 수 있습니다.
    • 사용자 정의 필드를 추출할 때 필드가 이전 패키지 버전과 역호환됩니다.
      • 학습 인스턴스에서 사용자 정의 필드를 사용하는 경우, 이전 패키지(v.29 이하)에서는 오류가 발생하지 않으며 사용자 정의 필드에 빈 값이 포함됩니다.
      • 표준 필드와 마찬가지로, 이전 패키지(v.29)는 해당되는 경우 사용자 정의 필드에 정규화 및 규칙을 적용합니다.
    위쪽/아래쪽 화살표에 액세스하려면 필드 오른쪽에 있는 메뉴 아이콘 위로 마우스를 가져갑니다. 화살표를 사용하여 필드 순서를 다시 정렬하면 수동 검증을 보다 효율적으로 수행할 수 있습니다. 필드 순서는 추출에 영향을 주지 않습니다.
    다른 필드 속성에 대해 자세히 알아보려면 다음 단계의 테이블을 검토하십시오.
  2. 필드를 추가하려면 필드 추가를 클릭하고 다음 필드를 작성합니다.
    옵션설명
    필드 이름 알파벳 문자(A~Z 또는 a~z)로 시작하는 필드 이름을 입력합니다.

    표준 필드에서 필드 이름은 하드 코딩되어 있으며 변경할 수 없습니다.

    필드 라벨 검증기를 돕기 위해 사용자에게 친숙한 이름을 입력합니다.

    예를 들어 조직 세금 번호VAT 번호와 같은 지역화된 이름으로 바꿀 수 있습니다.

    필드 라벨은 추출에 영향을 미치지 않습니다.

    신뢰도 잠재적인 오탐률을 줄이기 위해 임계값을 설정합니다.

    처리 시 Document Automation 엔진은 데이터가 올바르게 추출되었다는 확실성을 나타내기 위해 문서의 각 필드에 점수를 부여합니다. 문서에 신뢰 임계값보다 낮은 점수가 있는 필드가 있는 경우 해당 문서는 검증 대기열로 전송됩니다.

    높은 신뢰 임계값을 입력하면 더 많은 문서가 검증 대기열로 보내집니다. 낮은 신뢰도 임계값을 입력하면 검증 대기열로 전송되는 문서가 줄어듭니다.

    0에서 100까지의 값을 지원합니다.

    데이터 유형 주소*, 텍스트, 숫자날짜 중에서 선택합니다.

    필드의 데이터가 데이터 유형과 일치하지 않으면 문서가 검증 대기열로 보내집니다.

    Document Automation은 날짜 및 숫자 형식 변형을 지원합니다.

    * 사용자 정의 문서 유형으로 학습 인스턴스를 구성하는 경우, 양식 필드에는 주소의 전체 구조를 추출하는 주소 데이터 유형이 포함됩니다.

    날짜/숫자 형식 지정 추출된 날짜와 숫자를 특정 형식으로 변환하도록 표준 모양을 설정합니다. 이렇게 하면 데이터베이스 및 기타 기록 시스템에서 일관성과 정확성이 보장됩니다.

    예를 들어, 날짜를 MM/DD/YYYY로 표준화하도록 선택하고 처리된 문서에 12 Feb 2023으로 표시되는 날짜가 포함된 경우 학습 인스턴스는 날짜를 02/12/2023으로 다시 형식을 지정합니다.

    영어(미국) 로케일로 숫자를 표준화하도록 선택하고 처리된 문서에 100,00으로 표시되는 숫자가 포함된 경우 학습 인스턴스는 숫자를 100.00으로 다시 형식을 지정합니다.

    필수 다음 중 하나를 선택합니다.
    • 필수 사항: 필드는 비워둘 수 없습니다.
    • 선택 사항: 필드가 비어 있거나 문서에 존재하지 않을 수 있습니다.
    기본 별칭 이 필드에는 아무 작업도 필요하지 않습니다. Document Automation은 하드 코딩된 키워드인 기본 별칭을 표준 필드에 할당하여 추출을 지원합니다.
    사용자 지정 별칭 Document Automation이 필드를 찾는 데 도움이 되는 추가 키워드입니다. 예를 들어 VAT 번호와 같은 필드의 국가 또는 지역별 이름을 조직 세금 번호 사용자 지정 필드에 별칭으로 추가합니다.
    주: 사용자 지정 별칭은 고유해야 합니다. 다른 필드의 기본 별칭과 중복될 수 없습니다. 예외: 양식 필드가 테이블 필드로 중복된 사용자 지정 별칭을 가질 수 있으며 그 반대의 경우도 마찬가지입니다.
    검증 규칙 데이터 유형에 따라 패턴, 수식, 목록 및 문(예: 다음으로 시작 또는 다음으로 종료)을 사용하여 규칙을 만듭니다.

    수식 유효성 검사 | 정규식 패턴 유효성 검사

  3. 생성을 클릭합니다.

다음 단계

학습 인스턴스에 문서를 업로드하고, 검증 오류를 수정하고, 추출된 데이터를 확인합니다. Community Edition에서 문서 처리