Document Automation에서 학습 인스턴스 생성

송장, 공과금 청구서 또는 영수증에서 데이터를 추출하는 학습 인스턴스를 생성하여 문서 처리를 시작합니다. 학습 인스턴스는 문서 유형, 언어 및 추출할 필드와 같은 정보를 가지는 구조입니다.

전제 조건

  • 학습 인스턴스를 생성하려면 Learning instance creator 사용자여야 합니다. Document Automation 사용자 항목을 참조하십시오.
  • Google Document AI 모델을 사용하는 학습 인스턴스를 생성하려면 자격증명과 보안 토큰을 보관할 로커를 생성해야 합니다. 자격증명 생성로커 생성의 내용을 참조하십시오.
    주: 로커를 구성할 때 aari-document-processor 사용자 지정 역할을 로커 소비자로 추가해야 합니다.
  • 기본 OCR은 ABBYY FineReader Engine입니다. 또는 Cloud Control Room 사용자는 학습 인스턴스를 생성하여 Google Vision OCR에서 문서를 처리할 수 있습니다.

학습 인스턴스를 생성하는 전체 엔드 투 엔드 프로세스를 보려면 이 비디오를 시청하십시오.

프로시저

  1. Control Room 홈 페이지에서 관리 > 학습 인스턴스 > 학습 인스턴스 생성으로 이동합니다.
  2. 학습 인스턴스의 이름 및 설명을 입력합니다.
    Document Automation은 중복 학습 인스턴스 이름을 허용하지 않으므로 제공하는 이름은 고유해야 합니다.
  3. 문서 유형을 선택합니다. 송장 ,사용자 정의, 공과금 청구서 또는 영수증
    사용자 정의 문서 유형을 사용하여 이제 키-값 쌍과 테이블 구조가 포함된 송장과 시각적으로 유사한 문서(예: 구매 주문서 및 판매 주문서)를 처리할 수 있습니다. 이 문서 유형에서는 모든 양식 및 테이블 필드를 생성하고 구성합니다.
  4. 언어를 선택합니다.
    Document Automation은 영어, 네덜란드어, 프랑스어, 독일어, 이탈리아어, 포르투갈어(브라질) 및 스페인어를 지원합니다.
    주: 프랑스어, 독일어 및 스페인어 문서에 대한 추출은 현재 미리 보기로 제공됩니다. 향후 릴리스에서는 추출 결과가 개선될 것입니다.

    3단계에서 파서를 구성하는 동안 사용되는 문서 유형을 선택하면, 파서 구성 시 선택한 언어가 자동으로 선택됩니다. 또한 로케일 목록에 자동 선택된 언어에 따라 언어 옵션이 표시됩니다.

  5. 송장을 선택한 경우: 공급자를 선택합니다.
    4단계에서 영어를 선택했다면 Automation Anywhere(사전 교육)이 자동으로 선택됩니다.

    3단계에서 파서를 구성하는 동안 사용되는 문서 유형을 선택하면 구성된(타사) 파서가 공급자로 자동 선택됩니다.

  6. 옵션: 검증을 사용한 정확도 개선 옵션을 사용하여 시스템에 피드백을 보내 추출 결과를 개선할 수 있습니다. 자세한 내용은 유효성 검사를 통한 추출 정확도 향상 항목을 참조하십시오
  7. 옵션: OCR 제공자를 선택합니다. 기본적으로 Document AutomationABBYY FineReader Engine의 문서를 처리합니다.
    Cloud Control Room가 있는 사용자는 Google Vision OCR의 문서를 처리하도록 선택할 수 있습니다.
  8. 다음을 클릭합니다.

양식 및 테이블 필드를 구성할 때 샘플 문서를 Control Room 창과 나란히 여는 것이 좋습니다.

주:
  • 양식 필드는 한 문서에서 한 번만 발생하는 필드 유형입니다.
  • 테이블 필드는 문서 전체에서 반복되는 필드 유형으로, 일반적으로 테이블 형식입니다.

  1. 추출을 위한 양식 및 테이블 필드를 구성합니다.
    Document Automation은 표준 양식 및 테이블 필드 세트를 제공하며 이들 대부분은 처음에는 보이지 않습니다. 필드 이름, 필드 라벨 또는 데이터 유형으로 필드를 검색할 수 있습니다.
    전체 필드 목록을 보려면 미사용 필드 표시를 클릭합니다. 데모는 다음 비디오를 참조하십시오.
    필드를 클릭하여 필드 편집기를 엽니다. 필드의 속성은 대부분 편집할 수 있습니다. 이름 및 기본 별칭은 편집할 수 없습니다. Document Automation은 하드 코딩된 키워드인 기본 별칭을 표준 필드에 할당하여 추출을 지원합니다. 기본 별칭을 수정하거나 삭제할 수 없지만 사용자 지정 별칭 필드에서 별칭을 추가할 수 있습니다. 사용자 지정 별칭을 만드는 방법에 대한 데모는 다음 비디오를 참조하십시오.

    Google Document AI 학습 인스턴스에 대한 사용자 정의 양식 및 표 필드를 추가할 수 있습니다. Google이 지원하지 않는 필드에서 데이터를 추출하려는 경우 사용자 정의 필드를 만들 수 있습니다. 이 개선된 기능은 문서 추출 시 사용자 정의 필드와 함께 Google의 사전 트레이닝됨 모델을 사용할 수 있습니다.

    Google 문서 AI 학습 인스턴스에 대한 사용자 정의 필드를 추가할 때는 다음 사항을 고려하십시오.
    • 송장, 공과금 고지서 등의 문서 유형에 대한 사용자 정의 양식 및 표 필드를 추가할 수 있습니다.
      주: 영수증 문서에는 사용자 정의 필드를 추가할 수 없습니다.
    • 사용자 정의 필드를 편집하고 저장할 수 있습니다.
    • 사용자 정의 필드에 정규식(RegEx)을 사용할 수 있습니다.
    • 이전 패키지에 첨부된 기존 학습 인스턴스에 사용자 정의 필드를 추가할 수 있습니다.

      이 경우, 학습 인스턴스를 저장하면 패키지 버전을 업데이트하라는 알림이 표시됩니다.

    • 별칭을 기반으로 V8 엔진을 사용하여 사용자 정의 필드를 추출할 수 있습니다.
    • 패키지가 여러 기능과 호환되지 않는 경우 가장 높은 패키지 버전에 해당하는 메시지가 표시됩니다.
    • 정의된 별칭 및 설정과 함께 사용자 정의 필드를 .dw 파일로 가져오거나 내보낼 수 있습니다.
    • 사용자 정의 필드를 추출할 때 필드가 이전 패키지 버전과 역호환됩니다.
      • 학습 인스턴스에서 사용자 정의 필드를 사용하는 경우, 이전 패키지(v.29 이하)에서는 오류가 발생하지 않으며 사용자 정의 필드에 빈 값이 포함됩니다.
      • 표준 필드와 마찬가지로, 이전 패키지(v.29)는 해당되는 경우 사용자 정의 필드에 정규화 및 규칙을 적용합니다.
    위쪽/아래쪽 화살표에 액세스하려면 필드 오른쪽에 있는 메뉴 아이콘 위로 마우스를 가져갑니다. 화살표를 사용하여 필드 순서를 다시 정렬하면 수동 검증을 보다 효율적으로 수행할 수 있습니다. 필드 순서는 추출에 영향을 주지 않습니다.
    다른 필드 속성에 대해 자세히 알아보려면 다음 단계의 테이블을 검토하십시오.
  2. 필드를 추가하려면 필드 추가를 클릭하고 다음 필드를 작성합니다.
    옵션설명
    필드 이름 알파벳 문자(A~Z 또는 a~z)로 시작하는 필드 이름을 입력합니다.

    표준 필드에서 필드 이름은 하드 코딩되어 있으며 변경할 수 없습니다.

    필드 라벨 검증기를 돕기 위해 사용자에게 친숙한 이름을 입력합니다.

    예를 들어 조직 세금 번호VAT 번호와 같은 지역화된 이름으로 바꿀 수 있습니다.

    필드 라벨은 추출에 영향을 미치지 않습니다.

    신뢰도 잠재적인 오탐률을 줄이기 위해 임계값을 설정합니다.

    처리 시 Document Automation 엔진은 데이터가 올바르게 추출되었다는 확실성을 나타내기 위해 문서의 각 필드에 점수를 부여합니다. 문서에 신뢰 임계값보다 낮은 점수가 있는 필드가 있는 경우 해당 문서는 검증 대기열로 전송됩니다.

    높은 신뢰 임계값을 입력하면 더 많은 문서가 검증 대기열로 보내집니다. 낮은 신뢰도 임계값을 입력하면 검증 대기열로 전송되는 문서가 줄어듭니다.

    0에서 100까지의 값을 지원합니다.

    데이터 유형 주소*, 텍스트, 숫자날짜 중에서 선택합니다.

    필드의 데이터가 데이터 유형과 일치하지 않으면 문서가 검증 대기열로 보내집니다.

    Document Automation은 날짜 및 숫자 형식 변형을 지원합니다.

    * 사용자 정의 문서 유형으로 학습 인스턴스를 구성하는 경우, 양식 필드에는 주소의 전체 구조를 추출하는 주소 데이터 유형이 포함됩니다.

    날짜/숫자 형식 지정 추출된 날짜와 숫자를 특정 형식으로 변환하도록 표준 모양을 설정합니다. 이렇게 하면 데이터베이스 및 기타 기록 시스템에서 일관성과 정확성이 보장됩니다.

    예를 들어, 날짜를 MM/DD/YYYY로 표준화하도록 선택하고 처리된 문서에 12 Feb 2023으로 표시되는 날짜가 포함된 경우 학습 인스턴스는 날짜를 02/12/2023으로 다시 형식을 지정합니다.

    영어(미국) 로케일로 숫자를 표준화하도록 선택하고 처리된 문서에 100,00으로 표시되는 숫자가 포함된 경우 학습 인스턴스는 숫자를 100.00으로 다시 형식을 지정합니다.

    필수 다음 중 하나를 선택합니다.
    • 필수 사항: 필드는 비워둘 수 없습니다.
    • 선택 사항: 필드가 비어 있거나 문서에 존재하지 않을 수 있습니다.
    기본 별칭 이 필드에는 아무 작업도 필요하지 않습니다. Document Automation은 하드 코딩된 키워드인 기본 별칭을 표준 필드에 할당하여 추출을 지원합니다.
    사용자 지정 별칭 Document Automation이 필드를 찾는 데 도움이 되는 추가 키워드입니다. 예를 들어 VAT 번호와 같은 필드의 국가 또는 지역별 이름을 조직 세금 번호 사용자 지정 필드에 별칭으로 추가합니다.
    주: 사용자 지정 별칭은 고유해야 합니다. 다른 필드의 기본 별칭과 중복될 수 없습니다. 예외: 양식 필드가 테이블 필드로 중복된 사용자 지정 별칭을 가질 수 있으며 그 반대의 경우도 마찬가지입니다.
    검증 규칙 데이터 유형에 따라 패턴, 수식, 목록 및 문(예: 다음으로 시작 또는 다음으로 종료)을 사용하여 규칙을 만듭니다.

    수식 유효성 검사 | 정규식 패턴 유효성 검사

  3. 생성을 클릭합니다.
새 학습 인스턴스가 생성되면 Control Room자동화 > 문서 워크스페이스 폴더에 학습 인스턴스와 같은 이름의 폴더를 생성합니다. 이 폴더에는 두 개의 Bot(추출 및 다운로드), 프로세스 및 양식이 포함됩니다.학습 인스턴스 자산의 예시 스크린샷
  • 프로세스: 업로드된 문서에서 Document Automation 데이터를 추출하고, 유효성 검사를 위해 사용자에게 문서를 할당하고, 추출된 데이터를 다운로드하는 IF/Else 시나리오를 사용하여 프로세스를 관리합니다. 자세한 내용은 Document Automation의 Automation Co-Pilot 프로세스 정보 항목을 참조하십시오.
  • Extraction Bot: 업로드된 문서의 정의된 필드에서 데이터를 추출합니다.
  • 다운로드 Bot: 추출된 데이터를 기기 또는 공유 네트워크의 특정 폴더로 다운로드합니다.
  • 양식: 프로세스로 전송되는 입력 매개 변수를 정의합니다. 입력 매개 변수에는 학습 인스턴스 이름, 업로드된 파일 및 출력 파일 경로가 포함됩니다.

Document Automation에서 학습 인스턴스 복사

기존 학습 인스턴스(공용 및 개인)를 복사하여 학습 인스턴스 필드, 파서, 문서 유형 및 언어를 재사용할 수 있습니다. 공용 학습 인스턴스를 복사할 경우, 복사된 학습 인스턴스는 개인 모드로 유지됩니다. 학습 인스턴스를 복사한 후 필요에 따라 기존 매개변수(파서 및 경험적 피드백 제외)를 편집할 수 있습니다.

학습 인스턴스를 가져오려면
  1. 관리 > 학습 인스턴스로 이동합니다.

    모든 학습 인스턴스의 목록이 표시됩니다.

  2. 복사하려는 학습 인스턴스 옆에 있는 세 개의 점 아이콘을 클릭하고 복사 옵션을 클릭합니다.
  3. 학습 인스턴스 복사 창에 인스턴스의 이름을 입력합니다.
    주: 학습 인스턴스를 복사할 때 기본 이름은 접두사 <<인스턴스 이름>> 복사로 시작합니다. 필요에 따라 이름을 변경할 수 있습니다.
  4. 필요한 복사 옵션을 선택하고 복사를 클릭합니다.

    기존 양식 및 테이블 필드 속성, 기존 양식 및 테이블 필드의 검증 규칙, 휴리스틱 피드백을 선택할 수 있습니다.

    성공 메시지는 복사 프로세스가 시작되었음을 나타내며, Control Room 알림이 트리거되어 복사 프로세스의 성공 또는 실패를 나타냅니다.

학습 인스턴스를 복사할 경우, 다음 사항을 고려하십시오.
  • 학습 인스턴스의 대시보드 메트릭은 복사할 수 없습니다.
  • 연결된 학습 인스턴스는 복사할 수 없습니다.
  • Doc AI 학습 인스턴스 자격증명은 복사할 수 없습니다.
  • 인스턴스를 복사하기 전에 학습 인스턴스의 기본 패키지가 삭제된 경우, 복사 프로세스에서 오류가 발생할 수 있습니다.
  • 복사된 각 학습 인스턴스는 별도의 인스턴스입니다.
  • 원본 또는 복사된 학습 인스턴스는 필요에 따라 삭제할 수 있습니다.
  • 감사 항목이 기록됩니다.

다음 단계

학습 인스턴스에 문서를 업로드하고, 검증 오류를 수정하고, 추출된 데이터를 확인합니다. Document Automation에서 문서 처리