Document Automation에서 문서 처리

샘플 송장을 업로드하여 학습 인스턴스를 트레이닝하고 추출된 데이터를 확인한 후 검증 오류를 수정합니다.

전제 조건

  • 아직 수행하지 않은 경우 Document Automation에서 학습 인스턴스 생성.
  • 기기가 Control Room에 연결되었는지 확인합니다. Bot 에이전트 설치 및 기기 등록
  • 학습 인스턴스가 Google Document AI 모델을 사용하고 Automation Anywhere를 통해 Google Document AI 라이선스를 구매하지 않은 경우, Extraction Bot에 대한 Google Document AI 자격증명을 제공해야 합니다. Google Document AI에 대한 키 구성 항목을 참조하십시오.
  • 학습 인스턴스가 Automation Anywhere 모델을 사용하는 경우 각 파일은 50MB 이하여야 합니다.

    학습 인스턴스가 Google Document AI 모델을 사용하는 경우 각 파일은 20MB 이하이고 최대 5페이지여야 합니다.

  • 샘플 문서는 다음과 같은 지원되는 문서 유형 중 하나여야 합니다.
    • PDF
    • JPG
    • JPEG
    • PNG
    • TIF
    • TIFF
  • 추출된 데이터의 기본 출력 형식은 CSV 파일입니다. 출력을 JSON으로 변경하려면 출력 형식을 CSV에서 JSON으로 변경 항목을 참조하십시오.

학습 인스턴스의 데이터 추출 기능을 테스트하기 위해 학습 인스턴스에 샘플 송장을 업로드하려면 다음 단계를 수행하십시오.

프로시저

  1. 학습 인스턴스를 테스트하려면 다음과 같이 문서를 업로드하십시오.
    동영상에서 다음 단계를 참조하십시오.

    1. 문서 처리를 클릭합니다.
      문서 처리
    2. 문서 처리 창에서 찾아보기를 클릭하여 업로드할 파일을 선택합니다.
    3. 데이터 다운로드 대상 필드에 추출된 데이터를 보관할 파일 경로를 입력합니다.
      프로세스가 실행되면 제공된 파일 경로에 다음 세 개의 폴더가 생성됩니다.
      • Success: 지정된 형식(CSV 또는 JSON)으로 추출된 데이터를 보관합니다.
      • Invalid: 유효하지 않음으로 표시된 문서를 보관합니다.
      • Failed: 처리하지 못한 문서를 보관합니다.

      다음 옵션 중 하나를 기반으로 출력 폴더 경로를 제공할 수 있습니다.

      • 옵션 1: 동일한 기기에서 문서 처리 및 검증을 설정한 경우 로컬 기기 경로입니다.

        이 옵션은 일반적으로 학습 인스턴스를 테스트할 때 사용됩니다.

      • 옵션 2: 분산 검증을 별도의 기기에 설정한 경우 공유 폴더 경로입니다.

        이 옵션은 일반적으로 게시된 학습 인스턴스에 사용됩니다. 예: \\10.239.192.60\Sharepath\Output

    4. 문서 처리를 클릭합니다.
      Bot Runner 창이 나타납니다. 문서 처리가 완료되면 창이 사라집니다. 업데이트된 지표를 확인하려면 학습 인스턴스 테이블을 새로 고칩니다.

문서 유효성 검사 링크 옆에 값이 있는 경우 문서 필드를 수동으로 검사해야 합니다. 그렇지 않은 경우 3단계로 진행합니다.

  1. 검증 오류 수정
    1. 문서 유효성 검사를 클릭합니다.
      Automation Co-Pilot 태스크 관리자가 새 탭에서 열리고 실패한 첫 번째 문서가 대기열에 표시됩니다. 검증기 사용자 인터페이스에 대한 소개는 Automation Co-Pilot 유효성 검사기를 통한 문서 유효성 검사 항목을 참조하십시오.
    2. 각 필드를 검토하여 데이터 유형 및 추출된 값을 확인합니다.
      Document Automation는 텍스트, 숫자, 날짜, 주소, 확인란과 같은 데이터 유형을 지원합니다.
      또는 오른쪽 패널의 드롭다운 목록에서 검증이 필요한 필드 표시를 선택할 수 있습니다.
      주: 문서가 검증을 대기하는 동안 학습 인스턴스를 편집하는 경우 재처리를 클릭하여 추출을 다시 시도하십시오.

      문서 재처리는 업로드된 문서 지표에 영향을 미치지 않습니다.

    3. 오류가 있는 필드를 업데이트합니다.
      필드를 클릭하거나 추출하려는 값 주위에 상자를 그립니다.
      Automation Anywhere 사전 교육된 모델을 사용하면 필드의 특정 값을 추출하고 다른 값은 무시하도록 학습 인스턴스를 구성할 수 있습니다. 자세한 내용은 항목을 참조하십시오.
      • 오류를 수정하지 않고 문서를 건너뛰려면 건너뛰기를 클릭하여 검증 대기열의 다음 문서로 이동합니다.
      • 처리할 수 없는 문서를 제거하려면 유효하지 않음으로 표시를 클릭합니다.
    4. 필요한 수정을 한 후 제출을 클릭합니다. 그러면 문서 처리가 완료됩니다.
      대기열의 다음 문서가 나타납니다. 모든 문서가 수정되면 시스템이 더 이상 태스크가 없다는 메시지를 표시합니다.
    5. 학습 인스턴스 페이지로 돌아가려면 탭을 닫습니다.
  2. 출력 결과를 확인합니다.
    1. Success 폴더에서 추출된 데이터가 포함된 파일을 열고 결과를 검토하여 유스케이스와 일치하는지 확인합니다.
      Microsoft 양식은 추출된 값(OCR 데이터)을 GUID_0-MSFormTableResult.json과 같은 JSON 형식의 데이터로 반환합니다. Success 폴더에는 <<GUID>>_FileName CSV 파일에 추출된 문서 데이터와 함께 추출된 테이블 데이터도 다른 CSV 파일에 별도로 표시됩니다. 문서 내 테이블 수에 따라 각 테이블에 대해 서로 다른 CSV 파일을 찾을 수 있습니다. 예를 들어 <<GUID_PAGE_NUMBER-Table_FILENAME_PAGENUMBER_TABLENUMBER입니다.

      별도의 테이블 데이터를 사용하면 추출된 데이터를 GUID_0-MSFormTableResult.json 파일에서 Microsoft 엔진 데이터와 비교할 수 있습니다.

    2. 옵션: 학습 인스턴스 대시보드를 검토합니다.
      대시보드에는 업로드된 문서의 총 수 및 검증 대기 중인 문서 수가 표시됩니다.
학습 인스턴스가 반복적으로 필드를 찾을 수 없거나 문자가 올바르게 인식되지 않는 경우(예: 문자 "l"이 숫자 "1"로 추출됨) OCR을 Google Vision OCR로 변경해 볼 수 있습니다.

다음 단계

소스 폴더에서 학습 인스턴스로 문서를 업로드하는 을 구축합니다. 그런 다음 학습 인스턴스 자산(프로세스, 양식 및 )을 공개 리포지토리에 게시합니다. 그러면 학습 인스턴스를 공개 모드에서 사용하여 실제 문서에서 데이터를 추출하고 검증기가 문서를 수동으로 검사할 수 있습니다. 학습 인스턴스를 프로덕션으로 게시