Document Automation에서 데이터 추출

시스템이 검증기에서 사용자가 변경한 내용을 통해 추출 정확도를 향상시키는 방법을 이해합니다.

검증을 통한 추출 정확도 향상

학습 인스턴스가 생성되면 사용자는 이 기능을 활성화하여 검증기에서 사용자가 변경한 내용을 기반으로 학습 인스턴스에 피드백을 보낼 수 있습니다. Document Automation에서는 프로덕션 모드로 실행되는 학습 인스턴스가 검증기에서 사용자가 추출 영역의 크기 또는 위치를 조정할 때마다 지속적으로 "학습"할 수 있습니다.

다음 그래픽에서는 학습 인스턴스가 검증에서 지속적으로 피드백을 받는 프로세스에 대한 시각적 개요를 제공합니다.

검증 피드백을 통해 학습 인스턴스를 "교육"하는 프로세스

  1. 업로드된 문서는 추출 엔진을 통과합니다.
  2. 학습 인스턴스가 데이터를 성공적으로 추출하면 문서가 일관 처리(STP) 수에 추가되고 추출된 값이 Success 폴더의 파일에 다운로드됩니다.

    학습 인스턴스가 데이터를 추출할 수 없는 경우 시스템은 문서에 잘 알지 못하는 레이아웃이 포함되어 있는지 평가합니다.

  3. 학습 인스턴스가 문서 레이아웃(새 레이아웃)을 인식하지 못하는 경우 사용자가 추출 영역을 설정하여 데이터를 추출하는 방법을 학습 인스턴스에 "교육"하는 수동 검증으로 문서가 보내집니다.
  4. 추출된 값은 Success 폴더의 파일로 다운로드되고 변경 내용은 피드백 파일에 수집되어 피드백 데이터베이스로 전송됩니다.
    주:
    • 피드백은 사용자가 추출 영역을 변경할 때만 수집됩니다. 사용자가 수동으로 텍스트를 입력하는 경우 시스템은 피드백을 수집하지 않습니다.
    • 피드백 파일에는 후속 문서에서 추출 정확도를 향상시키기 위해 필드 위치에 대한 데이터만 포함됩니다.

    학습 인스턴스가 클러스터를 인식하면 피드백 데이터베이스에서 이전 피드백을 검색하고 이를 사용하여 데이터를 추출합니다.

검증 피드백으로 테이블의 특정 값 추출

Automation 360v.27을 기준으로 둘 이상의 필드가 포함된 셀에서 데이터를 추출하도록 학습 인스턴스를 훈련할 수 있습니다.

예를 들어, 제품 설명 열에 항목 번호도 포함된 경우 유효성 검사 인터페이스에서 항목 번호를 간략하게 설명할 수 있습니다. 학습 인스턴스가 후속 문서를 처리할 때 항목 번호를 추출하고 제품 설명은 무시합니다.

셀에서 특정 값을 추출하도록 학습 인스턴스를 구성하려면 다음 프로세스를 따릅니다.
  1. Automation Anywhere 사전 교육된 모델을 사용하여 학습 인스턴스를 만들고 검증 피드백을 보내는 옵션을 선택합니다. Document Automation에서 학습 인스턴스 생성
  2. 샘플 문서를 업로드하십시오. Document Automation에서 문서 처리
  3. 검증기에서 필드를 찾고 추출하려는 값만 둘러싸도록 상자를 다시 그립니다.
  4. 제출을 클릭하면 새 추출 영역에 대한 정보가 피드백 데이터베이스로 전송됩니다.
  5. 추출의 정확성을 테스트하기 위해 더 많은 문서를 업로드합니다. 결과가 만족스러우면 프로덕션에서 실행할 학습 인스턴스 준비를 진행합니다. 학습 인스턴스를 프로덕션으로 게시

Document Automation가 새 레이아웃을 식별하는 방법

Document Automation 추출은 객체 감지를 기반으로 합니다. 문서 처리 시 추출 엔진은 객체 또는 필드 및 관련 값의 키-값 쌍을 식별합니다. 엔진은 문서의 '지문'을 생성하여 문서에서 객체의 순서와 각 객체의 위치를 저장합니다.

문서가 처리될 때 엔진이 키와 해당 위치를 인식하면 기존 지문을 기반으로 문서를 분류하고 추출합니다. 그렇지 않으면 엔진이 키와 해당 위치를 새 지문으로 저장합니다.

엔진이 문서에서 기존 지문을 인식하거나 새 지문을 생성하는 프로세스