추출 모델 선택

Document Automation은 광범위한 문서 처리 유스케이스를 지원하기 위해 다양한 추출 공급자를 지원합니다. 문서 처리에 사용할 추출 공급자를 결정하려면 다양한 추출 공급자를 벤치마킹하거나 특정 유스케이스를 해결하기 위해 두 개 이상의 추출 공급자를 조합하여 선택해야 할 수도 있습니다.

예를 들어, 대출 신청 패킷의 경우 W-2 양식, 은행 거래 내역서와 같은 특정 데이터를 추출하려면 Automation Anywhere 추출 공급자를 사용하고, 송장, 신분증과 같은 특정 데이터를 추출하려면 Google Document AI 추출 공급자를 사용할 수 있습니다. 이러한 시나리오에서는 하나의 추출 공급자만 사용하여 데이터를 추출하면 전체 범위를 제공하지 못합니다.

추출 공급자를 결정하는 데 있어 중요한 입력 사항 중 하나는 처리하려는 문서의 유형(즉 정형 문서, 반정형 문서, 비정형 문서)을 고려하는 것입니다. 문서 유형에 대한 정보는 문서 유형 항목을 참조하십시오.

정형 문서

일관된 구조와 명확한 레이아웃을 따르는 정형 문서의 경우 데이터 추출을 위해 Document Automation에서 표준 양식 추출 모델을 사용하는 것이 좋습니다. 이 모델은 템플릿 기반 모델과 OCR(광학 문자 인식) 기능을 결합하여 양식이나 신분증과 같이 매우 일관된 형식의 정형 문서에서 키-값 쌍과 테이블 데이터를 추출합니다. Document Automation에서 표준 양식을 사용하여 사용자 정의 모델 생성 항목을 참조하십시오.

반정형 문서

반정형 문서의 경우 필요한 데이터를 제공하는 조합을 결정하기 위해 다양한 추출 모델과 공급자에 대한 테스트와 유효성 검사가 필요한 경우가 많습니다. 일부 유스케이스에서는 필드와 테이블에서 필요한 데이터를 추출하기 위해 다양한 추출 모델과 공급자의 조합을 사용하여 두 개 이상의 학습 인스턴스를 만들어야 할 수도 있습니다. 이 모델은 OCR 기능과 키워드 기반 추출, 정규 표현식, 유효성 검사 피드백을 결합하여 다양한 형식에서 키-값 쌍과 테이블 데이터를 추출합니다.

다음 표에는 반정형 문서를 처리하기 위해 Document Automation에서 사전 훈련된 다양한 추출 모델과 공급자가 나열되어 있습니다. 추출 모델의 사용 가능 여부는 선택한 언어에 따라 달라집니다. 하나의 추출 모델이 Automation AnywhereGoogle Document AI 추출 공급자를 모두 지원하는 경우, 때로는 어느 것이 유스케이스에 더 나은지 확인하기 위해 두 가지를 비교하거나 필요한 경우 두 가지를 함께 사용하여 모든 관련 데이터를 추출하는 것이 좋습니다.
주: 사전 훈련된 추출 모델 목록에 사용하려는 모델이 없으면 일반 모델(사용자 정의)을 사용하세요.
문서 유형 추출 공급자
Automation Anywhere Google Document AI
송장
도착 통지서 아니오
선하증권 아니오
포장 명세서 아니오
영수증 아니오
사용자 정의
공공 요금 아니오
화물통지서 아니오
사용자 정의 문서 유형 사용

비정형 문서

표준 형식, 고정된 레이아웃 또는 계약서처럼 라벨이 없는 데이터가 부족한 비정형 문서의 경우 데이터 추출을 위해 Document Automation 내의 비정형 문서 추출 모델을 사용하는 것이 좋습니다. 비정형 문서의 추출은 의미적 의미를 이해하고 복잡한 문서 형식을 분석할 수 있는 생성형 AI 모델에 의존합니다.

주: 유연성을 높이기 위해 위에서 설명한 옵션 외에도 파서 구성 기능을 사용하여 타사 파서를 통합할 수도 있습니다. 학습 인스턴스에 타사 파서 통합 항목을 참조하십시오.