추출 모델 선택
- 최종 업데이트2024/10/31
추출 모델 선택
Document Automation은 광범위한 문서 처리 유스케이스를 지원하기 위해 다양한 추출 공급자를 지원합니다. 문서 처리에 사용할 추출 공급자를 결정하려면 다양한 추출 공급자를 벤치마킹하거나 특정 유스케이스를 해결하기 위해 두 개 이상의 추출 공급자를 조합하여 선택해야 할 수도 있습니다.
예를 들어, 대출 신청 패킷의 경우 W-2 양식, 은행 거래 내역서와 같은 특정 데이터를 추출하려면 Automation Anywhere 추출 공급자를 사용하고, 송장, 신분증과 같은 특정 데이터를 추출하려면 Google Document AI 추출 공급자를 사용할 수 있습니다. 이러한 시나리오에서는 하나의 추출 공급자만 사용하여 데이터를 추출하면 전체 범위를 제공하지 못합니다.
추출 공급자를 결정하는 데 있어 중요한 입력 사항 중 하나는 처리하려는 문서의 유형(즉 정형 문서, 반정형 문서, 비정형 문서)을 고려하는 것입니다. 문서 유형에 대한 정보는 문서 유형 항목을 참조하십시오.
정형 문서
일관된 구조와 명확한 레이아웃을 따르는 정형 문서의 경우 데이터 추출을 위해 Document Automation에서 표준 양식 추출 모델을 사용하는 것이 좋습니다. 이 모델은 템플릿 기반 모델과 OCR(광학 문자 인식) 기능을 결합하여 양식이나 신분증과 같이 매우 일관된 형식의 정형 문서에서 키-값 쌍과 테이블 데이터를 추출합니다. Document Automation에서 표준 양식을 사용하여 사용자 정의 모델 생성 항목을 참조하십시오.
반정형 문서
반정형 문서의 경우 필요한 데이터를 제공하는 조합을 결정하기 위해 다양한 추출 모델과 공급자에 대한 테스트와 유효성 검사가 필요한 경우가 많습니다. 일부 유스케이스에서는 필드와 테이블에서 필요한 데이터를 추출하기 위해 다양한 추출 모델과 공급자의 조합을 사용하여 두 개 이상의 학습 인스턴스를 만들어야 할 수도 있습니다. 이 모델은 OCR 기능과 키워드 기반 추출, 정규 표현식, 유효성 검사 피드백을 결합하여 다양한 형식에서 키-값 쌍과 테이블 데이터를 추출합니다.
문서 유형 | 추출 공급자 | |
---|---|---|
Automation Anywhere | Google Document AI | |
송장 | 예 | 예 |
도착 통지서 | 예 | 아니오 |
선하증권 | 예 | 아니오 |
포장 명세서 | 예 | 아니오 |
영수증 | 아니오 | 예 |
사용자 정의 | 예 | 예 |
공공 요금 | 아니오 | 예 |
화물통지서 | 예 | 아니오 |
비정형 문서
표준 형식, 고정된 레이아웃 또는 계약서처럼 라벨이 없는 데이터가 부족한 비정형 문서의 경우 데이터 추출을 위해 Document Automation 내의 비정형 문서 추출 모델을 사용하는 것이 좋습니다. 비정형 문서의 추출은 의미적 의미를 이해하고 복잡한 문서 형식을 분석할 수 있는 생성형 AI 모델에 의존합니다.