문서 유형
- 최종 업데이트2024/12/16
문서 유형
문서 유형은 문서의 목적, 레이아웃 및 내용을 기반으로 한 분류입니다. Document Automation은 정형 문서, 반정형 문서 및 비정형 문서 유형을 처리하기 위해 지원합니다.
정형 문서
정형 문서는 데이터 입력 또는 기록 시 일관된 구조와 명확한 레이아웃을 따르기 때문에 자동화된 시스템에서 더 쉽게 데이터를 추출하고 처리할 수 있습니다. 이러한 문서에 사용되는 데이터 추출 모델은 템플릿 기반 모델과 OCR(광학 문자 인식) 기능을 결합하여 정형 문서에서 키-값 쌍과 테이블 데이터를 추출합니다.
다음은 정형 문서의 몇 가지 예입니다.
- 신청서
- 설문조사
- 여권
- 세금 양식
반정형 문서
반정형 문서는 정형 문서처럼 어느 정도 정형화되거나 예측 가능한 형식을 갖추고 있으나, 레이아웃이나 내용에 약간의 차이가 있는 문서입니다. 일부 문서에는 공통된 데이터 요소가 포함되어 있을 수 있지만, 해당 데이터는 문서마다 다른 위치에 있을 수 있습니다. 이러한 문서에 사용되는 데이터 추출 모델은 OCR 기능과 키워드 기반 추출, 정규 표현식, 유효성 검사 피드백을 결합하여 반정형화 문서에서 키-값 쌍과 테이블 데이터를 추출합니다.
다음은 반정형화 문서의 몇 가지 예입니다.
- 송장
- PO(구매 주문서)
- 선하증권
- EOB(혜택 설명서)
비정형 문서
비정형 문서는 표준 형식, 고정 레이아웃 또는 라벨이 없는 데이터가 부족합니다. 데이터는 대부분 일관된 구조가 없는 자연어 형식으로 되어 있습니다. 데이터 추출 모델은 OCR 기능과 NLP(자연어 처리) 및 생성형 AI 기술을 결합하여 의미 분석을 수행하고 비정형 문서에서 키-값 쌍과 테이블 데이터를 추출합니다.
다음은 비정형 문서의 몇 가지 예입니다.
- 법률 문서
- 통신(이메일 포함)
- 보고서