문서 유형

문서 유형은 목적, 레이아웃, 내용을 기준으로 문서를 분류한 것입니다. Document Automation은 처리를 위해 정형 문서, 반정형 문서, 비정형 문서 유형을 지원합니다.

정형 문서

정형 문서는 데이터 입력 또는 기록 시 일관된 구조와 명확한 레이아웃을 따르기 때문에 자동화된 시스템에서 더 쉽게 데이터를 추출하고 처리할 수 있습니다. 이러한 문서에 사용되는 데이터 추출 모델은 템플릿 기반 모델과 OCR(광학 문자 인식) 기능을 결합하여 정형 문서에서 키-값 쌍과 테이블 데이터를 추출합니다.

다음은 정형 문서의 몇 가지 예입니다.

  • 신청서
  • 설문조사
  • 여권
  • 세금 양식

반정형 문서

반정형 문서는 정형 문서처럼 어느 정도 정형화되거나 예측 가능한 형식을 갖추고 있으나, 레이아웃이나 내용에 약간의 차이가 있는 문서입니다. 일부 문서에는 공통된 데이터 요소가 포함되어 있을 수 있지만, 해당 데이터는 문서마다 다른 위치에 있을 수 있습니다. 이러한 문서에 사용되는 데이터 추출 모델은 OCR 기능과 키워드 기반 추출, 정규 표현식, 유효성 검사 피드백을 결합하여 반정형화 문서에서 키-값 쌍과 테이블 데이터를 추출합니다.

다음은 반정형화 문서의 몇 가지 예입니다.

  • 송장
  • PO(구매 주문서)
  • 선하증권
  • EOB(혜택 설명서)

비정형 문서

비정형 문서는 표준 형식, 고정 레이아웃 또는 라벨이 없는 데이터가 부족합니다. 데이터는 대부분 일관된 구조가 없는 자연어 형식으로 되어 있습니다. 데이터 추출 모델은 OCR 기능과 NLP(자연어 처리) 및 생성형 AI 기술을 결합하여 의미 분석을 수행하고 비정형 문서에서 키-값 쌍과 테이블 데이터를 추출합니다.

다음은 비정형 문서의 몇 가지 예입니다.

  • 법률 문서
  • 통신(이메일 포함)
  • 보고서

Document Automation는 모든 문서 유형에서 데이터 추출을 처리할 수 있습니다. 그러나 문서가 어떤 범주에 속하는지 파악하는 것은 데이터 추출에 사용할 옵션을 결정하는 데 중요합니다.