추출 서비스 검토

콘텐츠를 추출하려는 문서가 표준 양식임을 확인한 후 요구 사항에 맞는 표준 양식 추출 서비스 유형을 계획할 수 있습니다.

표준 양식을 처리하는 데 사용할 수 있는 기술은 다음과 같습니다.

IQ Bot 추출 서비스

OCR 및 휴리스틱을 사용하여 표준 양식에서 콘텐츠를 추출하는 템플릿 기반 추출 서비스입니다. 표준 양식당 하나의 템플릿을 학습해야 합니다.

IQ Bot 추출 서비스 사용 가이드라인
  • 문서의 품질이 양호함(300dpi)
  • 문서 콘텐츠가 매우 조밀하지 않음
  • 입력 문서에 필기 사본이 없음(지원이 제한됨)
  • 서명은 현재 지원되지 않음
  • 명확한 머리글, 테이블 경계 등이 있는 간단한 테이블 레이아웃(페이지 내 범위)이 포함됨
  • 확인란이 있는 테이블 또는 콘텐츠를 포함하지 않음(지원이 제한됨)
  • 반복되는 섹션이 없음(지원이 제한됨)
IQ Bot 추출 서비스의 장점
  • 통합되어 간편한 설정
  • 다양한 OCR 엔진으로 추출 정확도 향상
  • 특정 사례에 대해 복잡한 레이아웃(반복되는 섹션, 연속 테이블 등) 추출 가능
  • IQ Bot 라이선스만 필요

Microsoft Azure Form Recognizer 서비스

표준 양식에서 콘텐츠를 추출하기 위해 맞춤형 인공 지능(AI) 모델을 제공하는 타사 기술입니다. 문서에 라벨을 지정하고 교육할 수 있는 사용자 지정 모델을 만들 수 있습니다.

Microsoft Azure Forms Recognizer 서비스 사용 가이드라인

  • 입력 문서:
    • 조밀하고(많은 세부 정보 포함) 품질이 적당(200dpi 초과)할 수 있음
    • 확인란과 라디오 버튼을 포함할 수 있음
    • 필기 콘텐츠가 있을 수 있음
    • 서명을 포함할 수 있음
    • 테이블을 포함할 수 있음

      입력 문서에는 단일 페이지에 걸쳐 있는 테이블도 포함될 수 있습니다. 하지만 표준 양식에 테이블이 다중 페이지에 걸쳐 있는 경우 콘텐츠 추출이 실패할 수 있습니다.

  • 입력 문서의 섹션이 반복되지 않습니다.
  • 뒤바뀐 테이블이 포함된 문서

Microsoft Azure Form Recognizer 서비스의 이점

  • 다양한 표준 양식 유형의 문서를 처리할 수 있음
  • 자동 감지 기능은 머리글이 없는 테이블, 반전된 테이블과 같은 다양한 유형의 테이블을 식별할 수 있음
  • 필기 양식에 대한 우수한 지원