비정형 문서 유형 사용
- 최종 업데이트2024/10/31
비정형 문서 유형 사용
비정형 문서 유형을 사용하면 표준 형식, 고정된 레이아웃을 포함하지 않거나 레이블이 없는 데이터를 포함하지 않는 비정형 문서에서 데이터를 추출할 수 있습니다.
모델은 OCR 기능과 자연어 처리(NLP) 및 생성형 AI 기술을 결합하여 의미 분석을 수행하고 비정형 문서에서 키-값 쌍과 테이블 데이터를 추출합니다.
다음은 비정형 문서의 몇 가지 예입니다.
- 법률 문서
- 통신(이메일 포함)
- 보고서
이 모델은 다음 생성형 AI 제공자 중에서 선택할 수 있는 옵션을 제공합니다.
- OpenAI
- 이 옵션을 사용하면 다음 기능이 제공됩니다.
- 다양한 작업을 처리
- 영어 및 다른 언어로 된 문서 처리 가능
- 멀티모달 기능 지원
- 특정 모델에 대한 미세 조정 기능
- Anthropic
- 이 옵션을 사용하면 다음 기능이 제공됩니다.
- 대용량 비정형 문서의 효율적인 처리 가능
- 영어 및 다른 언어로 된 문서 처리 가능
- 데이터 추출 정확도가 향상되어 문서를 빠르게 처리 가능
생성형 AI 제공자는 일반화된 인텔리전스를 제공하므로 다양한 문서 유형에 필요한 학습 인스턴스나 모델에 대한 특정 훈련이 필요하지 않습니다. 대신, 학습 인스턴스를 구성할 때 사용자는 문서에서 데이터를 추출하는 방법을 식별하고 정의하기 위해 쿼리 프롬프트를 최적화해야 합니다. 예를 들어, 계약서 및 합의서에서 특정 데이터를 검색하기 위해 다음과 같은 샘플 프롬프트를 정의할 수 있습니다.
- 계약의 발효일은 언제입니까?
- 참조 번호는 무엇입니까?
- 계약의 발효일은 언제입니까? 답을 MM/DD/YYYY 형식으로 반환합니다.
- 참조 번호는 무엇입니까? AAA-12345 패턴을 따라야 합니다.
-
계약 발효일 기준으로 미납 세금이 있습니까? 예 또는 아니오로 답하십시오.
주: 쿼리 프롬프트가 비어 있으면 추출 결과나 출력이 비어 있게 됩니다. 워크플로가 후처리 데이터를 포함할 때, 데이터를 위한 자리 표시자로 프롬프트를 비워 두어야 할 때가 있을 수 있습니다. 예를 들어, 데이터베이스에서 데이터를 검색하여 현장에서 비교하고자 하는 경우가 있습니다.
시스템에서 정의한 양식 및 테이블 필드는 비구조화된 문서 유형이 표준 형식이나 고정된 레이아웃을 사용하지 않거나 레이블이 없는 데이터를 포함하지 않기 때문에 사용할 수 없습니다. 학습 인스턴스를 구성할 때 데이터 추출이 필요한 모든 양식 및 테이블 필드를 정의해야 합니다.
Microsoft Azure, AWS 또는 GCP에서 생성형 AI 모델의 프라이빗 클라우드 인스턴스를 사용하고자 하는 고객의 경우, 자체 프라이빗 클라우드 내의 모델에 연결할 수 있습니다. 자체 생성형 AI 서비스에 연결 항목을 참조하십시오.