Automation 360

AI 평가

PDF로 다운로드

콘텐츠

AI 평가

PDF로 다운로드

최종 업데이트2025/12/29

Automation 360

AI 평가는 관리자가 생성형 AI 기능의 결과를 추적하고 평가할 수 있도록 합니다.

AI 평가 개요

주: 최상의 결과를 얻으려면 AI 기술 패키지 버전 9.0.0을 사용하고 있는지 확인하십시오.

AI 평가는 생성형 AI(genAI) 시스템의 특성과 역량을 평가하기 위해 설계된 도구입니다. 이 도구에는 성능, 견고성, 공정성, 안전성, 해석 가능성, 그리고 의도된 목표 및 윤리적 원칙과의 부합성과 같은 요소를 정량화하고 정성화하기 위한 지표와 방법론이 포함됩니다. AI 평가는 전문 개발자가 설계 단계에서 AI 기술를 평가하고 자격을 부여할 수 있도록 설계되어, 요구되는 기준을 충족하는지 확인합니다.

생성형 AI의 도입이 확대됨에 따라, 조직 내 배포 및 확장 이전에 모델 품질을 평가할 수 있는 도구의 필요성이 대두되고 있습니다. AI 평가는 평가 과정을 신속하게 진행하는 직관적이고 간편한 인터페이스를 제공하여 이러한 요구 사항을 충족합니다. 철저한 평가를 실시함으로써 사용자는 저하된 모델 성능과 품질 저하와 관련된 위험을 완화하여 신뢰할 수 있는 AI 솔루션을 보장할 수 있습니다.

다음 다이어그램은 평가가 어떻게 수행되는지를 보여줍니다.
평가 과정에서 수행되는 다양한 작업을 보여주는 다이어그램

이러한 평가들은 NLP(자연어 처리)와 LLM(대규모 언어 모델)을 활용하여 판단하고 점수를 제공하며, AI 시스템을 개선하는 방법에 대한 통찰을 제공합니다. 평가 과정은 체계적인 접근 방식을 적용하며, NLP 지표와 연구 기반 인사이트를 활용해 상세한 평가를 수행합니다. 이는 모델 출력물을 원하는 결과와 비교하고, 성능 변화 여부를 모니터링하며, 필요할 때 수정하도록 유도하는 과정을 포함합니다. 지속적인 개선을 통해 AI 모델이 사용자 요구에 부합하도록 효과적이고 최적화된 상태를 유지할 수 있습니다.

AI 평가 랜딩 페이지

평가는 개발 과정에 원활하게 통합되어 있습니다. 중앙 집중식의 사용자 친화적인 인터페이스를 통해 점수, 지표 및 평가 도구에 접근할 수 있어 별도의 전문적인 머신러닝 지식이 필요하지 않습니다. 이러한 접근성은 사용자가 필요에 따라 효율적으로 평가를 수행하고 AI 모델을 최적화할 수 있도록 보장합니다.

평가 탭에서 완료된 평가를 찾습니다.
완료된 평가에서 인사이트를 표시하려면 평가 이름을 클릭합니다.

주요 개념

출력 비교: AI 평가의 핵심 기능 중 하나는 언어 모델이 생성한 출력 결과를 사전에 정의된 원하는 출력과 비교할 수 있는 기능입니다. 이를 통해 지정된 기준과 표준에 부합하는지 확인할 수 있으며, 생성된 콘텐츠의 적합성과 정확성을 최적화할 수 있습니다. 이러한 비교에 사용할 데이터 세트 또는 예상 출력값을 업로드하거나 수동으로 입력할 수 있습니다.

AI 기술 개발에서의 동시 평가: AI 기술이 발전함에 따라 평가를 모델 개발과 동시에 진행할 수 있습니다. 이러한 반복적인 프로세스는 실시간 조정과 개선을 가능하게 하여, AI 역량의 역동적인 향상을 촉진합니다.

지표 및 연구 인사이트: 평가 프로세스는 NLP 지표에 대한 업계 표준과 포괄적인 머신러닝 연구를 기반으로 합니다. 이러한 지표들은 AI 모델의 이점과 성능에 대한 귀중한 인사이트를 제공하는 기반을 마련합니다. 변수가 불완전한 경우, 시스템은 평가를 수정하고 다시 실행하도록 요청하여 철저함과 정밀성을 보장합니다.

이러한 NLP 지표의 계산은 평가 실행을 구성할 때 제공하는 예상 출력값을 기반으로 합니다. 평가에서 예상 출력값을 사용할 수 없는 경우, LLM-as-a-Judge가 사전에 정의된 지표를 활용하여 점수를 산정합니다.

평가자 및 지표 출처: 평가자는 AI 출력물을 평가하는 메커니즘의 역할을 하며, 업계 표준으로부터 지표를 도출합니다. LLM-as-a-Judge를 사용할 경우, 이 메커니즘은 평가가 인간과 유사하면서도 포괄적인 접근 방식을 취하도록 연구에 기반하여 작동합니다.

평가는 시스템을 사용해 소스와 출력 성능을 비교하는 자동 실행 방식으로 진행할 수 있습니다. 자동으로 AI 평가 실행하기 항목을 참조하십시오.
사용자는 수동 실행 옵션을 사용하여 직접 비교할 수도 있습니다. 수동으로 AI 평가 실행하기 항목을 참조하십시오.

평가 기준

이 기준은 이 데이터가 매우 기능적인 솔루션을 지원할 수 있는 능력을 바탕으로 조사되고 선택되었습니다. 이러한 영역의 점수는 의사 결정자가 GenAI 솔루션이 제공하는 품질과 효율성에 영향을 미치는 개선 사항을 식별하는 데 도움이 됩니다.

평가는 일반적인 유스케이스에 필수적인 AI 역량의 네 가지 주요 작업 유형에 중점을 둡니다. 각 유스케이스는 성능 점수와 인사이트를 제공하는 데 필요한 작업 및 사전 정의된 지표에 맞게 분류됩니다. 세부 정보는 AI 평가 메트릭의 내용을 참조하십시오.

표 1.
원칙	설명	유스케이스
요약	출력이 소스와 완전하고 사실적으로 일치하도록 제공하는 능력.	분석, 콘텐츠 조정
텍스트 생성	AI가 제공한 텍스트를 소스 정보와 비교했을 때의 관련성과 정확성.	고객 피드백, 재무 문서
텍스트 추출	기준 데이터를 사용하여 제공된 입력을 비교하고 텍스트가 일치하는지 검증합니다.	질문 및 응답, 정보 추출
텍스트 분류	출력과 소스 간의 주제 카테고리를 검증합니다.	연구

감사 로그

관리자는 AI 거버넌스에서 완료된 각 평가에 대한 세션 및 이벤트 세부 정보를 볼 수 있습니다. AI 거버넌스 항목을 참조하십시오.

권한 및 액세스

관리자는 해당 사용자의 역할 페이지에서 권한을 선택하여 AI 평가을(를) 활성화할 수 있습니다. 이러한 권한은 AI 평가와(과) 관련된 액세스 및 기능을 관리하는 데 필수적입니다.

권한:

AI 평가 보기: 이 권한을 통해 사용자는 AI 평가 점수와 사유를 볼 수 있습니다. 액세스는 사용자가 할당된 폴더 및 AI 기술로 제한됩니다(예: 공개).
AI 평가 관리: 이 권한은 사용자가 평가를 실행하고 데이터 세트를 관리하는 데 필요합니다.