Automation 360

AI 평가 메트릭

PDF로 다운로드

콘텐츠

AI 평가 메트릭

PDF로 다운로드

최종 업데이트2026/04/16

평가의 메트릭과 차원에 대해 더 깊이 이해함으로써 AI 성능에 대한 통찰을 얻을 수 있습니다.

중요사항: 이 기능은 특정 고객용으로 제한되어 있어 일반적으로 사용할 수 없습니다. 자세한 내용은 Automation Anywhere 계정 팀에 문의하십시오.

각 평가는 성능 품질에 대한 점수를 반환합니다. 자동 평가를 사용할 때 LLM은 다양한 메트릭을 사용하여 성능을 평가하고 점수를 반환합니다.

메트릭

평가는 AI 역량의 네 가지 주요 태스크 유형을 기준으로 점수가 매겨집니다. 각 유형에는 평가 점수를 제공하기 위한 차원과 메트릭이 있습니다. 평가는 모든 차원이 해결될 때 완전히 완료됩니다.

주: 점수 값의 경우, 낮은 숫자는 낮은 성능과, 높은 숫자는 높은 성능과 관련이 있습니다.

표 1.
메트릭	메트릭	유형	정의	점수 범위
요약	사실적 일관성	LLM을 심판으로 사용	요약과 요약된 원본 간의 사실적 정합성.	0 - 1
	완전성	LLM을 심판으로 사용	요약에 핵심 내용 포함 여부.	0 - 1
	Bleu-2	NLP	이 메트릭은 LLM 출력에서 참조 텍스트와 일치하는 바이그램(연속된 두 단어의 시퀀스)의 정밀도를 측정합니다.	0 - 1
	Rouge-2	NLP	이 메트릭은 참조 텍스트에 있는 바이그램(연속된 두 단어의 시퀀스)이 LLM 출력에 나타난 재현율을 측정합니다.	0 - 1
텍스트 생성	답변 관련성	LLM을 심판으로 사용	제공된 입력과 비교했을 때 LLM 출력이 얼마나 관련성이 있습니까?	0 - 1
	환각	LLM을 심판으로 사용	LLM이 제공된 컨텍스트와 실제 출력을 비교하여 사실적으로 정확한 정보를 생성하는지 여부.	0 - 1
	Bleu-2	NLP	답변과 기준 답안의 정합성.	0 - 1
	Rouge-2	NLP	제공된 입력과 비교했을 때 LLM 출력이 얼마나 관련성이 있습니까?	0 - 1
텍스트 추출	답변 관련성	LLM을 심판으로 사용	제공된 입력과 비교했을 때 LLM 출력이 얼마나 관련성이 있습니까?	0 - 1
	환각	LLM을 심판으로 사용	LLM이 제공된 컨텍스트와 실제 출력을 비교하여 사실적으로 정확한 정보를 생성하는지 여부.	0 - 1
	기준 답안과의 동등성	LLM을 심판으로 사용	답변과 기준 답안의 정합성.	0 또는 1
텍스트 분류	정확성	LLM을 심판으로 사용	예측된 레이블 적합성 여부.	0 또는 1
	정확히 일치함	NLP	이 메트릭은 예상 출력과 실제 출력이 정확히 일치하는지 확인합니다.	0 또는 1
	거의 정확히 일치함	NLP	이 메트릭은 예상 출력과 실제 출력이 소문자 변환, 구두점 및 관사 제거, 불필요한 공백 제거 등 정규화를 거친 뒤 정확히 일치하는지 확인합니다.	0 또는 1