평가의 메트릭과 차원에 대해 더 깊이 이해함으로써 AI 성능에 대한 통찰을 얻을 수 있습니다.

각 평가는 성능 품질에 대한 점수를 반환합니다. 자동 평가를 사용할 때 LLM은 다양한 메트릭을 사용하여 성능을 평가하고 점수를 반환합니다.

메트릭

평가는 AI 역량의 네 가지 주요 태스크 유형을 기준으로 점수가 매겨집니다. 각 유형에는 평가 점수를 제공하기 위한 차원과 메트릭이 있습니다. 평가는 모든 차원이 해결될 때 완전히 완료됩니다.

표 1.
메트릭 메트릭 유형 정의
요약 사실적 일관성 판사로서의 LLM 요약과 요약된 원본 간의 사실적 정합성.
완전성 판사로서의 LLM 요약에 핵심 내용 포함 여부.
Bleu-2 NLP 이 메트릭은 LLM 출력에서 참조 텍스트와 일치하는 바이그램(연속된 두 단어의 시퀀스)의 정밀도를 측정합니다.
Rouge-2 NLP 이 메트릭은 참조 텍스트에 있는 바이그램(연속된 두 단어의 시퀀스)이 LLM 출력에 나타난 재현율을 측정합니다.
텍스트 생성 답변 관련성 판사로서의 LLM 제공된 입력과 비교할 때 LLM 출력의 관련성은 어느 정도입니까?
환각 판사로서의 LLM 실제 출력물을 제공된 맥락과 비교하여 LLM이 사실적으로 정확한 정보를 생성하는지 여부.
Bleu-2 NLP 답변과 기준 답안의 정합성.
Rouge-2 NLP 제공된 입력과 비교했을 때 LLM 출력이 얼마나 관련성이 있습니까?
텍스트 추출 답변 관련성 판사로서의 LLM 제공된 입력과 비교할 때 LLM 출력의 관련성은 어느 정도입니까?
환각 판사로서의 LLM 실제 출력물을 제공된 맥락과 비교하여 LLM이 사실적으로 정확한 정보를 생성하는지 여부.
기준 답안과의 동등성 판사로서의 LLM 답변과 기준 답안의 정합성.
텍스트 분류 정확성 판사로서의 LLM 예측된 레이블 적합성 여부.
정확히 일치함 NLP 이 메트릭은 예상 출력과 실제 출력이 정확히 일치하는지 확인합니다.
거의 정확히 일치함 NLP 이 메트릭은 예상 출력과 실제 출력이 소문자 변환, 구두점 및 관사 제거, 불필요한 공백 제거 등 정규화를 거친 뒤 정확히 일치하는지 확인합니다.