AI 평가 메트릭
- 최종 업데이트2025/11/21
평가의 메트릭과 차원에 대해 더 깊이 이해함으로써 AI 성능에 대한 통찰을 얻을 수 있습니다.
각 평가는 성능 품질에 대한 점수를 반환합니다. 자동 평가를 사용할 때 LLM은 다양한 메트릭을 사용하여 성능을 평가하고 점수를 반환합니다.
메트릭
평가는 AI 역량의 네 가지 주요 태스크 유형을 기준으로 점수가 매겨집니다. 각 유형에는 평가 점수를 제공하기 위한 차원과 메트릭이 있습니다. 평가는 모든 차원이 해결될 때 완전히 완료됩니다.
| 메트릭 | 메트릭 | 유형 | 정의 |
|---|---|---|---|
| 요약 | 사실적 일관성 | 판사로서의 LLM | 요약과 요약된 원본 간의 사실적 정합성. |
| 완전성 | 판사로서의 LLM | 요약에 핵심 내용 포함 여부. | |
| Bleu-2 | NLP | 이 메트릭은 LLM 출력에서 참조 텍스트와 일치하는 바이그램(연속된 두 단어의 시퀀스)의 정밀도를 측정합니다. | |
| Rouge-2 | NLP | 이 메트릭은 참조 텍스트에 있는 바이그램(연속된 두 단어의 시퀀스)이 LLM 출력에 나타난 재현율을 측정합니다. | |
| 텍스트 생성 | 답변 관련성 | 판사로서의 LLM | 제공된 입력과 비교할 때 LLM 출력의 관련성은 어느 정도입니까? |
| 환각 | 판사로서의 LLM | 실제 출력물을 제공된 맥락과 비교하여 LLM이 사실적으로 정확한 정보를 생성하는지 여부. | |
| Bleu-2 | NLP | 답변과 기준 답안의 정합성. | |
| Rouge-2 | NLP | 제공된 입력과 비교했을 때 LLM 출력이 얼마나 관련성이 있습니까? | |
| 텍스트 추출 | 답변 관련성 | 판사로서의 LLM | 제공된 입력과 비교할 때 LLM 출력의 관련성은 어느 정도입니까? |
| 환각 | 판사로서의 LLM | 실제 출력물을 제공된 맥락과 비교하여 LLM이 사실적으로 정확한 정보를 생성하는지 여부. | |
| 기준 답안과의 동등성 | 판사로서의 LLM | 답변과 기준 답안의 정합성. | |
| 텍스트 분류 | 정확성 | 판사로서의 LLM | 예측된 레이블 적합성 여부. |
| 정확히 일치함 | NLP | 이 메트릭은 예상 출력과 실제 출력이 정확히 일치하는지 확인합니다. | |
| 거의 정확히 일치함 | NLP | 이 메트릭은 예상 출력과 실제 출력이 소문자 변환, 구두점 및 관사 제거, 불필요한 공백 제거 등 정규화를 거친 뒤 정확히 일치하는지 확인합니다. |