평가의 메트릭과 차원에 대해 더 깊이 이해함으로써 AI 성능에 대한 통찰을 얻을 수 있습니다.

중요사항: 이 기능은 특정 고객용으로 제한되어 있어 일반적으로 사용할 수 없습니다. 자세한 내용은 Automation Anywhere 계정 팀에 문의하십시오.

각 평가는 성능 품질에 대한 점수를 반환합니다. 자동 평가를 사용할 때 LLM은 다양한 메트릭을 사용하여 성능을 평가하고 점수를 반환합니다.

메트릭

평가는 AI 역량의 네 가지 주요 태스크 유형을 기준으로 점수가 매겨집니다. 각 유형에는 평가 점수를 제공하기 위한 차원과 메트릭이 있습니다. 평가는 모든 차원이 해결될 때 완전히 완료됩니다.
주: 점수 값의 경우, 낮은 숫자는 낮은 성능과, 높은 숫자는 높은 성능과 관련이 있습니다.
표 1.
메트릭 메트릭 유형 정의 점수 범위
요약 사실적 일관성 LLM을 심판으로 사용 요약과 요약된 원본 간의 사실적 정합성. 0 - 1
완전성 LLM을 심판으로 사용 요약에 핵심 내용 포함 여부. 0 - 1
Bleu-2 NLP 이 메트릭은 LLM 출력에서 참조 텍스트와 일치하는 바이그램(연속된 두 단어의 시퀀스)의 정밀도를 측정합니다. 0 - 1
Rouge-2 NLP 이 메트릭은 참조 텍스트에 있는 바이그램(연속된 두 단어의 시퀀스)이 LLM 출력에 나타난 재현율을 측정합니다. 0 - 1
텍스트 생성 답변 관련성 LLM을 심판으로 사용 제공된 입력과 비교했을 때 LLM 출력이 얼마나 관련성이 있습니까? 0 - 1
환각 LLM을 심판으로 사용 LLM이 제공된 컨텍스트와 실제 출력을 비교하여 사실적으로 정확한 정보를 생성하는지 여부. 0 - 1
Bleu-2 NLP 답변과 기준 답안의 정합성. 0 - 1
Rouge-2 NLP 제공된 입력과 비교했을 때 LLM 출력이 얼마나 관련성이 있습니까? 0 - 1
텍스트 추출 답변 관련성 LLM을 심판으로 사용 제공된 입력과 비교했을 때 LLM 출력이 얼마나 관련성이 있습니까? 0 - 1
환각 LLM을 심판으로 사용 LLM이 제공된 컨텍스트와 실제 출력을 비교하여 사실적으로 정확한 정보를 생성하는지 여부. 0 - 1
기준 답안과의 동등성 LLM을 심판으로 사용 답변과 기준 답안의 정합성. 0 또는 1
텍스트 분류 정확성 LLM을 심판으로 사용 예측된 레이블 적합성 여부. 0 또는 1
정확히 일치함 NLP 이 메트릭은 예상 출력과 실제 출력이 정확히 일치하는지 확인합니다. 0 또는 1
거의 정확히 일치함 NLP 이 메트릭은 예상 출력과 실제 출력이 소문자 변환, 구두점 및 관사 제거, 불필요한 공백 제거 등 정규화를 거친 뒤 정확히 일치하는지 확인합니다. 0 또는 1