跳转到主要内容跳转到搜索

Automation 360

AI 评估的指标

Download as PDF

Share

Contents

Table of Contents

AI 评估的指标

Download as PDF

Share

Version:
Updated: 2025/11/21

通过深入了解评分的指标和维度，洞察人工智能的性能。

每次评估都会返回表现质量的分数。使用自动评估时，LLM 会使用多种指标来进行判断并返回分数。

指标

根据人工智能能力的四种关键任务类型对评估进行评分。每种类型都有相应的维度和指标，用于提供评估得分。当每个维度都得到解决时，评估才算完全完成。

表 1.
指标	指标	类型	定义
摘要	事实一致性	LLM 作为法官	摘要与被总结源之间的事实一致性。
	完整性	LLM 作为法官	摘要是否涵盖了关键点。
	蓝色-2	自然语言处理	该指标衡量 LLM 输出中与参考文本匹配的二元组（连续两个单词的序列）的精确度。
	Rouge-2	自然语言处理	该指标衡量参考文本中二元组（连续两个单词的序列）在 LLM 输出中出现的召回率。
文本生成	答案相关性	LLM 作为法官	与提供的输入相比，LLM 的输出有多相关？
	幻觉	LLM 作为法官	通过将实际输出与提供的上下文进行比较，判断LLM是否生成了事实正确的信息。
	蓝色-2	自然语言处理	答案与真实情况的一致性。
	Rouge-2	自然语言处理	与提供的输入相比，LLM 输出的相关性如何？
文本提取	答案相关性	LLM 作为法官	与提供的输入相比，LLM 的输出有多相关？
	幻觉	LLM 作为法官	通过将实际输出与提供的上下文进行比较，判断LLM是否生成了事实正确的信息。
	实际情况等效性	LLM 作为法官	答案与真实情况的一致性。
文本分类	正确性	LLM 作为法官	预测的标签是否正确。
	完全匹配	自然语言处理	该指标检查预期输出与实际输出是否完全匹配。
	准精确匹配	自然语言处理	该指标在对预期输出和实际输出进行归一化处理（包括转为小写、去除标点和冠词、去除多余空格）后，检查是否完全一致。

Previous

No previous topic

Next

Previous

No previous topic

Next