AI 评估的指标
- Updated: 2025/11/21
通过深入了解评分的指标和维度,洞察人工智能的性能。
每次评估都会返回表现质量的分数。 使用自动评估时,LLM 会使用多种指标来进行判断并返回分数。
指标
根据人工智能能力的四种关键任务类型对评估进行评分。 每种类型都有相应的维度和指标,用于提供评估得分。 当每个维度都得到解决时,评估才算完全完成。
| 指标 | 指标 | 类型 | 定义 |
|---|---|---|---|
| 摘要 | 事实一致性 | LLM 作为法官 | 摘要与被总结源之间的事实一致性。 |
| 完整性 | LLM 作为法官 | 摘要是否涵盖了关键点。 | |
| 蓝色-2 | 自然语言处理 | 该指标衡量 LLM 输出中与参考文本匹配的二元组(连续两个单词的序列)的精确度。 | |
| Rouge-2 | 自然语言处理 | 该指标衡量参考文本中二元组(连续两个单词的序列)在 LLM 输出中出现的召回率。 | |
| 文本生成 | 答案相关性 | LLM 作为法官 | 与提供的输入相比,LLM 的输出有多相关? |
| 幻觉 | LLM 作为法官 | 通过将实际输出与提供的上下文进行比较,判断LLM是否生成了事实正确的信息。 | |
| 蓝色-2 | 自然语言处理 | 答案与真实情况的一致性。 | |
| Rouge-2 | 自然语言处理 | 与提供的输入相比,LLM 输出的相关性如何? | |
| 文本提取 | 答案相关性 | LLM 作为法官 | 与提供的输入相比,LLM 的输出有多相关? |
| 幻觉 | LLM 作为法官 | 通过将实际输出与提供的上下文进行比较,判断LLM是否生成了事实正确的信息。 | |
| 实际情况等效性 | LLM 作为法官 | 答案与真实情况的一致性。 | |
| 文本分类 | 正确性 | LLM 作为法官 | 预测的标签是否正确。 |
| 完全匹配 | 自然语言处理 | 该指标检查预期输出与实际输出是否完全匹配。 | |
| 准精确匹配 | 自然语言处理 | 该指标在对预期输出和实际输出进行归一化处理(包括转为小写、去除标点和冠词、去除多余空格)后,检查是否完全一致。 |