通过深入了解评分的指标和维度,洞察人工智能的性能。

每次评估都会返回表现质量的分数。 使用自动评估时,LLM 会使用多种指标来进行判断并返回分数。

指标

根据人工智能能力的四种关键任务类型对评估进行评分。 每种类型都有相应的维度和指标,用于提供评估得分。 当每个维度都得到解决时,评估才算完全完成。

表 1.
指标 指标 类型 定义
摘要 事实一致性 LLM 作为法官 摘要与被总结源之间的事实一致性。
完整性 LLM 作为法官 摘要是否涵盖了关键点。
蓝色-2 自然语言处理 该指标衡量 LLM 输出中与参考文本匹配的二元组(连续两个单词的序列)的精确度。
Rouge-2 自然语言处理 该指标衡量参考文本中二元组(连续两个单词的序列)在 LLM 输出中出现的召回率。
文本生成 答案相关性 LLM 作为法官 与提供的输入相比,LLM 的输出有多相关?
幻觉 LLM 作为法官 通过将实际输出与提供的上下文进行比较,判断LLM是否生成了事实正确的信息。
蓝色-2 自然语言处理 答案与真实情况的一致性。
Rouge-2 自然语言处理 与提供的输入相比,LLM 输出的相关性如何?
文本提取 答案相关性 LLM 作为法官 与提供的输入相比,LLM 的输出有多相关?
幻觉 LLM 作为法官 通过将实际输出与提供的上下文进行比较,判断LLM是否生成了事实正确的信息。
实际情况等效性 LLM 作为法官 答案与真实情况的一致性。
文本分类 正确性 LLM 作为法官 预测的标签是否正确。
完全匹配 自然语言处理 该指标检查预期输出与实际输出是否完全匹配。
准精确匹配 自然语言处理 该指标在对预期输出和实际输出进行归一化处理(包括转为小写、去除标点和冠词、去除多余空格)后,检查是否完全一致。