AI 评估的指标
- Updated: 2026/04/16
通过深入了解评分的指标和维度,洞察人工智能的性能。
重要: 此功能尚未全面开放,仅限特定客户使用。 请联系您的 Automation Anywhere 账户团队以获取更多信息。
每次评估都会返回表现质量的分数。 使用自动评估时,LLM 会使用多种指标来进行判断并返回分数。
指标
根据人工智能能力的四种关键任务类型对评估进行评分。 每种类型都有相应的维度和指标,用于提供评估得分。 当每个维度都得到解决时,评估才算完全完成。
注: 评分值将低分与低性能相关联,将高分与高性能相关联。
| 指标 | 指标 | 类型 | 定义 | 评分范围 |
|---|---|---|---|---|
| 摘要 | 事实一致性 | LLM 作为评审 | 摘要与被总结源之间的事实一致性。 | 0 - 1 |
| 完整性 | LLM 作为评审 | 摘要是否涵盖了关键点。 | 0 - 1 | |
| Bleu-2 | 自然语言处理 | 该指标衡量 LLM 输出中与参考文本匹配的二元组(连续两个单词的序列)的精确度。 | 0 - 1 | |
| Rouge-2 | 自然语言处理 | 该指标衡量参考文本中二元组(连续两个单词的序列)在 LLM 输出中出现的召回率。 | 0 - 1 | |
| 文本生成 | 答案相关性 | LLM 作为评审 | 与提供的输入相比,LLM 输出的相关性如何? | 0 - 1 |
| 幻觉 | LLM 作为评审 | 通过将实际输出与提供的上下文进行比较,判断 LLM 是否生成了事实正确的信息。 | 0 - 1 | |
| Bleu-2 | 自然语言处理 | 答案与真实情况的一致性。 | 0 - 1 | |
| Rouge-2 | 自然语言处理 | 与提供的输入相比,LLM 输出的相关性如何? | 0 - 1 | |
| 文本提取 | 答案相关性 | LLM 作为评审 | 与提供的输入相比,LLM 输出的相关性如何? | 0 - 1 |
| 幻觉 | LLM 作为评审 | 通过将实际输出与提供的上下文进行比较,判断 LLM 是否生成了事实正确的信息。 | 0 - 1 | |
| 实际情况等效性 | LLM 作为评审 | 答案与真实情况的一致性。 | 0 或 1 | |
| 文本分类 | 正确性 | LLM 作为评审 | 预测的标签是否正确。 | 0 或 1 |
| 完全匹配 | 自然语言处理 | 该指标检查预期输出与实际输出是否完全匹配。 | 0 或 1 | |
| 准精确匹配 | 自然语言处理 | 该指标在对预期输出和实际输出进行归一化处理(包括转为小写、去除标点和冠词、去除多余空格)后,检查是否完全一致。 | 0 或 1 |