Automation 360

AI 评估的指标

Download as PDF

Table of Contents

AI 评估的指标

Download as PDF

Updated: 2026/04/16

通过深入了解评分的指标和维度，洞察人工智能的性能。

重要：此功能尚未全面开放，仅限特定客户使用。请联系您的 Automation Anywhere 账户团队以获取更多信息。

每次评估都会返回表现质量的分数。使用自动评估时，LLM 会使用多种指标来进行判断并返回分数。

指标

根据人工智能能力的四种关键任务类型对评估进行评分。每种类型都有相应的维度和指标，用于提供评估得分。当每个维度都得到解决时，评估才算完全完成。

注：评分值将低分与低性能相关联，将高分与高性能相关联。

表 1.
指标	指标	类型	定义	评分范围
摘要	事实一致性	LLM 作为评审	摘要与被总结源之间的事实一致性。	0 - 1
	完整性	LLM 作为评审	摘要是否涵盖了关键点。	0 - 1
	Bleu-2	自然语言处理	该指标衡量 LLM 输出中与参考文本匹配的二元组（连续两个单词的序列）的精确度。	0 - 1
	Rouge-2	自然语言处理	该指标衡量参考文本中二元组（连续两个单词的序列）在 LLM 输出中出现的召回率。	0 - 1
文本生成	答案相关性	LLM 作为评审	与提供的输入相比，LLM 输出的相关性如何？	0 - 1
	幻觉	LLM 作为评审	通过将实际输出与提供的上下文进行比较，判断 LLM 是否生成了事实正确的信息。	0 - 1
	Bleu-2	自然语言处理	答案与真实情况的一致性。	0 - 1
	Rouge-2	自然语言处理	与提供的输入相比，LLM 输出的相关性如何？	0 - 1
文本提取	答案相关性	LLM 作为评审	与提供的输入相比，LLM 输出的相关性如何？	0 - 1
	幻觉	LLM 作为评审	通过将实际输出与提供的上下文进行比较，判断 LLM 是否生成了事实正确的信息。	0 - 1
	实际情况等效性	LLM 作为评审	答案与真实情况的一致性。	0 或 1
文本分类	正确性	LLM 作为评审	预测的标签是否正确。	0 或 1
	完全匹配	自然语言处理	该指标检查预期输出与实际输出是否完全匹配。	0 或 1
	准精确匹配	自然语言处理	该指标在对预期输出和实际输出进行归一化处理（包括转为小写、去除标点和冠词、去除多余空格）后，检查是否完全一致。	0 或 1