Automation 360

AI Evaluations

Download as PDF

Table of Contents

AI Evaluations

Download as PDF

Version:
Updated: 2025/12/29

AI Evaluations 使管理员能够跟踪和评估生成式 AI 功能的输出。

AI Evaluations 概览

注：为获得最佳效果，请确保您使用的是 AI Skill 软件包版本 9.0.0。

AI Evaluations 是一种用于评估 generative AI(genAI) 系统特性和能力的工具。包括用于量化和鉴定性能、稳健性、公平性、安全性、可解释性以及与预期目标和伦理原则一致性等方面的指标和方法。AI Evaluations 专为专业开发者在设计阶段评估和鉴定 AI Skills 而设计，确保其符合所需标准。

随着生成式 AI 的广泛应用，企业在部署和扩展前亟需各种评估模型质量的工具。AI Evaluations 提供简洁直观的界面并加速评估流程，可满足这一需求。通过进行全面评估，用户可以降低与模型性能下降和质量受损相关的风险，从而确保 AI 解决方案的可靠性。

下图展示了评估的执行流程。
图示展示了在评估中执行的多项操作。

这些评估利用自然语言处理 (NLP) 和大型语言模型 (LLM) 进行判定和打分，为改进 AI 系统提供见解。评估过程采用一种系统化的方法，结合 NLP 指标和研究驱动的见解进行详细的评估。该过程包括将模型输出与预期结果进行对比，监控性能偏移，并在必要时提示进行修订。这种持续的改进可确保 AI 模型始终保持高效，并针对用户需求进行优化。

AI Evaluations 登陆页

评估已无缝集成到开发过程中。一个集中化的、用户友好的界面可提供对评分、指标和评估工具的访问权限，降低了对专业机器学习知识的需求。这种可访问性确保用户能够根据需要高效地进行评估并优化 AI 模型。

在评估选项卡下查找已完成的评估。
单击评估名称，以显示您已完成评估的洞察信息。

关键概念

输出比较： AI Evaluations 的一个核心特性在于能够将由语言模型生成的输出与预先定义的期望输出进行对比。这可确保符合指定标准和准则，优化生成内容的相关性和准确性。可以上传数据集或手动输入期望输出，以用于这些对比。

AI 技能开发中的同步评估： 随着 AI Skills 的发展，可以在模型开发的同时进行评估。这一迭代过程支持实时调整和改进，促进了 AI 能力的动态提升。

指标与研究洞察： 评估过程以业界标准的 NLP 指标和全面的机器学习研究为基础。这些指标构建了一个框架，针对 AI 模型的优势和性能提供了有价值的见解。当变量不完整时，系统会提示修订并重新运行评估，以确保评估的全面性和精确性。

这些 NLP 指标的计算依赖于您在评估运行配置期间提供的预期输出。当评估中无法获得预期输出时，LLM-as-a-judge 会采用预定义指标进行评分。

评估器和指标来源： 评估器作为评估 AI 输出的机制，从行业标准中提取指标。当使用 LLM-as-a-judge 时，此机制基于研究结果设计，以确保评估采用类人且全面的方法。

评估可以自动运行，使用系统比较源和输出性能。请参阅自动运行 AI 评估。
用户可以通过手动运行选项来进行比较。请参阅手动运行 AI 评估。

评估标准

已根据这些数据支持高功能解决方案的能力，对此标准进行了研究和筛选。这些领域的评分有助于决策者确定能够提升生成式 AI 解决方案质量与效能的改进方向。

评估侧重于 AI 能力的四大关键任务类型，这些能力对于常见场景至关重要。每个场景均被分类，以匹配任务和预定义指标，从而提供性能评分和洞察。有关更多详情，请参阅 AI 评估的指标。

表 1.
原则	描述	场景
摘要	能够确保输出与源在完整性和事实准确性方面完全一致。	分析，内容审核
文本生成	AI 提供的文本与源信息的相关性和准确性。	客户反馈，财务文件
文本提取	验证文本是否对齐，使用真实数据并比较所提供的输入。	问答，信息提取
文本分类	验证输出与源之间的主题类别。	研究

审核日志

管理员可以在 AI 治理中查看每个已完成评估的会话和事件详细信息。请参阅 AI Governance。

权限和访问

管理员可以在相应用户的角色页面选择权限，从而启用 AI Evaluations。这些权限对于管理与 AI Evaluations 相关的访问和功能至关重要。

权限：

查看AI Evaluations： 该权限允许用户查看 AI Evaluations 分数及推理过程。访问权限仅限于用户被分配的文件夹和 AI 技能（例如：公共）。
管理AI Evaluations： 此权限是用户运行评估和管理数据集所必需的。