最快的评估运行方法是自动执行评估。 该方法利用 LLM 作为数据比较的评判者,而非依赖人工。

过程

  1. 评估可以从两个入口点开始。
    • 从 AI 评估页面,选择运行评估
    • 从 AI 技能页面,选择评估 > 运行评估。 这将自动填充下一步。
    您已被导航到一个新页面以配置评估。
  2. 选择要评估的技能。
  3. 单击下一步
  4. 选择自动评估方法,以使用 LLM 作为评判者并在评估中使用 NLP 指标。
  5. 添加您的数据集
    • 选择上传文件,输入名称并选择要在评估中使用的文件。 文件应为 CSV 格式,最大大小为 100 KB。
    • 选择 使用现有数据 以选择之前已上传的数据集。
    • 选择手动输入数据,通过提供输入变量和可选的期望输出,手动指定名称并创建数据集。
  6. 单击运行评估
    评估会保存您的数据并开始运行。 处理可能需要一些时间,具体取决于评估中数据的大小。 完成后,将向您发送通知,其中包含评估的链接。
  7. 通过评估选项卡导航至结果,或单击通知中的链接。