AI 中的毒性
- Updated: 2025/05/28
在 AI 系统中,毒性是指模型的输入(提示)或输出(响应)中存在有害或不良的内容。
这包括一系列可能对用户产生负面影响、延续社会偏见并削弱对 AI 技术信任的有问题的语言和概念。 了解毒性的多面性对于构建负责任和合乎道德的 AI 至关重要。
毒性的主要方面
- 仇恨言论: 基于种族、民族、宗教、性别、性取向、残疾或其他受保护特征等属性攻击或贬低个人或群体的语言。 这可能表现为诽谤、刻板印象或暴力呼吁。
- 骚扰: 对个人具有冒犯性、辱骂性或威胁性的内容。 这可能包括人身攻击、恐吓和不受欢迎的性骚扰。
- 粗话和脏话: 使用可能导致负面或不愉快用户体验的冒犯性或淫秽语言。 虽然依赖于上下文,过多或无谓的脏话可能被视为有害。
- 暴力与煽动: 宣扬或美化暴力、恐怖主义或其他有害行为的内容。 这包括煽动仇恨和鼓励他人参与暴力行为。
- 错误信息和虚假信息: 虽然虚假或误导性信息的传播并不总是具有情感意义上的内在有害性,但会对个人和社会造成严重的有害后果,因此是 AI 安全的一个关键问题。
- 偏见和歧视: AI 系统可能会无意中反映和放大训练数据中存在的偏差,从而产生有害的输出。 这可能导致对某些群体的歧视或不公平待遇。
- 成人内容: 根据 AI 系统的上下文和预期用途,生成或传播露骨的色情内容可能被视为有害或不当。
毒性规则配置
使用毒性规则设置来控制您的系统如何处理用户提示和模型生成的响应中可能有害或冒犯性的内容。 这些规则支持负责任地使用 AI,并与 AI Governance 完全集成,以实现透明性和可审计性。
每个规则级别允许您定义系统应如何根据毒性严格评估和阻止内容。 您可以为提示和模型响应设置不同的阈值。
-
全部允许(默认设置)
-
✅ 不屏蔽任何内容,无论毒性级别如何。
-
仍在幕后扫描提示和响应,以检测毒性。
-
将记录毒性评分,可通过以下方式进行查看:
-
AI 提示日志
-
事件日志
-
-
适用于审计目的,而不影响用户体验。
-
-
阻止高度有害的内容
-
❌ 阻止包含毒性级别为严重的内容,包括:
-
极端侮辱
-
露骨的污言秽语
-
直接威胁
-
-
旨在筛选掉最有害和冒犯性的输入/输出。
-
✅ 仍允许毒性级别为中等和低的内容。
-
-
阻止高度有害和中等有害内容
-
❌ 阻止高和中等级别的:
-
侮辱
-
淫秽语言
-
威胁
-
-
兼顾安全性和表达自由,是敏感环境的理想选择。
-
✅ 仍允许有害级别极低的内容。
-
-
屏蔽所有有害内容(高、中等、低)
-
❌ 最严格的设置—阻止任何级别的有害内容,包括:
-
隐晦或间接的侮辱
-
轻微冒犯性语言
-
低威胁性表达
-
-
建议用于教育、医疗保健或公共服务等具有严格内容政策️的环境。
-
当自动化使用来自 生成式人工智能软件包 或 AI Skills package 的操作并且该自动化被分配给 AI guardrail 时,系统会监控发送给 AI 模型的提示内容以及收到的响应内容。 如果评估的提示或响应的毒性级别超过在已分配防护机制内配置的阈值,防护机制将进行干预,以防止处理或呈现潜在的有害内容。 在这种情况下,将在触发防护机制的点停止执行自动化。

如上面的截图所示,当防护机制因检测到违反毒性规则而阻止自动化执行时,将显示一条错误消息。 此消息通常表明提示已被防护机制或类似通知阻止,通常会指定自动化中发生阻止的位置(例如,特定操作和行号)。 错误消息还提供阻止的简要原因,例如超出定义的毒性级别。 要解决此问题,需要检查 AI 命令操作正在处理的内容,并可能调整防护机制的毒性阈值或修改提示,以符合定义的策略。
了解毒性颜色代码
用户输入(提示)和响应的毒性级别都采用颜色编码,以便于识别。 这有助于理解潜在有害内容的严重性并确定适当的措施。 用于指示这些级别的常见颜色编码系统包括:
- ⚪ 灰色: 无毒性。 标记为灰色的内容被认为是安全的,并且不含任何可识别的有害或不良语言。
- 🟢 绿色: 毒性级别低的内容。 标记为绿色的内容包含极少量可能有问题的语言。 这可能包括轻微的亵渎、略带暗示性的内容,或在某些情况下可能被视为不敏感的轻微语言实例。 虽然没有严重危害,但仍值得关注,并有可能进行进一步审查。
- 🟠 橙色: 毒性级别中等的内容。 被归类为橙色的内容含有明显的有害或冒犯性语言。 这可能包括更强烈的亵渎、更露骨或更具攻击性的语气,或接近仇恨言论或骚扰但未完全达到最高严重程度标准的内容。 此类内容通常会引发 AI Guardrails 采取更严格的措施。
- 🔴 红色: 毒性级别高的内容。 标记为红色的内容表示存在严重且高度冒犯性的语言。 这通常包括针对特定群体的明显仇恨言论、直接威胁、严重辱骂性语言或宣传非法活动的内容。AI Guardrails 可设置为阻止或标记此级别的内容,以防止伤害和维护安全。