AI Guardrails
- Updated: 2025/06/19
AI Guardrails
AI Guardrails 是一项重要的保障措施,可确保负责任地使用 AI,并在自动化工作流中保护敏感信息。 它们作为一种安全和治理机制,旨在控制用户、自动化和大型语言模型 (LLM) 之间的交互。AI Guardrails 旨在减轻潜在风险,执行政策,并确保 AI 系统以安全、合乎道德和可预测的方式运行。
AI Guardrails 的核心功能
在其核心,AI Guardrails 控制 AI 驱动流程中的信息流和操作流,主要通过以下方式实现:
- 监测互动: 防护机制积极检查发送给 LLM 的提示(用户请求)和 LLM 生成的响应。 此监测可能涉及根据各种标准分析内容,例如毒性和敏感数据。
- 控制内容: 防护机制执行规则,以管理这些交互的内容。 这包括过滤、修改或关键地阻止违反预定义政策的提示和响应的能力。
- 执行政策: 组织可以通过防护机制定义和实施其自己的 AI 使用政策。 这样就能与道德准则、监管要求和内部最佳实践保持一致。
关键概念和机制
- 数据屏蔽: 保护提示和模型响应中的敏感数据。 默认情况下,系统会应用屏蔽,但您可以允许在特定场景中使用明文。 智能令牌化可识别敏感数据,在发送到 LLM 之前将其替换为令牌,并在 LLM 响应中重建原始数据。AI Guardrails 帮助您为以下关键类别制定精确的数据屏蔽规则: 个人身份信息 (PII)、受保护的健康信息 (PHI) 和支付卡行业数据 (PCI)。
- 毒性监测: 分析提示和 LLM 生成的响应中可能有害的语言,并按毒性级别进行分类。AI Guardrails 可以配置为阻止超过定义毒性阈值的提示或响应,从而防止有害内容的传播。
-
阻止机制:
-
提示/请求阻止: AI Guardrails 在将提示发送到 LLM 之前对其进行评估。 如果提示违反了定义的规则(例如,包含违禁语言或超过毒性阈值),防护机制将阻止该提示。
结果:
-
提示未发送到 LLM。
-
用户收到一条错误消息,指示提示被阻止。
-
AI Governance 日志记录被阻止的提示及阻止原因。
-
-
响应阻止: AI Guardrails 还可以在向用户展示 LLM 响应之前对其进行评估。 即使允许提示,也可能会阻止有问题的响应。
结果:
-
LLM 生成响应,但被防护机制拦截。
-
响应不会显示给用户(用户可能会看到空响应或错误)。
-
AI Governance 日志记录被阻止的响应及阻止原因。
-
-
- 内联拦截:AI Guardrails 采用内联拦截机制来执行安全和合规政策。
- 监测和日志记录: 记录所有 AI Guardrails 操作,包括数据屏蔽和毒性监测过程的详细信息,提供审计跟踪。
场景
为了说明 AI Guardrails 如何管理 AI Skills 与 LLM 之间的信息流,以及它们如何根据毒性级别处理不同场景,下面的图表提供了一个直观的概览。 这些场景描述了通过 AI guardrail 评估和处理提示及其相应模型响应的过程,展示了允许屏蔽内容、因毒性过高而阻止或响应本身被阻止的情况。
- 场景 1: 允许提示和模型响应(监控毒性)
- 在此场景中,您的 AI 防护机制被配置为允许全部内容,这意味着即使提示和模型响应包含检测到的有害内容,也会被放行。 虽然在此配置中内容未被阻止,AI Guardrails 会认真监控并记录任何检测到的毒性级别。
如下图中所示:
- 用户的提示进入 AI guardrail,并在此检测到其毒性(例如,🟢 低毒性)。
- 在发送到 LLM 之前,提示中的敏感数据会自动屏蔽(例如,PII 令牌化)以保护隐私。
- LLM 生成模型响应,然后返回到 AI guardrail。
- 防护机制再次对模型响应执行毒性检测(例如,发现 🟢 低毒性)并解除任何令牌化数据的屏蔽。
- 由于防护机制设置为允许全部,因此屏蔽后的提示(发送给 LLM)和未屏蔽的模型响应(发送给用户)都是允许的。
- 检测到的提示和模型响应的毒性评分会在 AI Governance 内被捕获并记录在案,为审计和审查提供必要的数据,而不会影响用户体验。
- 场景 2: 提示因毒性评分被阻止
-
在此场景中,您的 AI guardrail 配置了规则,以阻止超过特定毒性阈值的内容(例如,设置为阻止高度有毒和中度有毒的内容)。 这样就能确保在潜在的有害或不适当的用户输入到达 LLM 之前就被阻止。
如下图中所示:
- 用户发起一个提示,其中包含被认为具有🔴 高毒性的内容(或达到违反已配置防护机制规则的级别)。
- 此提示进入 AI guardrail,在其中会立即进行毒性检测。
- 在检测到毒性级别超过设定阈值时,AI guardrail 将介入并阻止提示。
- 因此,提示从未发送到 LLM。
- 由于提示被阻止,因此不会生成模型响应或返回给用户,从而有效阻止了对有害输入的处理并停止了自动化。
- 被阻止的提示的详细信息,包括其毒性级别和被阻止的原因,会自动记录在 AI Governance 中,以便进行审计和合规处理。
- 场景 3: 允许提示,模型响应因毒性评分被阻止
-
在此场景中,您的 AI guardrail 被配置为允许符合其安全标准的初始提示(例如,被认为低毒性或无毒性)。 然而,防护机制会保持警惕,积极监控 LLM 生成的响应,以确保不会向用户展示有害或不当的内容。
如下图中所示:
- 用户的提示进入了 AI 防护机制。 其毒性被检测到(例如,🟢 低毒性)并在允许的阈值范围内。
- 在向 LLM 发送提示之前,提示中的敏感数据会被自动屏蔽,以保护隐私。
- LLM 处理被屏蔽的提示并生成一个模型响应。
- 该模型响应随后返回到 AI guardrail 以进行毒性检测。
- 在此情况下,发现模型响应包含 🔴 高毒性(或达到违反防护机制配置规则的级别)。
- 在检测到此违规时,AI guardrail 将阻止模型响应。
- 因此,用户不会看到有问题的模型响应。 相反,用户可能会看到空响应或错误消息。
- 所有被阻止响应的详细信息,包括其毒性级别和阻止原因,都会自动捕获并保存到 AI Governance,以确保 AI 交互的完整审计跟踪。
优势
使用 AI Guardrails 有几个主要好处:
- 增强安全性: 降低用户接触由 LLM 生成的有害或不当内容的风险。
- 提高合规性: 帮助组织遵循与 AI 使用相关的法规和行业标准。
- 提升信任度: 通过展示对负责任和道德实践的承诺,增强对 AI 系统的信任。
- 政策执行: 使组织能够始终如一地执行其内部 AI 使用政策。
- 风险缓解: 主动减轻与 LLM 输出相关的潜在风险,例如声誉损害或法律责任。
- 保护敏感数据: 保护敏感信息不被 LLM 直接处理。