跳转到主要内容跳转到搜索

Automation 360

AI 防护机制

Download as PDF

Share

Contents

Table of Contents

AI 防护机制

Download as PDF

Share

Updated: 2025/06/19

AI 防护机制

AI 防护机制是一项重要的保障措施，可确保负责任地使用 AI，并在自动化工作流中保护敏感信息。它们作为一种安全和治理机制，旨在控制用户、自动化和大型语言模型 (LLM) 之间的交互。AI 防护机制旨在减轻潜在风险，执行政策，并确保 AI 系统以安全、合乎道德和可预测的方式运行。

AI 防护机制的核心功能

在其核心，AI 防护机制控制 AI 驱动流程中的信息流和操作流，主要通过以下方式实现：

监测互动：防护机制积极检查发送给 LLM 的提示（用户请求）和 LLM 生成的响应。此监测可能涉及根据各种标准分析内容，例如毒性和敏感数据。
控制内容：防护机制执行规则，以管理这些交互的内容。这包括过滤、修改或关键地阻止违反预定义政策的提示和响应的能力。
执行政策：组织可以通过防护机制定义和实施其自己的 AI 使用政策。这样就能与道德准则、监管要求和内部最佳实践保持一致。

关键概念和机制

数据屏蔽：保护提示和模型响应中的敏感数据。默认情况下，系统会应用屏蔽，但您可以允许在特定场景中使用明文。智能令牌化可识别敏感数据，在发送到 LLM 之前将其替换为令牌，并在 LLM 响应中重建原始数据。AI 防护机制帮助您为以下关键类别制定精确的数据屏蔽规则：个人身份信息 (PII)、受保护的健康信息 (PHI) 和支付卡行业数据 (PCI)。
毒性监测：分析提示和 LLM 生成的响应中可能有害的语言，并按毒性级别进行分类。AI 防护机制可以配置为阻止超过定义毒性阈值的提示或响应，从而防止有害内容的传播。
阻止机制：
- 提示/请求阻止： AI 防护机制在将提示发送到 LLM 之前对其进行评估。如果提示违反了定义的规则（例如，包含违禁语言或超过毒性阈值），防护机制将阻止该提示。
  
  结果：
  - 提示未发送到 LLM。
  - 用户收到一条错误消息，指示提示被阻止。
  - AI 治理日志记录被阻止的提示及阻止原因。
- 响应阻止： AI 防护机制还可以在向用户展示 LLM 响应之前对其进行评估。即使允许提示，也可能会阻止有问题的响应。
  
  结果：
  - LLM 生成响应，但被防护机制拦截。
  - 响应不会显示给用户（用户可能会看到空响应或错误）。
  - AI 治理日志记录被阻止的响应及阻止原因。
内联拦截：AI 防护机制采用内联拦截机制来执行安全和合规政策。
监测和日志记录：记录所有 AI 防护机制操作，包括数据屏蔽和毒性监测过程的详细信息，提供审计跟踪。

场景

为了说明 AI 防护机制如何管理 AI 技能与 LLM 之间的信息流，以及它们如何根据毒性级别处理不同场景，下面的图表提供了一个直观的概览。这些场景描述了通过 AI 防护机制评估和处理提示及其相应模型响应的过程，展示了允许屏蔽内容、因毒性过高而阻止或响应本身被阻止的情况。

场景 1：允许提示和模型响应（监控毒性）

在此场景中，您的 AI 防护机制被配置为允许全部内容，这意味着即使提示和模型响应包含检测到的有害内容，也会被放行。虽然在此配置中内容未被阻止，AI 防护机制会认真监控并记录任何检测到的毒性级别。

如下图中所示：

用户的提示进入 AI 防护机制，并在此检测到其毒性（例如，🟢 低毒性）。
在发送到 LLM 之前，提示中的敏感数据会自动屏蔽（例如，PII 令牌化）以保护隐私。
LLM 生成模型响应，然后返回到 AI 防护机制。
防护机制再次对模型响应执行毒性检测（例如，发现 🟢 低毒性）并解除任何令牌化数据的屏蔽。
由于防护机制设置为允许全部，因此屏蔽后的提示（发送给 LLM）和未屏蔽的模型响应（发送给用户）都是允许的。
检测到的提示和模型响应的毒性评分会在 AI 治理内被捕获并记录在案，为审计和审查提供必要的数据，而不会影响用户体验。

AI 防护机制 - 允许屏蔽提示和模型响应，模型响应未屏蔽

场景 2：提示因毒性评分被阻止

在此场景中，您的 AI 防护机制配置了规则，以阻止超过特定毒性阈值的内容（例如，设置为阻止高度有毒和中度有毒的内容）。这样就能确保在潜在的有害或不适当的用户输入到达 LLM 之前就被阻止。

如下图中所示：

用户发起一个提示，其中包含被认为具有🔴 高毒性的内容（或达到违反已配置防护机制规则的级别）。
此提示进入 AI 防护机制，在其中会立即进行毒性检测。
在检测到毒性级别超过设定阈值时，AI 防护机制将介入并阻止提示。
因此，提示从未发送到 LLM。
由于提示被阻止，因此不会生成模型响应或返回给用户，从而有效阻止了对有害输入的处理并停止了自动化。
被阻止的提示的详细信息，包括其毒性级别和被阻止的原因，会自动记录在 AI 治理中，以便进行审计和合规处理。

AI 防护机制- 提示因毒性评分而被阻止- 未进行屏蔽，无响应

场景 3：允许提示，模型响应因毒性评分被阻止

在此场景中，您的 AI 防护机制被配置为允许符合其安全标准的初始提示（例如，被认为低毒性或无毒性）。然而，防护机制会保持警惕，积极监控 LLM 生成的响应，以确保不会向用户展示有害或不当的内容。

如下图中所示：

用户的提示进入了 AI 防护机制。其毒性被检测到（例如，🟢 低毒性）并在允许的阈值范围内。
在向 LLM 发送提示之前，提示中的敏感数据会被自动屏蔽，以保护隐私。
LLM 处理被屏蔽的提示并生成一个模型响应。
该模型响应随后返回到 AI 防护机制以进行毒性检测。
在此情况下，发现模型响应包含 🔴 高毒性（或达到违反防护机制配置规则的级别）。
在检测到此违规时，AI 防护机制将阻止模型响应。
因此，用户不会看到有问题的模型响应。相反，用户可能会看到空响应或错误消息。
所有被阻止响应的详细信息，包括其毒性级别和阻止原因，都会自动捕获并保存到 AI 治理，以确保 AI 交互的完整审计跟踪。

AI 防护机制 -允许屏蔽提示，并且模型响应因毒性评分而被阻止

优势

使用 AI 防护机制有几个主要好处：

增强安全性：降低用户接触由 LLM 生成的有害或不当内容的风险。
提高合规性：帮助组织遵循与 AI 使用相关的法规和行业标准。
提升信任度：通过展示对负责任和道德实践的承诺，增强对 AI 系统的信任。
政策执行：使组织能够始终如一地执行其内部 AI 使用政策。
风险缓解：主动减轻与 LLM 输出相关的潜在风险，例如声誉损害或法律责任。
保护敏感数据：保护敏感信息不被 LLM 直接处理。

许可要求

要激活并使用 AI 防护机制服务进行强制执行，需要购买消费 SKU - AI 防护机制（LLM 提示执行次数）许可证以及企业平台许可证。执行的 LLM 提示包括 LLM 提示和模型响应。有关更多信息，请参阅企业平台。

注：在公共工作区中从自动化或 AI 技能执行提示时，或在私有工作区的 AI 技能编辑器中进行测试时，将消耗您已购买额度中的 AI 防护机制积分。

Previous

No previous topic

Next

Previous

No previous topic

Next