AI 中的数据屏蔽
- Updated: 2025/06/19
数据屏蔽,也称为数据混淆或匿名化,是一种关键技术,用于通过逼真但无法识别身份的替代信息替换敏感信息,以保护敏感信息。
其主要目标是使数据无法用于未经授权的访问或分析,同时保留其格式和统计属性,以用于测试、开发、训练 AI 模型和分析等合法目的。 有效实施数据屏蔽可最大限度地降低数据泄露的风险,并帮助组织遵守各种隐私法规。
令牌化是一种数据屏蔽技术,通过使用称为令牌的非敏感替代信息替换敏感数据元素,从而增强安全性。 这些令牌保留了原始数据的格式和长度,使其看起来逼真,但没有内在价值。 令牌化的关键在于,原始敏感数据被安全地存储在 Control Room 中。
令牌化的工作原理
- 数据识别: 系统识别需要保护的敏感数据字段(例如,信用卡号码 (PCI)、社会安全号码 (PII)、个人健康信息 (PHI))。
- 令牌生成: 对于每个敏感数据值,都会生成一个唯一的随机令牌。 这些令牌无法通过逆向工程获得原始值,与原始数据之间也没有任何数学或可辨别的关系。
- 数据替换: 应用程序、数据库或系统中的原始敏感数据替换为其对应的令牌。
- 安全存储: 令牌与原始敏感数据之间的映射安全地存储在 Control Room 中并进行管理。
- 去令牌化(在必要且授权的情况下): 当授权用户或系统出于合法目的需要访问原始敏感数据时,就会调用去令牌化程序。 这包括使用相应的令牌从 Control Room 检索原始数据。
令牌化的关键优势
- 强化安全: 通过将实际敏感数据从操作环境中移除,令牌化显著降低了数据泄露的风险和安全事件的影响。 即使包含令牌的系统被破坏,攻击者也不会获得有价值的敏感信息。
- 促进合规性: 令牌化通过最大限度地减少实际敏感数据的存储、处理和传输,帮助组织满足 PCI DSS、GDPR 和 HIPAA 等严格的数据安全和隐私法规要求。
- 数据实用性: 令牌保留了原始数据的格式和长度,使应用程序和系统无需进行重大修改即可继续运行。 这使其适合用于不需要实际敏感值的测试、开发和分析工作。
- 保护敏感信息: 通过最大限度地减少与 LLM 交互的自动化工作流中出现真实敏感数据,组织有可能简化合规性审计期间数据处理和安全评估的某些方面。
- 控制与可审计性: 虽然存储映射的保管库位于 Control Room 之外,Control Room 通过强大的身份验证和授权机制为这些存储的数据提供受控访问。 这有助于防止暴露于未经授权的访问。 使用强大的行业标准身份验证协议维护数据的安全存储。
- 灵活性: AI Guardrails 框架内的令牌化可应用于各类敏感数据,特别是与大型语言模型 (LLM) 交互的自动化中的敏感数据。
创建数据屏蔽规则
您可以在创建防护机制时定义新的屏蔽规则。您可以单击创建规则,然后指定以下内容:
-
类别选择: 选择一种广泛的敏感数据类别。 可用类别包括:
- 个人可识别信息 (PII): 包括可识别个人身份的数据。
- 支付卡行业 (PCI): 涉及信用卡和借记卡信息。
- 受保护的健康信息 (PHI): 包括可识别个人身份的健康相关数据。
-
类型选择: 选择类别后,在该类别中选择一个或多个特定的类型进行屏蔽。
-
个人可识别信息 (PII):
- 车辆识别号码
- 社会安全码
- 电子邮件地址
- IP 地址
- 统一资源定位符
- 人员
- 地址
- 组织机构
- 驾驶证号码
- 传真号码
- 电话号码
- 车辆登记号码
- 全选
-
支付卡行业 (PCI):
- 信用卡号码
- 银行账户号码
- 全选
-
受保护的健康信息 (PHI):
- 病案号
- 健康受益人编号
- 许可证编号
- 死亡日期
- 出院日期
- 住院开始日期
- 媒体访问控制号
- 保险号码
- 健康账户号码
- 出生日期
- 全选
注: 提示中识别出的敏感实体,例如 PII、PHI、PCI 等,会通过替换为非敏感令牌进行屏蔽,使其不会暴露在 LLM 中。 当收到模型响应时,这些令牌会被替换,以使用原始值重建。 敏感实体和标记化值安全地存储在一个保管库中,仅保留 30 天。 -
- 选择保护机制行为
- 屏蔽: 一种可逆的过程,其中敏感数据被临时替换为令牌值。 原始数据在呈现给用户之前会被检索并恢复到 LLM 的响应中。
- 匿名化: 一种不可逆的过程,将敏感数据永久替换为一个令牌。 原始数据不会被存储或用于重建对用户的响应,这使其适用于对数据保留有严格限制的场景。
- 允许: 对于需要访问敏感数据的特定场景,您可以选择允许将数据以明文形式发送到 LLM。
有关配置 AI guardrail 和设置数据屏蔽的更多信息,请参阅 创建和管理 AI Guardrails。