Enmascaramiento de datos en IA
- Última actualización2025/06/25
El enmascaramiento de datos, también conocido como ofuscación o anonimización de datos, es una técnica crítica utilizada para proteger la información confidencial sustituyéndola por sustitutos realistas pero no identificables.
El objetivo principal es hacer que los datos sean inutilizables para accesos o análisis no autorizados, al mismo tiempo que se conservan su formato y propiedades estadísticas para fines legítimos, como pruebas, desarrollo, entrenamiento de modelos de IA y análisis. El enmascaramiento de datos aplicado de forma eficaz minimiza el riesgo de filtración de datos y ayuda a las organizaciones a cumplir las distintas normativas sobre privacidad.
La tokenización es una técnica de enmascaramiento de datos que mejora la seguridad sustituyendo los elementos de datos sensibles por sustitutos no sensibles llamados tokens. Estos tokens mantienen el formato y la longitud de los datos originales, haciéndolos parecer realistas pero sin tener valor intrínseco. El aspecto crucial de la tokenización radica en el hecho de que los datos sensibles originales se almacenan de forma segura dentro de la Control Room.
Cómo funciona la tokenización
- Identificación de datos: El sistema identifica los campos de datos confidenciales que necesitan protección (por ejemplo, números de tarjetas de crédito [PCI], números del seguro social [PII], información médica personal [PHI]).
- Generación de tokens: Para cada valor de datos confidencial, se genera un token único y aleatorio. Estos tokens no pueden someterse a ingeniería inversa para obtener los valores originales y no tienen ninguna relación matemática o discernible con los datos originales.
- Reemplazo de datos: Los datos confidenciales originales dentro de la aplicación, base de datos o sistema se reemplazan por su token correspondiente.
- Almacenamiento seguro: La asignación entre los tokens y los datos confidenciales originales se almacena y gestiona de forma segura dentro de la Control Room.
- Conversión de token (cuando sea necesario y esté autorizado): Cuando los usuarios o sistemas autorizados necesitan acceder a los datos confidenciales originales para propósitos legítimos, se invoca un proceso de conversión de tokens. Esto implica recuperar los datos originales de la Control Room usando el token correspondiente.
Principales ventajas de la tokenización
- Seguridad mejorada: Al eliminar los datos confidenciales reales de los entornos operativos, la tokenización reduce de forma significativa el riesgo de filtración de datos y el impacto de los incidentes de seguridad. Incluso si un sistema que contiene tokens se ve comprometido, los atacantes no obtienen información confidencial valiosa.
- Facilitación del cumplimiento: La tokenización ayuda a las organizaciones a cumplir con las estrictas regulaciones de seguridad y privacidad de datos, como el Estándar de Seguridad de Datos de la Industria de Pagos con Tarjeta (PCI DSS), el Reglamento General de Protección de Datos (RGPD) y la HIPAA, al minimizar el almacenamiento, procesamiento y transmisión de datos confidenciales reales.
- Utilidad de los datos: Los tokens preservan el formato y la longitud de los datos originales, lo que permite que las aplicaciones y los sistemas continúen funcionando sin modificaciones significativas. Esto lo hace adecuado para pruebas, desarrollo y análisis donde no se requieren los valores confidenciales reales.
- Protección de la información confidencial: Al minimizar la presencia de datos confidenciales reales dentro de los flujos de trabajo de automatización que interactúan con los LLM, las organizaciones pueden potencialmente simplificar ciertos aspectos del manejo de datos y las evaluaciones de seguridad durante las auditorías de cumplimiento.
- Control y capacidad de auditoría: Si bien las bóvedas que almacenan la asignación están fuera de la Control Room, la Control Room facilita el acceso controlado a estos datos almacenados mediante mecanismos sólidos de autenticación y autorización. Esto ayuda a prevenir la exposición al acceso no autorizado. El almacenamiento seguro de datos se mantiene utilizando protocolos de autenticación sólidos estándar de la industria.
- Flexibilidad: La tokenización dentro del marco de Barreras de seguridad de la IA puede aplicarse a varios tipos de datos confidenciales específicamente dentro de automatizaciones que interactúan con modelos de lenguaje extenso (LLM).
Crear reglas de enmascaramiento de datos
Puede definir una nueva regla de enmascaramiento mientras crea una barrera de seguridad, puede hacer clic en Crear una regla y luego especificar lo siguiente:
-
Selección de categoría: Elija una Categoría general de datos confidenciales. Las categorías disponibles incluyen lo siguiente:
- Información de identificación personal (PII): Abarca datos que pueden identificar a una persona.
- Industria de tarjetas de pago (PCI): Corresponde a la información de tarjetas de crédito y débito.
- Información de salud protegida (PHI): Incluye datos relacionados con la salud que pueden identificar a una persona.
-
Tipo de selección: Después de seleccionar una Categoría, elija uno o más tipos específicos dentro de esa categoría para enmascarar.
-
Información de identificación personal (PII):
- Número de identificación del vehículo
- Número de Seguro Social
- Dirección de correo electrónico
- Dirección IP
- Localizador uniforme de recursos
- Persona
- Dirección
- Organización
- Número de licencia de conducir
- Número de fax
- Número de teléfono
- Número de registro del vehículo
- Seleccionar todo
-
Industria de tarjetas de pago (PCI):
- Número de tarjeta de crédito
- Número de cuenta bancaria
- Seleccionar todo
-
Información de salud protegida (PHI):
- Número de registro médico
- Número de beneficiario de salud
- Número de licencia
- Fecha de defunción
- Fecha de alta
- Fecha de inicio de la hospitalización
- Número de control de acceso a los medios
- Número del seguro
- Número de cuenta de salud
- Fecha de nacimiento
- Seleccionar todo
Nota: Las entidades sensibles, como PII, PHI y PCI, identificadas dentro de los indicadores se enmascaran y reemplazan con tokens no sensibles para que no sean expuestas a los LLM. Estos tokens se reemplazan cuando se reciben las respuestas del modelo para reconstruirlos con los valores originales. Las entidades sensibles y los valores tokenizados se almacenan de manera segura dentro de una bóveda y se conservan solo durante 30 días. -
- Seleccione el comportamiento de las barreras de seguridad
- Enmascarar: Un proceso reversible en el que los datos confidenciales se reemplazan de manera temporal con un valor tokenizado. Los datos originales se recuperan y se restablecen en la respuesta del LLM antes de presentarlos al usuario.
- Anonimizar: Un proceso irreversible que reemplaza de manera permanente los datos confidenciales con un token. Los datos originales no se almacenan ni se utilizan para reconstruir la respuesta al usuario, lo que los hace adecuados en caso de situaciones con prohibiciones estrictas de retención de datos.
- Permitir: Para casos de uso específicos que requieren acceso a datos sensibles, puede optar por permitir que los datos se envíen al LLM en texto claro.
Para obtener más información sobre la configuración de una Barrera de seguridad de la IA y la configuración del enmascaramiento de datos, consulte Crear y gestionar Barreras de seguridad de la IA.