Le masquage de données, également connu sous le nom d\'obfuscation ou d\'anonymisation des données, est une technique essentielle utilisée pour protéger les informations sensibles en les remplaçant par des substituts réalistes mais non identifiants.

L\'objectif principal est de rendre les données inutilisables pour un accès ou une analyse non autorisés, tout en préservant leur format et leurs propriétés statistiques à des fins légitimes comme les tests, le développement, l\'entraînement de modèles d\'IA et l\'analyse. Une implémentation efficace du masquage des données minimise le risque de violations de données et aide les organisations à se conformer à diverses réglementations en matière de confidentialité.

La tokenisation est une technique de masquage des données qui améliore la sécurité en remplaçant les éléments de données sensibles par des substituts non sensibles appelés jetons. Ces jetons conservent le format et la longueur des données originales, les faisant paraître réalistes, mais ne possédant aucune valeur intrinsèque. L\'aspect crucial de la tokenisation réside dans le fait que les données sensibles d\'origine sont stockées en toute sécurité dans la Control Room.

Comment fonctionne la tokenisation

  1. Identification des données : le système identifie les champs de données sensibles qui nécessitent une protection (par exemple, numéros de carte de crédit (PCI), numéros de sécurité sociale (PII), informations de santé personnelles (PHI)).
  2. Génération de jeton : pour chaque valeur de données sensibles, un jeton unique et aléatoire est généré. Ces jetons ne peuvent pas être rétro-utilisés pour obtenir les valeurs originales et n\'ont aucune relation mathématique ou discernable avec les données originales.
  3. Remplacement des données : les données sensibles originales au sein de l\'application, de la base de données ou du système sont remplacées par leur jeton correspondant.
  4. Stockage sécurisé : la correspondance entre les jetons et les données sensibles d\'origine est stockée et gérée de manière sécurisée au sein de la Control Room.
  5. Dé-tokenisation (Lorsque cela est nécessaire et autorisé) : lorsque des utilisateurs ou systèmes autorisés doivent accéder aux données sensibles originales à des fins légitimes, un processus de dé-tokenisation est invoqué. Cela consiste à récupérer les données d\'origine depuis la Control Room en utilisant le jeton correspondant.

Principaux avantages de la tokenisation

  • Sécurité renforcée : en supprimant les données sensibles réelles des environnements opérationnels, la tokenisation réduit considérablement le risque de violations de données et l\'impact des incidents de sécurité. Même si un système contenant des jetons est compromis, les attaquants n\'obtiennent aucune information sensible de valeur.
  • Facilitation de la conformité : la tokenisation aide les organisations à respecter les réglementations strictes en matière de sécurité et de confidentialité des données telles que PCI DSS, GDPR et HIPAA, en minimisant le stockage, le traitement et la transmission des données sensibles réelles.
  • Utilité des données : les jetons conservent le format et la longueur des données originales, permettant aux applications et systèmes de continuer à fonctionner sans modifications significatives. Cela les rend adaptés aux tests, au développement et à l\'analyse où les valeurs sensibles réelles ne sont pas requises.
  • Protection des informations sensibles : en minimisant la présence de données sensibles réelles au sein des flux de travail d\'automatisation interagissant avec les LLM, les organisations peuvent potentiellement simplifier certains aspects de la gestion des données et des évaluations de sécurité lors des audits de conformité.
  • Contrôle et auditabilité : bien que les coffres-forts stockant le mapping soient en dehors de la Control Room, la Control Room fournit un accès contrôlé à ces données stockées grâce à des mécanismes robustes d\'authentification et d\'autorisation. Cela aide à prévenir l\'exposition à des accès non autorisés. Le stockage sécurisé des données est maintenu en utilisant des protocoles d\'authentification robustes conformes aux normes du secteur.
  • Flexibilité : la tokenisation au sein du cadre des AI Guardrails peut être appliquée à divers types de données sensibles, en particulier dans les automatisations interagissant avec des grands modèles de langage (LLM).

Création de règles de masquage de données

Vous pouvez définir une nouvelle règle de masquage lors de la création d\'un garde-fou ; vous pouvez cliquer sur Créer une règle puis spécifier les éléments suivants :

  1. Sélection de catégorie : choisissez une Catégorie générale de données sensibles. Les catégories disponibles incluent :
    • Informations personnelles identifiables (PII) : englobe les données pouvant identifier un individu.
    • Secteur des cartes de paiement (PCI) : concerne les informations de carte de crédit et de débit.
    • Informations de santé protégées (ISP) : inclut des données liées à la santé pouvant identifier un individu.
  2. Sélection du type : après avoir sélectionné une Catégorie, choisissez un ou plusieurs types spécifiques à masquer dans cette catégorie.
    • Informations personnelles identifiables (PII) :

      • Numéro d\'identification du véhicule
      • Numéro de sécurité sociale
      • Adresse e-mail
      • Adresse IP
      • Localisateur uniforme de ressources
      • Personne
      • Adresse
      • Organisation
      • Numéro de permis de conduire
      • Numéro de fax
      • Numéro de téléphone
      • Numéro d\'immatriculation du véhicule
      • Tout sélectionner
    • Secteur des cartes de paiement (PCI) :

      • Numéro de carte de crédit
      • Numéro de compte bancaire
      • Tout sélectionner
    • Informations de santé protégées (PHI) :

      • Numéro de dossier médical
      • Numéro de bénéficiaire de soins de santé
      • Numéro de licence
      • Date de décès
      • Date de sortie
      • Date de début d\'hospitalisation
      • Numéro de contrôle d\'accès au média
      • Numéro d\'assurance
      • Numéro de compte santé
      • Date de naissance
      • Tout sélectionner
    Remarque : Les entités sensibles telles que les IIP, les IIP, les PCI, identifiées dans les invites, sont masquées en les remplaçant par des jetons non sensibles afin qu\'elles ne soient pas exposées aux MLL. Ces jetons sont remplacés lorsque les réponses du modèle sont reçues afin de les reconstruire avec les valeurs d\'origine. Les entités sensibles et les valeurs tokenisées sont stockées en toute sécurité dans un coffre-fort et conservées uniquement pendant 30 jours.
  3. Sélectionnez le Comportement de la barrière de sécurité
    • Masquer : processus réversible où les données sensibles sont temporairement remplacées par une valeur tokenisée. Les données originales sont récupérées et rétablies dans la réponse du LLM avant d\'être présentées à l\'utilisateur.
    • Anonymiser : processus irréversible qui remplace définitivement les données sensibles par un jeton. Les données originales ne sont ni stockées ni utilisées pour reconstruire la réponse à l\'utilisateur, ce qui les rend adaptées aux scénarios avec des interdictions strictes de conservation des données.
    • Autoriser : pour des cas d\'utilisation spécifiques nécessitant l\'accès à des données sensibles, vous pouvez choisir d\'autoriser l\'envoi des données au LLM en texte clair.

Pour en savoir plus sur la configuration d\'un AI guardrail et la mise en place du masquage des données, voir Création et gestion de AI Guardrails.