AI Guardrails

Les AI Guardrails sont une protection essentielle, car ils garantissent l\'utilisation responsable de l\'IA et la protection des informations sensibles lors des flux de travail d\'automatisation. Ils agissent comme un mécanisme de sécurité et de gouvernance, conçu pour contrôler les interactions entre les utilisateurs, les automatisations et les grands modèles de langage (LLM). Les AI Guardrails visent à atténuer les risques potentiels, à appliquer les stratégies et à garantir que les systèmes d\'IA se comportent de manière sûre, éthique et prévisible.

Fonctions principales des AI Guardrails

Au cœur de leur fonctionnement, les AI Guardrails régissent le flux d\'informations et d\'actions dans les processus pilotés par l\'IA, principalement avec les fonctions suivantes :

  • Surveillance des interactions : les garde-fous examinent activement à la fois les invites (demandes des utilisateurs) envoyées aux LLM et les réponses générées par les LLM. Cette surveillance peut impliquer l\'analyse de contenu selon divers critères, tels que la toxicité et les données sensibles.
  • Contrôle du contenu : les garde-fous appliquent des règles pour gérer le contenu de ces interactions. Cela inclut la capacité de filtrer, modifier ou, de manière cruciale, bloquer les invites et réponses qui enfreignent les stratégies prédéfinies.
  • Application des stratégies : les organisations peuvent définir et mettre en œuvre leurs propres stratégies pour l\'utilisation de l\'IA grâce aux garde-fous. Cela permet l\'alignement avec les lignes directrices éthiques, les exigences réglementaires et les meilleures pratiques internes.

Principaux concepts et mécanismes

  1. Masquage des données : protège les données sensibles dans les invites et les réponses du modèle. Par défaut, le système applique le masquage, mais vous pouvez autoriser le texte en clair pour des cas d\'utilisation spécifiques. La tokenisation intelligente identifie les données sensibles, les remplace par des jetons avant de les envoyer au LLM, puis reconstruit les données originales dans la réponse du LLM. Les AI Guardrails vous aident à établir des règles de masquage des données précises, adaptées aux catégories critiques suivantes : informations permettant d\'identifier une personne (PII), informations de santé protégées (PHI) et données du secteur des cartes de paiement (PCI).
  2. Surveillance de la toxicité : analyse les invites et les réponses générées par les LLM pour détecter un langage potentiellement nuisible, en les classant par niveau de toxicité. Les AI Guardrails peuvent être configurés pour bloquer les invites ou les réponses qui dépassent les seuils de toxicité définis, empêchant la diffusion de contenu nuisible.
  3. Mécanismes de blocage :
    • Blocage d\'invite/de requête : Les AI Guardrails évaluent une invite avant qu\'elle ne soit envoyée au LLM. Si l\'invite enfreint les règles définies (par exemple, si elle contient un langage interdit ou dépasse les seuils de toxicité), le garde-fou bloquera l\'invite.

      Résultat :

      • L\'invite n\'est pas envoyée au LLM.

      • L\'utilisateur reçoit un message d\'erreur indiquant que l\'invite est bloquée.

      • Les journaux de AI Governance enregistrent l\'invite bloquée et la raison du blocage.

    • Blocage de la réponse : Les AI Guardrails peuvent également évaluer la réponse du LLM avant qu\'elle ne soit présentée à l\'utilisateur. Même si l\'invite est autorisée, une réponse problématique peut être bloquée.

      Résultat :

      • Le LLM génère une réponse, mais le garde-fou l\'intercepte.

      • La réponse n\'est pas présentée à l\'utilisateur (l\'utilisateur peut voir une réponse vide ou une erreur).

      • Les journaux de AI Governance enregistrent la réponse bloquée et la raison du blocage.

  4. Interception en ligne : Les AI Guardrails utilisent un mécanisme d\'interception en ligne pour appliquer les stratégies de sécurité et de conformité.
  5. Surveillance et journalisation : journalise toutes les actions des AI Guardrails, y compris les détails des processus de masquage des données et de surveillance de la toxicité, fournissant une piste d\'audit.

Scénarios

Pour illustrer la manière dont les AI Guardrails gèrent le flux d\'informations entre les AI Skills et les LLM, et comment ils traitent différents scénarios en fonction des niveaux de toxicité, les diagrammes suivants vous proposent un aperçu visuel. Ces scénarios illustrent la transition d\'une invite et de la réponse du modèle correspondante lorsqu\'elles sont évaluées et traitées par le AI guardrail, mettant en évidence les cas où le contenu est autorisé avec masquage, bloqué en raison d\'une forte toxicité, ou lorsque la réponse elle-même est bloquée.

Scénario 1 : invite et réponse du modèle autorisées (Toxicité surveillée)
Dans ce scénario, votre garde-fou IA est configuré pour Autoriser tout le contenu, ce qui signifie que les invites et les réponses du modèle passeront, même si elles contiennent une toxicité détectée. Bien que le contenu ne soit pas bloqué dans cette configuration, les AI Guardrails surveillent et enregistrent avec diligence tout niveau de toxicité détecté.

Comme illustré dans le diagramme ci-dessous :

  • L\'INVITE de l\'utilisateur entre dans le AI guardrail, où sa toxicité est détectée (par exemple, comme 🟢 Faible).
  • Les données sensibles dans l\'invite sont automatiquement masquées (par exemple, les PII sont tokenisées) pour protéger la confidentialité avant d\'être envoyées au LLM.
  • Le LLM génère une RÉPONSE DU MODÈLE, qui retourne ensuite au AI guardrail.
  • Le Garde-fou effectue à nouveau la détection de toxicité sur la réponse du modèle (par exemple, trouvant 🟢 Faible toxicité) et démasque toutes les données tokenisées.
  • Le garde-fou étant réglé sur Autoriser tout, l\'invite masquée (vers le LLM) et la réponse du modèle non masquée (vers l\'utilisateur) sont toutes deux autorisées.
  • Les scores de toxicité détectés pour l\'invite et la réponse du modèle sont capturés et enregistrés dans AI Governance, fournissant des données essentielles pour l\'audit et la révision sans impacter l\'expérience utilisateur.

AI Guardrails - Invite et réponse du modèle autorisée avec masquage et réponse du modèle non masquée

Scénario 2 : invite bloquée en raison du score de toxicité

Dans ce scénario, votre AI guardrail est configuré avec des règles pour bloquer le contenu dépassant un certain seuil de toxicité (par exemple, défini pour bloquer le contenu hautement toxique et modérément toxique). Cela garantit que les entrées utilisateur potentiellement nuisibles ou inappropriées sont arrêtées avant de pouvoir atteindre le LLM.

Comme illustré dans le diagramme ci-dessous :

  • L\'utilisateur initie une INVITE qui a un contenu jugé être de 🔴 Haute toxicité (ou un niveau qui enfreint la règle de garde-fou configurée).
  • Cette invite entre dans le AI guardrail, où elle subit immédiatement une Détection de toxicité.
  • Lorsqu\'un niveau de toxicité dépassant le seuil défini est détecté, le AI guardrail intervient et bloque l\'invite.
  • Par conséquent, l\'invite n\'est jamais envoyée au LLM.
  • L\'invite étant bloquée, aucune réponse du modèle n\'est générée ou renvoyée à l\'utilisateur, empêchant ainsi efficacement le traitement des entrées nuisibles et arrêtant l\'automatisation.
  • Les détails de l\'invite bloquée, y compris son niveau de toxicité et la raison du blocage, sont automatiquement enregistrés et journalisés dans AI Governance à des fins d\'audit et de conformité.

AI Guardrails- Invite bloquée en raison du score de toxicité - pas de masquage pas de réponse

Scénario 3 : invite autorisée, réponse du modèle bloquée en raison du score de toxicité

Dans ce scénario, votre AI guardrail est configuré pour autoriser les invites initiales qui répondent à ses critères de sécurité (par exemple, jugées peu ou pas toxiques). Cependant, le garde-fou maintient la vigilance, surveillant activement les réponses générées par le LLM pour s\'assurer qu\'aucun contenu nuisible ou inapproprié n\'est présenté à l\'utilisateur.

Comme illustré dans le diagramme ci-dessous :

  • L\'INVITE de l\'utilisateur entre dans le garde-fou IA. Sa toxicité est détectée (par exemple, comme 🟢 Faible) et est inférieure au seuil autorisé.
  • Les données sensibles dans l\'invite sont automatiquement masquées pour protéger la confidentialité avant que l\'invite ne soit envoyée au LLM.
  • Le LLM traite l\'invite masquée et génère une RÉPONSE DU MODÈLE.
  • Cette réponse du modèle revient ensuite à l\'AI guardrail pour une Détection de toxicité.
  • Dans ce cas, la réponse du modèle est jugée contenir une 🔴Toxicité élevée (ou un niveau qui enfreint les règles configurées du garde-fou pour les réponses).
  • Dès la détection de cette violation, l\'AI guardrail bloque la réponse du modèle.
  • Par conséquent, la réponse problématique du modèle n\'est pas présentée à l\'utilisateur. Au lieu de cela, l\'utilisateur pourrait voir une réponse vide ou un message d\'erreur.
  • Tous les détails de la réponse bloquée, y compris son niveau de toxicité et la raison du blocage, sont automatiquement capturés et journalisés dans AI Governance, garantissant une piste d\'audit complète de l\'interaction avec l\'IA.

AI Guardrails -Invite autorisée avec masquage et réponse du modèle bloquée en raison du score de toxicité

Avantages

L\'utilisation des AI Guardrails offre plusieurs avantages clés :

  1. Amélioration de la sécurité : réduit le risque d\'exposer les utilisateurs à du contenu nuisible ou inapproprié généré par les LLM.
  2. Conformité améliorée : aide les organisations à se conformer aux réglementations pertinentes et aux normes du secteur liées à l\'utilisation de l\'IA.
  3. Confiance accrue : favorise la confiance dans les systèmes IA en démontrant un engagement envers des pratiques responsables et éthiques.
  4. Application des stratégies : permet aux organisations d\'appliquer de manière cohérente leurs stratégies d\'utilisation de l\'IA internes.
  5. Atténuation des risques : atténue de manière proactive les risques potentiels associés aux sorties des LLM, tels que les dommages à la réputation ou les responsabilités légales.
  6. Protection des données sensibles : protège les informations sensibles d\'être traitées directement par les LLM.

Exigences de licence

Pour activer et utiliser le service AI Guardrails pour l\'application, vous devez acheter une licence SKU de consommation - AI guardrail(Nombre d\'invites de LLM exécutées) en plus de la licence Enterprise Platform. Les invites de LLM exécutées incluent à la fois les invites de LLM et les réponses du modèle. Pour plus d\'informations, consultez Plateforme d\'entreprise.
Remarque : AI Guardrails crédits de votre volume acheté sont consommés lors de l\'exécution de demandes à partir d\'automatisations ou AI Skills dans un espace de travail public, ou lors des tests dans l\'éditeur AI Skills au sein d\'un espace de travail privé.