La toxicité, dans le contexte des systèmes d\'IA, fait référence à la présence de contenu nuisible ou indésirable dans les entrées (invites) ou les sorties (réponses) du modèle.

Cela englobe un éventail de langage et de concepts problématiques, qui peuvent avoir un impact négatif sur les utilisateurs, perpétuer les biais sociétaux et éroder la confiance dans les technologies d\'IA. Comprendre la nature multiforme de la toxicité est crucial pour construire une IA responsable et éthique.

Dimensions clés de la toxicité

  • Discours haineux : Langage qui attaque ou rabaisse des individus ou des groupes en fonction d\'attributs tels que la race, l\'ethnicité, la religion, le genre, l\'orientation sexuelle, le handicap ou d\'autres caractéristiques protégées. Cela peut se manifester par des insultes, des stéréotypes ou des appels à la violence.
  • Harcèlement : Contenu qui est offensant, malveillant ou menaçant envers une personne. Cela peut inclure des attaques personnelles, de l\'intimidation et des avances sexuelles non désirées.
  • Grossièretés et vulgarités : Utilisation d\'un langage offensant ou obscène pouvant créer une expérience utilisateur négative ou désagréable. Bien que dépendant du contexte, une grossièreté excessive ou gratuite peut être considérée comme toxique.
  • Violence et incitation : Contenu qui promeut ou glorifie la violence, le terrorisme, ou d\'autres actes malveillants. Cela inclut l\'incitation à la haine et l\'encouragement d\'autrui à s\'engager dans la violence.
  • Mésinformation et désinformation : Bien que pas toujours intrinsèquement toxique au sens émotionnel, la diffusion d\'informations fausses ou trompeuses peut avoir des conséquences gravement nuisibles pour les personnes et la société, en faisant une problème majeur pour la sécurité de l\'IA.
  • Partialités et discrimination : Les systèmes d\'IA peuvent involontairement générer des résultats toxiques en reflétant et en amplifiant les biais présents dans leurs données d\'entraînement. Cela peut conduire à un traitement discriminatoire ou injuste de certains groupes.
  • Contenu pour adultes : Selon le contexte et l\'utilisation prévue du système d\'IA, la génération ou la diffusion de contenu sexuel explicite pourrait être considérée comme toxique ou inappropriée.

Configuration de règle de toxicité

Utilisez les paramètres de règle de toxicité pour contrôler la façon dont votre système gère le contenu potentiellement nuisible ou offensant dans les invites utilisateur et les réponses générées par le modèle. Ces règles renforcent l\'utilisation responsable de l\'IA et sont entièrement intégrées à Gouvernance de l\'IA pour la transparence et l\'auditabilité.

Chaque niveau de règle vous permet de définir avec quelle rigueur le système doit évaluer et bloquer le contenu en fonction de la toxicité. Vous pouvez définir différents seuils pour les Invites et les Réponses du modèle.

  1. Autoriser tout (paramètre par défaut)
    • Aucun contenu n\'est bloqué, quel que soit le niveau de toxicité.

    • Les invites et les réponses sont toujours analysées pour la toxicité en arrière-plan.

    • Les scores de toxicité sont enregistrés et mis à disposition pour examen via :

      • Journaux des invites générées par l\'IA

      • Journaux d\'événements

    • Idéal pour les audits sans impacter l\'expérience utilisateur.

  2. Bloquer les contenus hautement toxiques
    • ❌ Bloque le contenu contenant une toxicité importante, y compris :

      • Insultes extrêmes

      • Obscénités explicites

      • Menaces directes

    • Conçu pour filtrer les entrées/sorties les plus nuisibles et offensantes.

    • ✅ La toxicité modérée et faible est toujours autorisée.

  3. Bloquer les contenus hautement et modérément toxiques
    • ❌ Bloque à la fois les niveaux élevés et modérés d\' :

      • Insultes

      • Obscénités

      • Menaces

    • Équilibre la sécurité avec la liberté d\'expression, idéal pour les environnements sensibles.

    • ✅ Un contenu minimalement toxique est toujours autorisé.

  4. Bloquer tout contenu toxique (Élevé, Modéré et Minimal)
    • ❌ Le paramètre le plus restrictif : bloque tout niveau de toxicité, y compris :

      • Insultes subtiles ou indirectes

      • Langage légèrement offensant

      • Expressions à faible menace

    • Recommandé pour les environnements avec des stratégies de contenu strictes, tels que l\'éducation, les soins de santé ou les services publics.

Lorsqu\'un Package d\'IA générative est affecté à une automatisation qui utilise des actions de Compétences en IA package ou de Garde-fou IA, le système surveille le contenu des invites envoyées au modèle d\'IA et des réponses reçues. Si le niveau de toxicité évalué de l\'invite ou de la réponse dépasse le seuil configuré dans le garde-fou affecté, celui-ci interviendra pour empêcher le traitement ou la présentation de contenu potentiellement nuisible. Dans de tels scénarios, l\'exécution de l\'automatisation sera arrêtée au point où le garde-fou est déclenché.


Garde-fou IABlocage de toxicité - Message d\'erreur

Comme indiqué dans la capture d\'écran ci-dessus, lorsqu\'un garde-fou bloque l\'exécution d\'une automatisation en raison d\'une violation de toxicité détectée, vous rencontrerez un message d\'erreur. Ce message indiquera généralement que l\'invite a été bloquée par un garde-fou ou une notification similaire, précisant souvent l\'emplacement dans l\'automatisation où le blocage s\'est produit (par exemple, une action spécifique et un numéro de ligne). Le message d\'erreur fournit également une brève raison du blocage, comme un dépassement du niveau de toxicité défini. Pour résoudre cela, vous devrez examiner le contenu traité par l\'action de commande AI et potentiellement ajuster le seuil de toxicité du garde-fou ou modifier l\'invite pour se conformer aux stratégies définies.

Comprendre les codes couleur de toxicité

Le niveau de toxicité dans les entrées utilisateur (prompts) et les réponses est codé par couleur pour une identification facile. Cela aide à comprendre la gravité du contenu potentiellement nuisible et à déterminer l\'action appropriée. Un système codé par couleur couramment utilisé pour indiquer ces niveaux inclut :

  1. Gris : aucune toxicité. Le contenu marqué en gris est considéré comme sûr et ne contient pas de langage identifiable nuisible ou indésirable.
  2. 🟢 Vert : contenu peu toxique. Le contenu marqué en vert contient un niveau minimal de langage potentiellement problématique. Cela peut inclure des jurons légers, un contenu légèrement suggestif ou des cas mineurs de langage qui pourraient être perçus comme insensibles selon le contexte. Bien que peu nuisible, cela mérite une attention et un examen plus approfondi potentiel.
  3. 🟠 Orange : contenu toxique modéré. Le contenu classé comme orange présente un niveau notable de langage nuisible ou offensant. Cela pourrait inclure des jurons plus forts, des tons plus explicites ou plus agressifs, ou un contenu qui frôle le discours de haine ou le harcèlement mais ne répond pas entièrement aux critères de la plus haute gravité. Un tel contenu entraîne généralement des mesures plus strictes de la part des Garde-fous IA.
  4. 🔴 Rouge : contenu hautement toxique. Le contenu marqué en rouge indique la présence de langage sévèrement et hautement offensant. Cela inclut souvent des discours de haine explicites visant des groupes spécifiques, des menaces directes, un langage gravement abusif ou du contenu faisant la promotion d\'activités illégales. Les Garde-fous IA peuvent être configurés pour bloquer ou signaler le contenu à ce niveau afin de prévenir les préjudices et de maintenir la sécurité.