A toxicidade, no contexto dos sistemas de IA, refere-se à presença de conteúdo prejudicial ou indesejável nas entradas (prompts) ou saídas (respostas) do modelo.

Isso engloba um espectro de linguagem e conceitos problemáticos que podem afetar negativamente os usuários, perpetuar preconceitos sociais e corroer a confiança nas tecnologias de IA. Compreender a natureza multifacetada da toxicidade é fundamental para a criação de uma IA responsável e ética.

Principais dimensões da toxicidade

  • Discurso de ódio: Linguagem que ataca ou rebaixa indivíduos ou grupos com base em atributos como raça, etnia, religião, gênero, orientação sexual, deficiência ou outras características protegidas. Isso pode se manifestar como termos preconceituosos, estereótipos ou apelos à violência.
  • Assédio: Conteúdo ofensivo, abusivo ou ameaçador para um indivíduo. Isso pode incluir ataques pessoais, intimidação e avanços sexuais indesejados.
  • Profanidade e vulgaridade: Uso de linguagem ofensiva ou obscena que possa criar uma experiência negativa ou desagradável para o usuário. Embora dependa do contexto, palavrões excessivos ou gratuitos podem ser considerados tóxicos.
  • Violência e incitação: Conteúdo que promova ou glorifique a violência, o terrorismo ou outros atos prejudiciais. Isso inclui incitar o ódio e incentivar outras pessoas a se envolverem em violência.
  • Desinformação e informação falsa: Embora nem sempre seja inerentemente tóxica no sentido emocional, a disseminação de informações falsas ou enganosas pode ter consequências gravemente prejudiciais para os indivíduos e para a sociedade, o que a torna uma preocupação fundamental para a segurança da IA.
  • Viés e discriminação: Os sistemas de IA podem, inadvertidamente, gerar resultados tóxicos ao refletir e ampliar as tendências presentes em seus dados de treinamento. Isso pode levar a um tratamento discriminatório ou injusto de determinados grupos.
  • Conteúdo adulto: Dependendo do contexto e do uso pretendido do sistema de IA, a geração ou a disseminação de conteúdo sexual explícito pode ser considerada tóxica ou inadequada.

Configuração da regra de toxicidade

Use as configurações da regra de toxicidade para controlar como o sistema lida com conteúdo potencialmente prejudicial ou ofensivo nos prompts do usuário e nas respostas geradas pelo modelo. Essas regras dão suporte ao uso responsável da IA e são totalmente integradas com a AI Governance para garantir transparência e auditabilidade.

Cada nível de regra permite que você defina o grau de rigor com que o sistema deve avaliar e bloquear o conteúdo com base na toxicidade. Você pode definir diferentes limites para Prompts e Respostas do modelo.

  1. Permitir tudo (Configuração padrão)
    • Nenhum conteúdo é bloqueado, independentemente do nível de toxicidade.

    • Prompts e respostas ainda são verificadas quanto à toxicidade nos bastidores.

    • As pontuações de toxicidade são registradas e disponibilizadas para revisão via:

      • Logs de prompt de IA

      • Logs de eventos

    • Ideal para fins de auditoria sem impacto na experiência do usuário.

  2. Bloqueio de conteúdo altamente tóxico
    • ❌ Bloqueia conteúdo contendo toxicidade grave, incluindo:

      • Insultos extremos

      • Obscenidades explícitas

      • Ameaças diretas

    • Projetado para filtrar as entradas/saídas mais prejudiciais e ofensivas.

    • ✅ Toxicidade moderada e de baixo nível ainda é permitida.

  3. Bloquear conteúdo altamente e moderadamente tóxico
    • ❌ Bloqueia os níveis alto e moderado de:

      • Insultos

      • Obscenidades

      • Ameaças

    • Equilibra segurança com liberdade de expressão, ideal para ambientes sensíveis.

    • ✅ Conteúdo minimamente tóxico ainda é permitido.

  4. Bloquear todo o conteúdo tóxico (alto, moderado e mínimo)
    • ❌ A configuração mais restritiva: bloqueia qualquer nível de toxicidade, incluindo:

      • Insultos sutis ou indiretos

      • Linguagem levemente ofensiva

      • Expressões de baixa ameaça

    • Recomendado para ambientes com políticas de conteúdo rigorosas, como educação, saúde ou serviços públicos.

Quando uma automação que usa ações de Pacote de IA generativa ou AI Skills package tem uma AI guardrail atribuída, o sistema monitora o conteúdo tanto dos prompts enviados ao modelo de IA quanto das respostas recebidas. Se o nível de toxicidade avaliado do prompt ou da resposta exceder o limite configurado na proteção atribuída, a proteção intervirá para impedir que o conteúdo potencialmente prejudicial seja processado ou apresentado. Em tais cenários, a execução da automação será interrompida no ponto em que a proteção for acionada.


Bloqueio de toxicidade da AI guardrail - Mensagem de erro

Como mostrado na captura de tela acima, quando uma proteção bloqueia a execução de uma automação devido a uma violação de toxicidade detectada, você verá uma mensagem de erro. Essa mensagem normalmente indica que o prompt foi bloqueado pela proteção ou por uma notificação semelhante, muitas vezes especificando o local dentro da automação onde ocorreu o bloqueio (por exemplo, uma ação específica e o número da linha). A mensagem de erro também apresenta um breve motivo para o bloqueio, como o fato de ter excedido o nível de toxicidade definido. Para resolver isso, será necessário revisar o conteúdo que está sendo processado pela ação de comando de IA e, possivelmente, ajustar o limite de toxicidade da proteção ou modificar o prompt para que esteja em conformidade com as políticas definidas.

Compreensão dos códigos de cores de toxicidade

O nível de toxicidade das entradas do usuário (prompts) e das respostas é codificado por cores para facilitar a identificação. Isso ajuda a entender a gravidade do conteúdo potencialmente prejudicial e a determinar a ação apropriada. Um sistema comum de código de cores usado para indicar esses níveis inclui:

  1. Cinza: Sem toxicidade. O conteúdo marcado como cinza é considerado seguro e não contém nenhuma linguagem prejudicial ou indesejável identificável.
  2. 🟢 Verde: Baixo conteúdo tóxico. O conteúdo sinalizado como verde contém um nível mínimo de linguagem potencialmente problemática. Isso pode incluir palavrões leves, conteúdo levemente sugestivo ou pequenas ocorrências de linguagem que podem ser percebidas como insensíveis, dependendo do contexto. Embora não seja gravemente prejudicial, merece atenção e uma possível revisão adicional.
  3. 🟠 Laranja: Conteúdo moderadamente tóxico. O conteúdo classificado como laranja exibe um nível perceptível de linguagem ofensiva ou prejudicial. Isso pode incluir palavrões mais fortes, tons mais explícitos ou agressivos, ou conteúdo que beira o discurso de ódio ou assédio, mas não atende totalmente aos critérios de maior gravidade. Tal conteúdo normalmente aciona ações mais rigorosas por AI Guardrails.
  4. 🔴 Vermelho: Conteúdo altamente tóxico. O conteúdo marcado em vermelho indica a presença de linguagem grave e altamente ofensiva. Isso geralmente inclui discurso de ódio explícito direcionado a grupos específicos, ameaças diretas, linguagem severamente abusiva ou conteúdo que promova atividades ilegais. As AI Guardrails podem ser definidas para bloquear ou sinalizar conteúdo nesse nível para evitar danos e manter a segurança.