AI Guardrails

As AI Guardrails são uma salvaguarda crucial, garantindo o uso responsável da IA e protegendo informações confidenciais durante os fluxos de trabalho de automação. Elas atuam como um mecanismo de segurança e governança, projetado para controlar as interações entre usuários, automações e grandes modelos de linguagem (LLMs). As AI Guardrails visam mitigar riscos potenciais, aplicar políticas e garantir que os sistemas de IA se comportem de maneira segura, ética e previsível.

Funções principais das AI Guardrails

Em sua essência, as AI Guardrails controlam o fluxo de informações e ações em processos baseados em IA, principalmente por meio de:

  • Monitoramento de interações: As proteções examinam ativamente tanto os prompts (solicitações do usuário) enviados aos LLMs quanto as respostas geradas pelos LLMs. Esse monitoramento pode envolver a análise de conteúdo com base em vários critérios, como toxicidade e dados confidenciais.
  • Conteúdo de controle: As proteções impõem regras para gerenciar o conteúdo dessas interações. Isso inclui a capacidade de filtrar, modificar ou, fundamentalmente, bloquear solicitações e respostas que violem políticas predefinidas.
  • Aplicação de políticas: As organizações podem definir e implementar suas próprias políticas para o uso da IA por meio de proteções. Isso permite o alinhamento com diretrizes éticas, requisitos regulatórios e práticas recomendadas internas.

Conceitos e mecanismos principais

  1. Mascaramento de dados: Protege dados confidenciais em prompts e respostas de modelos. Por padrão, o sistema aplica o mascaramento, mas você pode permitir texto não criptografado para casos de uso específicos. A tokenização inteligente identifica dados confidenciais, substitui-os por tokens antes de enviá-los para o LLM e reconstrói os dados originais na resposta do LLM. As AI Guardrails ajudam você a estabelecer regras precisas de mascaramento de dados, adaptadas às seguintes categorias essenciais: Informações de identificação pessoal (PII), Informações de saúde protegidas (PHI) e Dados do setor de cartões de pagamento (PCI).
  2. Monitoramento de toxicidade: Analisa prompts e respostas geradas por LLM quanto a linguagem potencialmente prejudicial, classificando-as por nível de toxicidade. As AI Guardrails podem ser configuradas para bloquear prompts ou respostas que excedam os limites de toxicidade definidos, prevenindo a disseminação de conteúdo prejudicial.
  3. Mecanismos de bloqueio:
    • Bloqueio de prompt/solicitação: as AI Guardrails avaliam um prompt antes de ser enviado ao LLM. Se o prompt violar as regras definidas (por exemplo, se contiver linguagem proibida ou exceder os limites de toxicidade), a proteção o bloqueará.

      Resultado:

      • O prompt não é enviado para o LLM.

      • O usuário recebe uma mensagem de erro indicando que o prompt está bloqueado.

      • Os logs de AI Governance gravam o prompt bloqueado e o motivo do bloqueio.

    • Bloqueio de resposta: as AI Guardrails também podem avaliar a resposta do LLM antes que ela seja apresentada ao usuário. Mesmo se o prompt for permitido, uma resposta problemática pode ser bloqueada.

      Resultado:

      • O LLM gera uma resposta, mas a proteção a intercepta.

      • A resposta não é apresentada ao usuário (o usuário pode ver uma resposta vazia ou um erro).

      • Os logs de AI Governance registram a resposta bloqueada e o motivo do bloqueio.

  4. Interceptação em linha: as AI Guardrails empregam um mecanismo de interceptação inline para aplicar as políticas de segurança e conformidade.
  5. Monitoramento e registro: registra todas as ações de AI Guardrails, incluindo detalhes dos processos de mascaramento de dados e monitoramento de toxicidade, oferecendo uma trilha de auditoria.

Cenários

Para ilustrar como as AI Guardrails gerenciam o fluxo de informações entre AI Skills e LLMs, e como gerenciam diferentes cenários com base nos níveis de toxicidade, os diagramas a seguir oferecem uma visão geral visual. Esses cenários mostram a jornada de um prompt e sua resposta de modelo correspondente à medida que são avaliados e processados pela AI guardrail, mostrando casos em que o conteúdo é permitido com mascaramento, bloqueado devido à alta toxicidade ou em que a resposta em si é bloqueada.

Cenário 1: Prompts e respostas de modelos permitidos (toxicidade monitorada)
Nesse cenário, sua proteção de IA está configurada para Permitir todo o conteúdo, ou seja, prompts e respostas do modelo passarão mesmo que contenham toxicidade detectada. Embora o conteúdo não seja bloqueado nessa configuração, as AI Guardrails monitoram diligentemente e gravam quaisquer níveis de toxicidade detectados.

Conforme ilustrado no diagrama abaixo:

  • O PROMPT do usuário entra na AI guardrail, onde sua toxicidade é detectada (por exemplo, como 🟢 Baixa).
  • Os dados confidenciais no prompt são automaticamente mascarados (por exemplo, tokenização de PII) para proteger a privacidade antes de serem enviados ao LLM.
  • O LLM gera uma RESPOSTA DO MODELO, que então retorna para a AI guardrail.
  • A proteção realiza novamente a detecção de toxicidade na resposta do modelo (por exemplo, encontrando 🟢 Baixa toxicidade) e desmascara quaisquer dados tokenizados.
  • Uma vez que a proteção está definida como Permitir tudo, tanto o prompt mascarado (para o LLM) quanto a resposta não mascarada do modelo (para o usuário) são permitidos.
  • As pontuações de toxicidade detectadas tanto para o prompt quanto para a resposta do modelo são capturadas e registradas dentro da AI Governance, oferecendo dados essenciais para fins de auditoria e revisão sem impacto na experiência do usuário.

AI Guardrails: resposta do prompt e do modelo permitida com mascaramento e resposta do modelo sem mascaramento

Cenário 2: Prompt bloqueado devido ao índice de toxicidade

Neste cenário, sua AI guardrail está configurada com regras para bloquear conteúdo que exceda um determinado limite de toxicidade (por exemplo, definido para bloquear conteúdo altamente tóxico e moderadamente tóxico). Isso garante que as entradas de usuário potencialmente prejudiciais ou inadequadas sejam interrompidas antes de chegarem ao LLM.

Conforme ilustrado no diagrama abaixo:

  • O usuário inicia um PROMPT que contém conteúdo considerado como tendo 🔴 Alta toxicidade (ou um nível que viola a regra de proteção configurada).
  • Esse prompt entra na AI guardrail, onde imediatamente passa por Detecção de toxicidade.
  • Ao detectar um nível de toxicidade que excede o limite definido, a AI guardrail intervém e bloqueia o prompt.
  • Consequentemente, o prompt nunca é enviado para o LLM.
  • Uma vez que o prompt está bloqueado, não há resposta de modelo gerada ou retornada ao usuário, impedindo efetivamente o processamento de entrada prejudicial e interrompendo a automação.
  • Detalhes do prompt bloqueado, incluindo seu nível de toxicidade e o motivo do bloqueio, são capturados e registrados automaticamente na AI Governance para fins de auditoria e conformidade.

AI Guardrails: prompt bloqueado devido à pontuação de toxicidade: sem mascaramento e sem resposta

Cenário 3: Prompt permitido, resposta do modelo bloqueada devido à pontuação de toxicidade

Neste cenário, sua AI guardrail está configurada para permitir prompts iniciais que atendam aos seus critérios de segurança (por exemplo, considerados de baixa ou nenhuma toxicidade). No entanto, a proteção mantém a vigilância, monitorando ativamente as respostas geradas pelo LLM para garantir que nenhum conteúdo prejudicial ou inadequado seja apresentado ao usuário.

Conforme ilustrado no diagrama abaixo:

  • O PROMPT do usuário entra na proteção de IA. Sua toxicidade é detectada (por exemplo, como 🟢 Baixa) e está dentro do limite permitido.
  • Os dados confidenciais contidos no prompt são automaticamente mascarados para proteger a privacidade antes que o prompt seja enviado ao LLM.
  • O LLM processa o prompt mascarado e gera uma RESPOSTA DO MODELO.
  • Em seguida, essa resposta do modelo retorna à AI guardrail para Detecção de toxicidade.
  • Nesse caso, a resposta do modelo contém 🔴 Alta toxicidade (ou um nível que viola as regras configuradas da proteção para respostas).
  • Ao detectar essa violação, a AI guardrail bloqueia a resposta do modelo.
  • Consequentemente, a resposta problemática do modelo não é apresentada ao usuário. Em vez disso, o usuário pode ver uma resposta vazia ou uma mensagem de erro.
  • Todos os detalhes da resposta bloqueada, incluindo seu nível de toxicidade e o motivo do bloqueio, são capturados e registrados automaticamente na AI Governance, garantindo um registro completo da interação com a IA.

AI Guardrails: prompt permitido com mascaramento e resposta do modelo bloqueada devido à pontuação de toxicidade

Benefícios

O uso de AI Guardrails oferece vários benefícios importantes:

  1. Segurança aprimorada: Reduz o risco de expor os usuários a conteúdo prejudicial ou inadequado gerado por LLMs.
  2. Conformidade aprimorada: Ajuda as organizações a aderirem às regulamentações e normas do setor relevantes relacionadas ao uso de IA.
  3. Aumento da confiança: Fomenta a confiança em sistemas de IA ao demonstrar um compromisso com práticas responsáveis e éticas.
  4. Aplicação de políticas: Permite que as organizações apliquem consistentemente suas políticas internas de uso de IA.
  5. Mitigação de riscos: Mitiga proativamente os riscos potenciais associados aos resultados do LLM, tais como danos à reputação ou responsabilidades legais.
  6. Proteção de dados confidenciais: Protege informações confidenciais de serem processadas diretamente por LLMs.

Requisitos de licença

Para ativar e usar o serviço de AI Guardrails para aplicação, você precisa adquirir uma licença de SKU de consumo — AI guardrail (Número de prompts de LLM executados) juntamente com a licença Enterprise Platform. Os prompts de LLM executados incluem tanto prompts de LLM quanto respostas do modelo. Para mais informações, consulte Enterprise Platform.
Nota: Os créditos de AI Guardrails do volume adquirido são consumidos ao executar prompts de automações ou AI Skills em um espaço de trabalho público ou ao testar no editor de AI Skills em um espaço de trabalho privado.