AI Guardrails
- Última atualização2025/06/25
AI Guardrails
As AI Guardrails são uma salvaguarda crucial, garantindo o uso responsável da IA e protegendo informações confidenciais durante os fluxos de trabalho de automação. Elas atuam como um mecanismo de segurança e governança, projetado para controlar as interações entre usuários, automações e grandes modelos de linguagem (LLMs). As AI Guardrails visam mitigar riscos potenciais, aplicar políticas e garantir que os sistemas de IA se comportem de maneira segura, ética e previsível.
Funções principais das AI Guardrails
Em sua essência, as AI Guardrails controlam o fluxo de informações e ações em processos baseados em IA, principalmente por meio de:
- Monitoramento de interações: As proteções examinam ativamente tanto os prompts (solicitações do usuário) enviados aos LLMs quanto as respostas geradas pelos LLMs. Esse monitoramento pode envolver a análise de conteúdo com base em vários critérios, como toxicidade e dados confidenciais.
- Conteúdo de controle: As proteções impõem regras para gerenciar o conteúdo dessas interações. Isso inclui a capacidade de filtrar, modificar ou, fundamentalmente, bloquear solicitações e respostas que violem políticas predefinidas.
- Aplicação de políticas: As organizações podem definir e implementar suas próprias políticas para o uso da IA por meio de proteções. Isso permite o alinhamento com diretrizes éticas, requisitos regulatórios e práticas recomendadas internas.
Conceitos e mecanismos principais
- Mascaramento de dados: Protege dados confidenciais em prompts e respostas de modelos. Por padrão, o sistema aplica o mascaramento, mas você pode permitir texto não criptografado para casos de uso específicos. A tokenização inteligente identifica dados confidenciais, substitui-os por tokens antes de enviá-los para o LLM e reconstrói os dados originais na resposta do LLM. As AI Guardrails ajudam você a estabelecer regras precisas de mascaramento de dados, adaptadas às seguintes categorias essenciais: Informações de identificação pessoal (PII), Informações de saúde protegidas (PHI) e Dados do setor de cartões de pagamento (PCI).
- Monitoramento de toxicidade: Analisa prompts e respostas geradas por LLM quanto a linguagem potencialmente prejudicial, classificando-as por nível de toxicidade. As AI Guardrails podem ser configuradas para bloquear prompts ou respostas que excedam os limites de toxicidade definidos, prevenindo a disseminação de conteúdo prejudicial.
-
Mecanismos de bloqueio:
-
Bloqueio de prompt/solicitação: as AI Guardrails avaliam um prompt antes de ser enviado ao LLM. Se o prompt violar as regras definidas (por exemplo, se contiver linguagem proibida ou exceder os limites de toxicidade), a proteção o bloqueará.
Resultado:
-
O prompt não é enviado para o LLM.
-
O usuário recebe uma mensagem de erro indicando que o prompt está bloqueado.
-
Os logs de AI Governance gravam o prompt bloqueado e o motivo do bloqueio.
-
-
Bloqueio de resposta: as AI Guardrails também podem avaliar a resposta do LLM antes que ela seja apresentada ao usuário. Mesmo se o prompt for permitido, uma resposta problemática pode ser bloqueada.
Resultado:
-
O LLM gera uma resposta, mas a proteção a intercepta.
-
A resposta não é apresentada ao usuário (o usuário pode ver uma resposta vazia ou um erro).
-
Os logs de AI Governance registram a resposta bloqueada e o motivo do bloqueio.
-
-
- Interceptação em linha: as AI Guardrails empregam um mecanismo de interceptação inline para aplicar as políticas de segurança e conformidade.
- Monitoramento e registro: registra todas as ações de AI Guardrails, incluindo detalhes dos processos de mascaramento de dados e monitoramento de toxicidade, oferecendo uma trilha de auditoria.
Cenários
Para ilustrar como as AI Guardrails gerenciam o fluxo de informações entre AI Skills e LLMs, e como gerenciam diferentes cenários com base nos níveis de toxicidade, os diagramas a seguir oferecem uma visão geral visual. Esses cenários mostram a jornada de um prompt e sua resposta de modelo correspondente à medida que são avaliados e processados pela AI guardrail, mostrando casos em que o conteúdo é permitido com mascaramento, bloqueado devido à alta toxicidade ou em que a resposta em si é bloqueada.
- Cenário 1: Prompts e respostas de modelos permitidos (toxicidade monitorada)
- Nesse cenário, sua proteção de IA está configurada para Permitir todo o conteúdo, ou seja, prompts e respostas do modelo passarão mesmo que contenham toxicidade detectada. Embora o conteúdo não seja bloqueado nessa configuração, as AI Guardrails monitoram diligentemente e gravam quaisquer níveis de toxicidade detectados.
Conforme ilustrado no diagrama abaixo:
- O PROMPT do usuário entra na AI guardrail, onde sua toxicidade é detectada (por exemplo, como 🟢 Baixa).
- Os dados confidenciais no prompt são automaticamente mascarados (por exemplo, tokenização de PII) para proteger a privacidade antes de serem enviados ao LLM.
- O LLM gera uma RESPOSTA DO MODELO, que então retorna para a AI guardrail.
- A proteção realiza novamente a detecção de toxicidade na resposta do modelo (por exemplo, encontrando 🟢 Baixa toxicidade) e desmascara quaisquer dados tokenizados.
- Uma vez que a proteção está definida como Permitir tudo, tanto o prompt mascarado (para o LLM) quanto a resposta não mascarada do modelo (para o usuário) são permitidos.
- As pontuações de toxicidade detectadas tanto para o prompt quanto para a resposta do modelo são capturadas e registradas dentro da AI Governance, oferecendo dados essenciais para fins de auditoria e revisão sem impacto na experiência do usuário.
- Cenário 2: Prompt bloqueado devido ao índice de toxicidade
-
Neste cenário, sua AI guardrail está configurada com regras para bloquear conteúdo que exceda um determinado limite de toxicidade (por exemplo, definido para bloquear conteúdo altamente tóxico e moderadamente tóxico). Isso garante que as entradas de usuário potencialmente prejudiciais ou inadequadas sejam interrompidas antes de chegarem ao LLM.
Conforme ilustrado no diagrama abaixo:
- O usuário inicia um PROMPT que contém conteúdo considerado como tendo 🔴 Alta toxicidade (ou um nível que viola a regra de proteção configurada).
- Esse prompt entra na AI guardrail, onde imediatamente passa por Detecção de toxicidade.
- Ao detectar um nível de toxicidade que excede o limite definido, a AI guardrail intervém e bloqueia o prompt.
- Consequentemente, o prompt nunca é enviado para o LLM.
- Uma vez que o prompt está bloqueado, não há resposta de modelo gerada ou retornada ao usuário, impedindo efetivamente o processamento de entrada prejudicial e interrompendo a automação.
- Detalhes do prompt bloqueado, incluindo seu nível de toxicidade e o motivo do bloqueio, são capturados e registrados automaticamente na AI Governance para fins de auditoria e conformidade.
- Cenário 3: Prompt permitido, resposta do modelo bloqueada devido à pontuação de toxicidade
-
Neste cenário, sua AI guardrail está configurada para permitir prompts iniciais que atendam aos seus critérios de segurança (por exemplo, considerados de baixa ou nenhuma toxicidade). No entanto, a proteção mantém a vigilância, monitorando ativamente as respostas geradas pelo LLM para garantir que nenhum conteúdo prejudicial ou inadequado seja apresentado ao usuário.
Conforme ilustrado no diagrama abaixo:
- O PROMPT do usuário entra na proteção de IA. Sua toxicidade é detectada (por exemplo, como 🟢 Baixa) e está dentro do limite permitido.
- Os dados confidenciais contidos no prompt são automaticamente mascarados para proteger a privacidade antes que o prompt seja enviado ao LLM.
- O LLM processa o prompt mascarado e gera uma RESPOSTA DO MODELO.
- Em seguida, essa resposta do modelo retorna à AI guardrail para Detecção de toxicidade.
- Nesse caso, a resposta do modelo contém 🔴 Alta toxicidade (ou um nível que viola as regras configuradas da proteção para respostas).
- Ao detectar essa violação, a AI guardrail bloqueia a resposta do modelo.
- Consequentemente, a resposta problemática do modelo não é apresentada ao usuário. Em vez disso, o usuário pode ver uma resposta vazia ou uma mensagem de erro.
- Todos os detalhes da resposta bloqueada, incluindo seu nível de toxicidade e o motivo do bloqueio, são capturados e registrados automaticamente na AI Governance, garantindo um registro completo da interação com a IA.
Benefícios
O uso de AI Guardrails oferece vários benefícios importantes:
- Segurança aprimorada: Reduz o risco de expor os usuários a conteúdo prejudicial ou inadequado gerado por LLMs.
- Conformidade aprimorada: Ajuda as organizações a aderirem às regulamentações e normas do setor relevantes relacionadas ao uso de IA.
- Aumento da confiança: Fomenta a confiança em sistemas de IA ao demonstrar um compromisso com práticas responsáveis e éticas.
- Aplicação de políticas: Permite que as organizações apliquem consistentemente suas políticas internas de uso de IA.
- Mitigação de riscos: Mitiga proativamente os riscos potenciais associados aos resultados do LLM, tais como danos à reputação ou responsabilidades legais.
- Proteção de dados confidenciais: Protege informações confidenciais de serem processadas diretamente por LLMs.