Proteções de IA
- Última atualização2025/06/25
Proteções de IA
As Proteções de IA são uma salvaguarda crucial, garantindo o uso responsável da IA e protegendo informações confidenciais durante os fluxos de trabalho de automação. Elas atuam como um mecanismo de segurança e governança, projetado para controlar as interações entre usuários, automações e grandes modelos de linguagem (LLMs). As Proteções de IA visam mitigar riscos potenciais, aplicar políticas e garantir que os sistemas de IA se comportem de maneira segura, ética e previsível.
Funções principais das Proteções de IA
Em sua essência, as Proteções de IA controlam o fluxo de informações e ações em processos baseados em IA, principalmente por meio de:
- Monitoramento de interações: As proteções examinam ativamente tanto os prompts (solicitações do usuário) enviados aos LLMs quanto as respostas geradas pelos LLMs. Esse monitoramento pode envolver a análise de conteúdo com base em vários critérios, como toxicidade e dados confidenciais.
- Conteúdo de controle: As proteções impõem regras para gerenciar o conteúdo dessas interações. Isso inclui a capacidade de filtrar, modificar ou, fundamentalmente, bloquear solicitações e respostas que violem políticas predefinidas.
- Aplicação de políticas: As organizações podem definir e implementar suas próprias políticas para o uso da IA por meio de proteções. Isso permite o alinhamento com diretrizes éticas, requisitos regulatórios e práticas recomendadas internas.
Conceitos e mecanismos principais
- Mascaramento de dados: Protege dados confidenciais em prompts e respostas de modelos. Por padrão, o sistema aplica o mascaramento, mas você pode permitir texto não criptografado para casos de uso específicos. A tokenização inteligente identifica dados confidenciais, substitui-os por tokens antes de enviá-los para o LLM e reconstrói os dados originais na resposta do LLM. As Proteções de IA ajudam você a estabelecer regras precisas de mascaramento de dados, adaptadas às seguintes categorias essenciais: Informações de identificação pessoal (PII), Informações de saúde protegidas (PHI) e Dados do setor de cartões de pagamento (PCI).
- Monitoramento de toxicidade: Analisa prompts e respostas geradas por LLM quanto a linguagem potencialmente prejudicial, classificando-as por nível de toxicidade. As Proteções de IA podem ser configuradas para bloquear prompts ou respostas que excedam os limites de toxicidade definidos, prevenindo a disseminação de conteúdo prejudicial.
-
Mecanismos de bloqueio:
-
Bloqueio de prompt/solicitação: as Proteções de IA avaliam um prompt antes de ser enviado ao LLM. Se o prompt violar as regras definidas (por exemplo, se contiver linguagem proibida ou exceder os limites de toxicidade), a proteção o bloqueará.
Resultado:
-
O prompt não é enviado para o LLM.
-
O usuário recebe uma mensagem de erro indicando que o prompt está bloqueado.
-
Os logs de Governança de IA gravam o prompt bloqueado e o motivo do bloqueio.
-
-
Bloqueio de resposta: as Proteções de IA também podem avaliar a resposta do LLM antes que ela seja apresentada ao usuário. Mesmo se o prompt for permitido, uma resposta problemática pode ser bloqueada.
Resultado:
-
O LLM gera uma resposta, mas a proteção a intercepta.
-
A resposta não é apresentada ao usuário (o usuário pode ver uma resposta vazia ou um erro).
-
Os logs de Governança de IA registram a resposta bloqueada e o motivo do bloqueio.
-
-
- Interceptação em linha: as Proteções de IA empregam um mecanismo de interceptação inline para aplicar as políticas de segurança e conformidade.
- Monitoramento e registro: registra todas as ações de Proteções de IA, incluindo detalhes dos processos de mascaramento de dados e monitoramento de toxicidade, oferecendo uma trilha de auditoria.
Cenários
Para ilustrar como as Proteções de IA gerenciam o fluxo de informações entre Habilidades de IA e LLMs, e como gerenciam diferentes cenários com base nos níveis de toxicidade, os diagramas a seguir oferecem uma visão geral visual. Esses cenários mostram a jornada de um prompt e sua resposta de modelo correspondente à medida que são avaliados e processados pela Proteção de IA, mostrando casos em que o conteúdo é permitido com mascaramento, bloqueado devido à alta toxicidade ou em que a resposta em si é bloqueada.
- Cenário 1: Prompts e respostas de modelos permitidos (toxicidade monitorada)
- Nesse cenário, sua proteção de IA está configurada para Permitir todo o conteúdo, ou seja, prompts e respostas do modelo passarão mesmo que contenham toxicidade detectada. Embora o conteúdo não seja bloqueado nessa configuração, as Proteções de IA monitoram diligentemente e gravam quaisquer níveis de toxicidade detectados.
Conforme ilustrado no diagrama abaixo:
- O PROMPT do usuário entra na Proteção de IA, onde sua toxicidade é detectada (por exemplo, como 🟢 Baixa).
- Os dados confidenciais no prompt são automaticamente mascarados (por exemplo, tokenização de PII) para proteger a privacidade antes de serem enviados ao LLM.
- O LLM gera uma RESPOSTA DO MODELO, que então retorna para a Proteção de IA.
- A proteção realiza novamente a detecção de toxicidade na resposta do modelo (por exemplo, encontrando 🟢 Baixa toxicidade) e desmascara quaisquer dados tokenizados.
- Uma vez que a proteção está definida como Permitir tudo, tanto o prompt mascarado (para o LLM) quanto a resposta não mascarada do modelo (para o usuário) são permitidos.
- As pontuações de toxicidade detectadas tanto para o prompt quanto para a resposta do modelo são capturadas e registradas dentro da Governança de IA, oferecendo dados essenciais para fins de auditoria e revisão sem impacto na experiência do usuário.
- Cenário 2: Prompt bloqueado devido ao índice de toxicidade
-
Neste cenário, sua Proteção de IA está configurada com regras para bloquear conteúdo que exceda um determinado limite de toxicidade (por exemplo, definido para bloquear conteúdo altamente tóxico e moderadamente tóxico). Isso garante que as entradas de usuário potencialmente prejudiciais ou inadequadas sejam interrompidas antes de chegarem ao LLM.
Conforme ilustrado no diagrama abaixo:
- O usuário inicia um PROMPT que contém conteúdo considerado como tendo 🔴 Alta toxicidade (ou um nível que viola a regra de proteção configurada).
- Esse prompt entra na Proteção de IA, onde imediatamente passa por Detecção de toxicidade.
- Ao detectar um nível de toxicidade que excede o limite definido, a Proteção de IA intervém e bloqueia o prompt.
- Consequentemente, o prompt nunca é enviado para o LLM.
- Uma vez que o prompt está bloqueado, não há resposta de modelo gerada ou retornada ao usuário, impedindo efetivamente o processamento de entrada prejudicial e interrompendo a automação.
- Detalhes do prompt bloqueado, incluindo seu nível de toxicidade e o motivo do bloqueio, são capturados e registrados automaticamente na Governança de IA para fins de auditoria e conformidade.
- Cenário 3: Prompt permitido, resposta do modelo bloqueada devido à pontuação de toxicidade
-
Neste cenário, sua Proteção de IA está configurada para permitir prompts iniciais que atendam aos seus critérios de segurança (por exemplo, considerados de baixa ou nenhuma toxicidade). No entanto, a proteção mantém a vigilância, monitorando ativamente as respostas geradas pelo LLM para garantir que nenhum conteúdo prejudicial ou inadequado seja apresentado ao usuário.
Conforme ilustrado no diagrama abaixo:
- O PROMPT do usuário entra na proteção de IA. Sua toxicidade é detectada (por exemplo, como 🟢 Baixa) e está dentro do limite permitido.
- Os dados confidenciais contidos no prompt são automaticamente mascarados para proteger a privacidade antes que o prompt seja enviado ao LLM.
- O LLM processa o prompt mascarado e gera uma RESPOSTA DO MODELO.
- Em seguida, essa resposta do modelo retorna à Proteção de IA para Detecção de toxicidade.
- Nesse caso, a resposta do modelo contém 🔴 Alta toxicidade (ou um nível que viola as regras configuradas da proteção para respostas).
- Ao detectar essa violação, a Proteção de IA bloqueia a resposta do modelo.
- Consequentemente, a resposta problemática do modelo não é apresentada ao usuário. Em vez disso, o usuário pode ver uma resposta vazia ou uma mensagem de erro.
- Todos os detalhes da resposta bloqueada, incluindo seu nível de toxicidade e o motivo do bloqueio, são capturados e registrados automaticamente na Governança de IA, garantindo um registro completo da interação com a IA.
Benefícios
O uso de Proteções de IA oferece vários benefícios importantes:
- Segurança aprimorada: Reduz o risco de expor os usuários a conteúdo prejudicial ou inadequado gerado por LLMs.
- Conformidade aprimorada: Ajuda as organizações a aderirem às regulamentações e normas do setor relevantes relacionadas ao uso de IA.
- Aumento da confiança: Fomenta a confiança em sistemas de IA ao demonstrar um compromisso com práticas responsáveis e éticas.
- Aplicação de políticas: Permite que as organizações apliquem consistentemente suas políticas internas de uso de IA.
- Mitigação de riscos: Mitiga proativamente os riscos potenciais associados aos resultados do LLM, tais como danos à reputação ou responsabilidades legais.
- Proteção de dados confidenciais: Protege informações confidenciais de serem processadas diretamente por LLMs.