Barreras de seguridad de la IA

Las Barreras de seguridad de la IA son una medida de protección crucial, ya que garantizan el uso responsable de la IA y protegen información confidencial durante los flujos de trabajo de automatización. Actúan como un mecanismo de seguridad y gobernanza, diseñado para controlar las interacciones entre usuarios, automatizaciones y modelos de lenguaje extenso (LLM). Las Barreras de seguridad de la IA buscan mitigar riesgos potenciales, hacer cumplir las políticas y garantizar que los sistemas de IA se comporten de manera segura, ética y predecible.

Funciones principales de las Barreras de seguridad de la IA

En esencia, las Barreras de seguridad de la IA controlan el flujo de información y las acciones en procesos impulsados por IA, principalmente mediante lo siguiente:

  • Monitoreo de interacciones: Las barreras de seguridad examinan activamente tanto los indicadores (solicitudes de usuario) enviados a los LLM como las respuestas generadas por los LLM. Este monitoreo puede involucrar el análisis de contenido según varios criterios, como toxicidad y confidencialidad de los datos.
  • Contenido de control: Las barreras de seguridad imponen reglas para gestionar el contenido de estas interacciones. Esto incluye la capacidad de filtrar, modificar o (lo que es crucial) bloquear indicadores y respuestas que infrinjan las políticas predefinidas.
  • Hacer cumplir las políticas: Las organizaciones pueden definir e implementar sus propias políticas para el uso de IA a través de barreras de seguridad. Esto permite la alineación con pautas éticas, requisitos regulatorios y prácticas recomendadas internas.

Conceptos clave y mecanismos

  1. Enmascaramiento de datos: Protección de datos confidenciales en los indicadores y las respuestas del modelo. De forma predeterminada, el sistema aplica enmascaramiento, pero puede permitir texto sin cifrar para casos de uso específicos. La tokenización inteligente identifica datos confidenciales, los reemplaza por tokens antes de enviarlos al LLM y reconstruye los datos originales en la respuesta del LLM. Las Barreras de seguridad de la IA le ayudan a establecer reglas precisas de enmascaramiento de datos adaptadas a las siguientes categorías fundamentales: Información de identificación personal (PII), información de salud protegida (PHI) y datos de la industria de tarjetas de pago (PCI).
  2. Supervisión de toxicidad: Analiza indicadores y respuestas generadas por LLM en busca de lenguaje potencialmente perjudicial, y los clasifica según el nivel de toxicidad. Las Barreras de seguridad de la IA se pueden configurar para bloquear indicadores o respuestas que superen los umbrales de toxicidad definidos, lo que evita la difusión de contenido perjudicial.
  3. Mecanismos de bloqueo:
    • Bloqueo de solicitudes e indicadores: Las Barreras de seguridad de la IA evalúan un indicador antes de que se envíe al LLM. Si el indicador infringe las reglas definidas (por ejemplo, si contiene lenguaje prohibido o excede los umbrales de toxicidad), la barrera de seguridad lo bloqueará.

      Resultado:

      • El indicador no se envía al LLM.

      • El usuario recibe un mensaje de error que indica que el indicador está bloqueado.

      • En los registros de Gobernanza de IA, se asienta el indicador bloqueado y la razón del bloqueo.

    • Bloqueo de respuestas: Las Barreras de seguridad de la IA también pueden evaluar la respuesta del LLM antes de que se presente al usuario. Incluso si el indicador está permitido, una respuesta problemática puede ser bloqueada.

      Resultado:

      • El LLM genera una respuesta, pero la barrera de seguridad la intercepta.

      • La respuesta no se presenta al usuario (el usuario puede ver una respuesta vacía o un error).

      • En los registros de Gobernanza de IA, se asienta la respuesta bloqueada y la razón del bloqueo.

  4. Intercepción en línea: Las Barreras de seguridad de la IA emplean un mecanismo de intercepción en línea para hacer cumplir las políticas de seguridad y cumplimiento.
  5. Monitoreo y registro: Se registran todas las acciones de las Barreras de seguridad de la IA, incluidos los detalles de los procesos de enmascaramiento de datos y monitoreo de toxicidad, y se proporciona una pista de auditoría.

Escenarios

Para ilustrar cómo las Barreras de seguridad de la IA gestionan el flujo de información entre las Habilidades de IA y los LLM, y cómo manejan diferentes escenarios según los niveles de toxicidad, los siguientes diagramas proporcionan una visión general visual. Estos escenarios muestran el recorrido de un indicador y la respuesta correspondiente del modelo mientras la Barrera de seguridad de la IA lo evalúa y procesa, y se muestran casos donde el contenido se permite con enmascaramiento, se bloquea por alta toxicidad, o donde se bloquea la respuesta misma.

Escenario 1: Indicador y respuesta del modelo permitidos (Toxicidad monitoreada)
En este escenario, su barrera de seguridad de IA está configurada para Permitir todo el contenido, lo que significa que los indicadores y las respuestas del modelo se aceptarán incluso si contienen toxicidad detectada. Si bien no se bloquea el contenido en esta configuración, las Barreras de seguridad de la IA monitorean diligentemente y registran cualquier nivel de toxicidad detectado.

Como se ilustra en el diagrama a continuación:

  • El INDICADOR del usuario ingresa la Barrera de seguridad de la IA, donde se detecta su toxicidad (p. ej., como 🟢 Baja).
  • Los datos sensibles dentro del indicador se enmascaran automáticamente (por ejemplo, PII tokenizada) para proteger la privacidad antes de ser enviados al LLM.
  • El LLM genera una RESPUESTA DEL MODELO, que luego regresa a la Barrera de seguridad de la IA.
  • La barrera de seguridad nuevamente realiza la detección de toxicidad en la respuesta del modelo (p. ej., encuentra 🟢 Baja toxicidad) y desenmascara cualquier dato tokenizado.
  • Debido a que la barrera de seguridad está configurada para Permitir todo, tanto el indicador enmascarado (para el LLM) como la respuesta del modelo sin enmascarar (para el usuario) están permitidos.
  • Las puntuaciones de toxicidad detectadas tanto para el indicador como para la respuesta del modelo se capturan y registran dentro de Gobernanza de IA, lo que proporciona datos esenciales para fines de auditoría y revisión sin impacto en la experiencia del usuario.

Barreras de seguridad de la IA: Se permite el indicador y la respuesta del modelo con enmascaramiento y la respuesta del modelo sin enmascarar.

Escenario 2: Bloqueo del indicador debido a la puntuación de toxicidad

En este escenario, su Barrera de seguridad de la IA está configurada con reglas para bloquear contenido que exceda un cierto umbral de toxicidad (p. ej., configurada para bloquear contenido altamente tóxico y moderadamente tóxico). Esto garantiza que las entradas de usuario potencialmente perjudiciales o inapropiadas se detengan antes de que puedan llegar al LLM.

Como se ilustra en el diagrama a continuación:

  • El usuario inicia un INDICADOR que incluye contenido considerado como 🔴 Alta toxicidad (o un nivel que infringe la barrera de seguridad configurada).
  • Este indicador ingresa a la Barrera de seguridad de la IA, donde inmediatamente se somete a la Detección de toxicidad.
  • Al detectar un nivel de toxicidad que supera el umbral establecido, la Barrera de seguridad de la IA interviene y bloquea el indicador.
  • Por consiguiente, el indicador nunca se envía al LLM.
  • Dado que se bloquea el indicador, no se genera ni se devuelve ninguna respuesta del modelo al usuario, lo que efectivamente impide el procesamiento de entradas perjudiciales y detiene la automatización.
  • Los detalles del indicador bloqueado, incluido su nivel de toxicidad y la razón del bloqueo, se capturan y registran automáticamente en Gobernanza de IA para fines de auditoría y cumplimiento.

Barreras de seguridad de la IA: Se bloquea el indicador debido al puntaje de toxicidad. No hay enmascaramiento ni respuesta.

Escenario 3: Indicador permitido, respuesta del modelo bloqueada debido a la puntuación de toxicidad

En este escenario, su Barrera de seguridad de la IA está configurada para permitir indicadores iniciales que cumplan con sus criterios de seguridad (p. ej., consideradas de baja o nula toxicidad). Sin embargo, la barrera de seguridad mantiene la vigilancia, y monitorea activamente las respuestas generadas por el LLM para garantizar que no se presente contenido perjudicial ni inapropiado al usuario.

Como se ilustra en el diagrama a continuación:

  • El INDICADOR del usuario ingresa a la barrera de seguridad de IA. Se detecta su toxicidad (p. ej., como 🟢 Baja) que está dentro del umbral permitido.
  • Los datos confidenciales dentro del indicador se enmascaran automáticamente para proteger la privacidad antes de que el indicador se envíe al LLM.
  • El LLM procesa el indicador enmascarado y genera una RESPUESTA DEL MODELO.
  • Esta respuesta del modelo luego regresa a la Barrera de seguridad de la IA para su Detección de toxicidad.
  • En este caso, se detecta que la respuesta del modelo contiene 🔴 Alta toxicidad (o un nivel que infringe las reglas configuradas de la barrera de seguridad para respuestas).
  • Al detectar esta infracción, la Barrera de seguridad de la IA bloquea la respuesta del modelo.
  • En consecuencia, la respuesta problemática del modelo no se presenta al usuario. En su lugar, el usuario podría ver una respuesta vacía o un mensaje de error.
  • Todos los detalles de la respuesta bloqueada, incluido su nivel de toxicidad y el motivo del bloqueo, se capturan y registran automáticamente en Gobernanza de IA, lo que garantiza un registro completo de la interacción con la IA.

Barreras de seguridad de la IA: Se permite el indicador con enmascaramiento y se bloquea la respuesta del modelo debido a la puntuación de toxicidad.

Ventajas

El uso de Barreras de seguridad de la IA proporciona varios beneficios clave:

  1. Mayor seguridad: Se reduce el riesgo de exponer a los usuarios a contenido perjudicial o inapropiado generado por LLM.
  2. Mejora del cumplimiento: Se ayuda a las organizaciones a cumplir con las regulaciones y los estándares de la industria relacionados con el uso de IA.
  3. Mayor confianza: Se fomenta la confianza en los sistemas de IA al demostrar un compromiso con prácticas responsables y éticas.
  4. Cumplimiento de políticas: Se permite a las organizaciones hacer cumplir de manera consistente sus políticas internas de uso de IA.
  5. Mitigación de riesgos: Se mitigan proactivamente los riesgos potenciales asociados con los resultados de LLM, como el daño reputacional o las responsabilidades legales.
  6. Protección de datos confidenciales: Se protege la información confidencial de su procesamiento directo por LLM.

Requisitos de licencia

Para activar y usar el servicio de Barreras de seguridad de la IA para el cumplimiento normativo, debe comprar una licencia de SKU de consumo: Barrera de seguridad de la IA (número de indicadores de LLM ejecutados) junto con la licencia Enterprise Platform. Las indicaciones de LLM ejecutadas incluyen tanto las indicaciones de LLM como las respuestas del modelo. Para obtener más información, consulte Plataforma empresarial.
Nota: Los créditos de Barreras de seguridad de la IA de su volumen comprado se consumen al ejecutar indicadores desde automatizaciones o Habilidades de IA en un espacio de trabajo público, o al probar en el editor Habilidades de IA dentro de un espacio de trabajo privado.