Toxicidad en IA
- Última actualización2025/06/02
La toxicidad, en el contexto de los sistemas de IA, se refiere a la presencia de contenido dañino o indeseable dentro de las entradas (indicadores) o salidas (respuestas) del modelo.
Esto abarca un rango de lenguaje y conceptos problemáticos que pueden afectar negativamente a los usuarios, contribuir a perpetuar los prejuicios sociales y debilitar la confianza en las tecnologías de IA. Comprender la naturaleza polifacética de la toxicidad es fundamental para construir una IA responsable y ética.
Dimensiones clave de la toxicidad
- Expresiones de odio: Lenguaje que ataca o degrada a personas o grupos por motivos de raza, etnia, religión, sexo, orientación sexual, discapacidad u otras características protegidas. Esto puede manifestarse en forma de insultos, estereotipos o incitaciones a la violencia.
- Acoso: Contenido que es ofensivo, abusivo o amenazante hacia un individuo. Esto puede incluir ataques personales, intimidación e insinuaciones sexuales no deseadas.
- Blasfemias y vulgaridad: Uso de lenguaje ofensivo u obsceno que pueda crear una experiencia negativa o desagradable para el usuario. Aunque depende del contexto, el uso excesivo o innecesario de blasfemias puede considerarse tóxico.
- Violencia e incitación a la violencia: Contenido que promueve o glorifica la violencia, el terrorismo u otros actos dañinos. Esto incluye incitar al odio y fomentar la violencia.
- Información errónea y desinformación: Aunque no siempre es intrínsecamente tóxica en el sentido emocional, la difusión de información falsa o engañosa puede tener consecuencias gravemente perjudiciales para las personas y la sociedad, lo que la convierte en una inquietud crítica para la seguridad de la IA.
- Prejuicio y discriminación: Los sistemas de IA pueden generar de manera involuntaria resultados tóxicos al reflejar y amplificar los prejuicios presentes en sus datos de entrenamiento. Esto puede llevar a un trato discriminatorio o injusto de ciertos grupos.
- Contenido para adultos: Según el contexto y el uso previsto del sistema de IA, la generación o difusión de contenidos sexuales explícitos podría considerarse tóxica o inadecuada.
Configuración de la regla de toxicidad
Utilice la configuración de la regla de toxicidad para controlar la manera en que el sistema maneja contenido potencialmente dañino u ofensivo tanto en indicadores de usuario como en respuestas generadas por el modelo. Estas reglas respaldan el uso responsable de la IA y están completamente integradas con Gobernanza de IA para garantizar la transparencia y la auditabilidad.
Cada nivel de regla permite definir el grado de exigencia con el que el sistema debe evaluar y bloquear los contenidos en función de la toxicidad. Puede establecer diferentes umbrales para Indicadores y Respuestas del modelo.
-
Permitir todo (configuración predeterminada)
-
✅ No se bloquea ningún contenido, sin importar el nivel de toxicidad.
-
Los indicadores y las respuestas aún se analizan en busca de toxicidad en segundo plano.
-
Los puntajes de toxicidad se registran y se ponen a disposición para revisión a través de:
-
registros de indicadores de IA;
-
registros de eventos.
-
-
Es ideal para propósitos de auditoría sin impacto en la experiencia del usuario.
-
-
Bloquear el contenido altamente tóxico
-
❌ Bloquea el contenido que contiene toxicidad grave, que incluye:
-
insultos extremos;
-
obscenidades explícitas;
-
amenazas directas.
-
-
Está diseñado para filtrar las entradas/salidas más dañinas y ofensivas.
-
✅ La toxicidad moderada y de bajo nivel todavía está permitida.
-
-
Bloquear el contenido altamente y moderadamente tóxico
-
❌ Bloquea tanto los niveles altos como moderados de:
-
insultos;
-
obscenidades.
-
Amenazas
-
-
Equilibra la seguridad con la libertad de expresión, es ideal para entornos sensibles.
-
✅ El contenido mínimamente tóxico todavía está permitido.
-
-
Bloquear todo el contenido tóxico (alto, moderado y mínimo)
-
❌ La configuración más restrictiva: bloquea cualquier nivel de toxicidad, lo que incluye:
-
insultos sutiles o indirectos;
-
lenguaje levemente ofensivo;
-
expresiones de baja amenaza.
-
-
Se recomienda para entornos con políticas de contenido estrictas, como educación, atención médica o servicios públicos.
-
Cuando se asigna una Barrera de seguridad de la IA a una automatización que usa acciones de Paquete de IA generativa o Habilidades de IA paquete, el sistema supervisa el contenido tanto de los indicadores enviados al modelo de IA como de las respuestas recibidas. Si el nivel de toxicidad evaluado, ya sea del indicador o de la respuesta, excede el umbral configurado dentro de la barrera de seguridad asignada, la barrera intervendrá para evitar que se procese o presente contenido potencialmente dañino. En tales escenarios, la ejecución de la automatización se detendrá en el punto donde se active la barrera.

Como se muestra en la captura de pantalla anterior, cuando una barrera de seguridad bloquea la ejecución de una automatización debido a una violación de toxicidad detectada, aparecerá un mensaje de error. Este mensaje típicamente indicará que el indicador ha sido bloqueado por una barrera de seguridad o una notificación similar, y a menudo, especificará la ubicación dentro de la automatización donde ocurrió el bloqueo (por ejemplo, una acción específica y número de línea). El mensaje de error también ofrece una breve razón del bloqueo, como que se ha superado el nivel de toxicidad definido. Para resolver esto, tendrá que revisar el contenido que está siendo procesado por la acción de comando de IA y potencialmente ajustar el umbral de toxicidad de la barrera o modificar el indicador para cumplir con las políticas definidas.
Comprender los códigos de color de toxicidad
El nivel de toxicidad tanto en las entradas del usuario (indicadores) como en las respuestas está codificado por colores para facilitar su identificación. Esto ayuda a comprender la gravedad del contenido potencialmente dañino y a determinar la acción adecuada. Un sistema común codificado por colores utilizado para indicar estos niveles incluye los siguientes:
- ⚪ Gris: No hay toxicidad. El contenido marcado como gris se considera seguro y no contiene ningún lenguaje identificable dañino o indeseable.
- 🟢 Verde: Contenido de toxicidad baja. El contenido marcado como verde contiene un nivel mínimo de lenguaje potencialmente problemático. Esto podría incluir blasfemias leves, contenido ligeramente sugerente o pequeños casos de lenguaje que podrían percibirse como insensibles dependiendo del contexto. Aunque no es gravemente perjudicial, es necesario examinarlo más a fondo.
- 🟠 Naranja: Contenido tóxico moderado. El contenido categorizado como naranja exhibe un nivel notable de lenguaje dañino u ofensivo. Esto podría incluir blasfemias más graves, tonos más explícitos o agresivos, o contenidos que se aproximen a la incitación al odio o al acoso pero que no cumplen plenamente los criterios de la máxima gravedad. Dicho contenido normalmente provoca acciones más estrictas por parte de Barreras de seguridad de la IA.
- 🔴 Rojo: Contenido tóxico alto. El contenido marcado en rojo indica la presencia de lenguaje gravemente ofensivo. Esto incluye, a menudo, discursos explícitos de odio dirigidos a grupos específicos, amenazas directas, lenguaje gravemente abusivo o contenidos que promueven actividades ilegales. Se pueden configurar Barreras de seguridad de la IA para bloquear o marcar contenido en este nivel a fin de prevenir daños y mantener la seguridad.