Toxizität in KI
- Zuletzt aktualisiert2025/06/02
Toxizität, im Kontext von KI-Systemen, bezieht sich auf das Vorhandensein von schädlichen oder unerwünschten Inhalten innerhalb der Eingaben (Eingabeaufforderungen) oder Ausgaben (Antworten) des Modells.
Dies umfasst ein Spektrum problematischer Formulierungen und Konzepte, die sich negativ auf die Nutzer auswirken, gesellschaftliche Vorurteile reproduzieren und das Vertrauen in KI-Technologien untergraben können. Für die Entwicklung einer verantwortungsvollen und ethisch vertretbaren KI muss die Vielschichtigkeit von Toxizität verstanden werden.
Schlüsseldimensionen der Toxizität
- Hassrede: Sprache, die Einzelpersonen oder Gruppen aufgrund von Merkmalen wie Hautfarbe, ethnischer Zugehörigkeit, Religion, Geschlecht, sexueller Orientierung, Behinderung oder anderen geschützten Merkmalen angreift oder herabwürdigt. Dies kann sich in Form von Beleidigungen, Stereotypen oder Aufrufen zur Gewalt manifestieren.
- Belästigung: Inhalte, die beleidigend, ausfallend oder bedrohlich gegenüber einer Person sind. Dies kann persönliche Angriffe, Einschüchterung und unerwünschte sexuelle Annäherungsversuche umfassen.
- Obszöne Sprache und Vulgarität: Die Verwendung beleidigender oder obszöner Sprache, die zu einer negativen oder unangenehmen Erfahrung für Nutzer führen kann. Zwar ist dies vom Kontext abhängig, doch übermäßige oder unbegründete Obszönitäten können als toxisch angesehen werden.
- Gewalt und Hetze: Inhalte, die Gewalt, Terrorismus oder andere bedrohliche Handlungen fördern oder verherrlichen. Dies umfasst die Anstiftung zu Hass und die Aufforderung an andere, Gewalt auszuüben.
- Fehlinformation und Desinformation: Obwohl die Verbreitung falscher oder irreführender Informationen nicht immer von Natur aus toxisch im emotionalen Sinne ist, kann sie schwerwiegende Folgen für Einzelpersonen und die Gesellschaft haben, was sie zu einem kritischen Thema für die Sicherheit der KI macht.
- Voreingenommenheit und Diskriminierung: KI-Systeme können unbeabsichtigt toxische Ergebnisse generieren, indem sie in ihren Trainingsdaten vorhandene Voreingenommenheit widerspiegeln und verstärken. Dies kann zu diskriminierender oder unfairer Behandlung bestimmter Gruppen führen.
- Inhalte für Erwachsene: Je nach Kontext und Verwendungszweck des KI-Systems kann die Erstellung oder Verbreitung expliziter sexueller Inhalte als toxisch oder unangemessen angesehen werden.
Konfiguration der Toxizitätsregel
Verwenden Sie die Einstellungen für die Toxizitätsregel, um zu steuern, wie Ihr System potenziell schädliche oder anstößige Inhalte sowohl in Nutzer-Eingabeaufforderungen als auch in vom Modell generierten Antworten behandelt. Diese Regeln unterstützen den verantwortungsvollen Einsatz von KI und sind vollständig mit AI Governance integriert, um Transparenz und Überprüfbarkeit zu gewährleisten.
Auf jeder Regelebene können Sie festlegen, wie streng das System Inhalte anhand ihrer Toxizität bewerten und blockieren soll. Sie können unterschiedliche Schwellenwerte für Eingabeaufforderungen und Modellantworten festlegen.
-
Alle zulassen (Standardeinstellung)
-
✅ Kein Inhalt wird blockiert, unabhängig vom Toxizitätsgrad.
-
Eingabeaufforderungen und Antworten werden weiterhin im Hintergrund auf Toxizität überprüft.
-
Toxizitätswerte werden aufgezeichnet und zur Überprüfung bereitgestellt über:
-
KI-Eingabeaufforderungs-Protokolle
-
Ereignisprotokolle
-
-
Ideal für Prüfungszwecke, ohne die Benutzererfahrung zu beeinträchtigen.
-
-
Inhalte mit hoher Toxizität blockieren
-
❌ Blockiert Inhalte mit schwerer Toxizität, einschließlich:
-
Extreme Beleidigungen
-
Explizite Obszönitäten
-
Direkte Bedrohungen
-
-
Entwickelt, um die schädlichsten und anstößigsten Eingaben/Ausgaben herauszufiltern.
-
✅ Mäßige und niedrige Toxizität ist weiterhin erlaubt.
-
-
Inhalte mit hoher und mittlerer Toxizität blockieren
-
❌ Blockiert sowohl hohe als auch mittlere Stufen von:
-
Beleidigungen
-
Obszönitäten
-
Bedrohungen
-
-
Bietet ein ausgewogenes Verhältnis zwischen Sicherheit und Ausdrucksfreiheit und eignet sich ideal für sensible Umgebungen.
-
✅ Minimal toxischer Inhalt ist weiterhin erlaubt.
-
-
Alle toxischen Inhalte blockieren (Hoch, Mittel und Minimal)
-
❌ Die restriktivste Einstellung – blockiert jede Stufe von Toxizität, einschließlich:
-
Subtile oder indirekte Beleidigungen
-
Leicht anstößige Sprache
-
Ausdrücke mit geringem Bedrohungsgrad
-
-
Empfohlen für Umgebungen mit strikten Inhaltsrichtlinien, wie Bildung, Gesundheitswesen oder öffentliche Dienste.
-
Wenn einer Automatisierung, die Aktionen aus Paket „Generative KI“ oder AI Skills package verwendet, eine AI guardrail zugewiesen ist, überwacht das System sowohl den Inhalt der an das KI-Modell gesendeten Eingabeaufforderungen als auch die empfangenen Antworten. Wenn die bewertete Toxizität der Eingabeaufforderung oder der Antwort den in der zugewiesenen Schutzvorrichtung konfigurierten Schwellenwert überschreitet, greift die Schutzvorrichtung ein, um zu verhindern, dass potenziell schädliche Inhalte verarbeitet oder angezeigt werden. In solchen Fällen wird die Ausführung der Automatisierung an der Stelle angehalten, an der die Schutzvorrichtung ausgelöst wurde.

Wie im obigen Screenshot dargestellt, wird eine Fehlermeldung angezeigt, wenn eine Schutzvorrichtung die Ausführung einer Automatisierung aufgrund einer erkannten Toxizitätsverletzung blockiert. Diese Meldung weist in der Regel darauf hin, dass die Eingabeaufforderung durch eine Schutzvorrichtung oder eine ähnliche Benachrichtigung blockiert wurde, wobei häufig der Ort innerhalb der Automatisierung angegeben wird, an dem die Blockierung aufgetreten ist (z. B. eine bestimmte Aktion und Zeilennummer). Die Fehlermeldung enthält auch eine kurze Begründung für die Sperrung, z. B. Überschreitung des definierten Toxizitätsgrades. Zur Behebung dieses Problems müssen Sie den Inhalt überprüfen, der von der KI-Befehlsaktion verarbeitet wird, und gegebenenfalls den Toxizitätsschwellenwert der Schutzvorrichtung anpassen oder die Eingabeaufforderung entsprechend den definierten Richtlinien ändern.
Die Farbcodes für die Toxizität verstehen
Der Grad der Toxizität sowohl in den Benutzereingaben (Eingabeaufforderungen) als auch in den Antworten ist zur leichteren Identifizierung farblich gekennzeichnet. Dies hilft, die Schwere potenziell schädlicher Inhalte zu verstehen und die geeignete Maßnahme zu bestimmen. Ein gängiges Farbcodierungssystem zur Kennzeichnung dieser Stufen umfasst:
- ⚪ Grau: Keine Toxizität. Inhalt, der als grau markiert ist, wird als sicher angesehen und enthält keine erkennbar schädliche oder unerwünschte Sprache.
- 🟢 Grün: Niedriger toxischer Gehalt. Inhalt, der als grün markiert ist, enthält ein minimales Maß an potenziell problematischer Sprache. Dies kann leichte Obszönitäten, leicht anzügliche Inhalte oder vereinzelte Formulierungen umfassen, die je nach Kontext als unsensibel empfunden werden könnten. Auch wenn es nicht schwerwiegend schädlich ist, verdient es Aufmerksamkeit und möglicherweise eine weitere Überprüfung.
- 🟠 Orange: Mäßig toxischer Inhalt. Inhalt, der als orange kategorisiert ist, weist ein deutliches Maß an schädlicher oder anstößiger Sprache auf. Dies kann stärkere Obszönitäten, explizitere oder aggressivere Töne oder Inhalte umfassen, die an Hassreden oder Belästigungen grenzen, jedoch nicht vollständig die Kriterien für den höchsten Schweregrad erfüllen. Solche Inhalte führen typischerweise zu strengeren Maßnahmen durch AI Guardrails.
- 🔴 Rot: Hoher toxischer Gehalt. Inhalt, der als rot markiert ist, weist auf das Vorhandensein von schwerer und äußerst anstößiger Sprache hin. Dies umfasst häufig explizite Hassreden gegen bestimmte Gruppen, direkte Drohungen, schwer beleidigende Sprache oder Inhalte, die illegale Aktivitäten fördern. AI Guardrails können so eingestellt werden, dass Inhalte auf dieser Stufe blockiert oder markiert werden, um Schaden zu verhindern und die Sicherheit zu gewährleisten.