Automation 360

Toxizität in KI

Als PDF herunterladen

Inhalte

Toxizität in KI

Als PDF herunterladen

Zuletzt aktualisiert2025/12/01

Toxizität, im Kontext von KI-Systemen, bezieht sich auf das Vorhandensein von schädlichen oder unerwünschten Inhalten innerhalb der Eingaben (Eingabeaufforderungen) oder Ausgaben (Antworten) des Modells.

Dies umfasst ein Spektrum problematischer Formulierungen und Konzepte, die sich negativ auf die Nutzer auswirken, gesellschaftliche Vorurteile reproduzieren und das Vertrauen in KI-Technologien untergraben können. Für die Entwicklung einer verantwortungsvollen und ethisch vertretbaren KI muss die Vielschichtigkeit von Toxizität verstanden werden.

Schlüsseldimensionen der Toxizität

Hassrede: Sprache, die Einzelpersonen oder Gruppen aufgrund von Merkmalen wie Hautfarbe, ethnischer Zugehörigkeit, Religion, Geschlecht, sexueller Orientierung, Behinderung oder anderen geschützten Merkmalen angreift oder herabwürdigt. Dies kann sich in Form von Beleidigungen, Stereotypen oder Aufrufen zur Gewalt manifestieren.
Belästigung: Inhalte, die beleidigend, ausfallend oder bedrohlich gegenüber einer Person sind. Dies kann persönliche Angriffe, Einschüchterung und unerwünschte sexuelle Annäherungsversuche umfassen.
Obszöne Sprache und Vulgarität: Die Verwendung beleidigender oder obszöner Sprache, die zu einer negativen oder unangenehmen Erfahrung für Nutzer führen kann. Zwar ist dies vom Kontext abhängig, doch übermäßige oder unbegründete Obszönitäten können als toxisch angesehen werden.
Gewalt und Hetze: Inhalte, die Gewalt, Terrorismus oder andere bedrohliche Handlungen fördern oder verherrlichen. Dies umfasst die Anstiftung zu Hass und die Aufforderung an andere, Gewalt auszuüben.
Fehlinformation und Desinformation: Obwohl die Verbreitung falscher oder irreführender Informationen nicht immer von Natur aus toxisch im emotionalen Sinne ist, kann sie schwerwiegende Folgen für Einzelpersonen und die Gesellschaft haben, was sie zu einem kritischen Thema für die Sicherheit der KI macht.
Voreingenommenheit und Diskriminierung: KI-Systeme können unbeabsichtigt toxische Ergebnisse generieren, indem sie in ihren Trainingsdaten vorhandene Voreingenommenheit widerspiegeln und verstärken. Dies kann zu diskriminierender oder unfairer Behandlung bestimmter Gruppen führen.
Inhalte für Erwachsene: Je nach Kontext und Verwendungszweck des KI-Systems kann die Erstellung oder Verbreitung expliziter sexueller Inhalte als toxisch oder unangemessen angesehen werden.

Konfiguration der Toxizitätsregel

Verwenden Sie die Einstellungen für die Toxizitätsregel, um zu steuern, wie Ihr System potenziell schädliche oder anstößige Inhalte sowohl in Nutzer-Eingabeaufforderungen als auch in vom Modell generierten Antworten behandelt. Diese Regeln unterstützen den verantwortungsvollen Einsatz von KI und sind vollständig mit KI-Governance integriert, um Transparenz und Überprüfbarkeit zu gewährleisten.

Auf jeder Regelebene können Sie festlegen, wie streng das System Inhalte anhand ihrer Toxizität bewerten und blockieren soll. Sie können unterschiedliche Schwellenwerte für Eingabeaufforderungen und Modellantworten festlegen.

Alle zulassen (Standardeinstellung)
- ❌ Kein Inhalt wird blockiert, unabhängig vom Toxizitätsgrad.
- Eingabeaufforderungen und Antworten werden weiterhin im Hintergrund auf Toxizität überprüft.
- Toxizitätswerte werden aufgezeichnet und zur Überprüfung bereitgestellt über:
  - KI-Eingabeaufforderungs-Protokolle
  - Ereignisprotokolle
- Ideal für Prüfungszwecke, ohne die Benutzererfahrung zu beeinträchtigen.
Inhalte mit hoher Toxizität blockieren
- ❌ Blockiert Inhalte mit schwerer Toxizität, einschließlich:
  - Extreme Beleidigungen
  - Explizite Obszönitäten
  - Direkte Bedrohungen
- Entwickelt, um die schädlichsten und anstößigsten Eingaben/Ausgaben herauszufiltern.
- ✅ Mäßige und niedrige Toxizität ist weiterhin erlaubt.
Inhalte mit hoher und mittlerer Toxizität blockieren
- ❌ Blockiert sowohl hohe als auch mittlere Stufen von:
  - Beleidigungen
  - Obszönitäten
  - Bedrohungen
- Bietet ein ausgewogenes Verhältnis zwischen Sicherheit und Ausdrucksfreiheit und eignet sich ideal für sensible Umgebungen.
- ✅ Minimal toxischer Inhalt ist weiterhin erlaubt.
Alle toxischen Inhalte blockieren (Hoch, Mittel und Minimal)
- ❌ Die restriktivste Einstellung – blockiert jede Stufe von Toxizität, einschließlich:
  - Subtile oder indirekte Beleidigungen
  - Leicht anstößige Sprache
  - Ausdrücke mit geringem Bedrohungsgrad
- Empfohlen für Umgebungen mit strikten Inhaltsrichtlinien, wie Bildung, Gesundheitswesen oder öffentliche Dienste.

Wenn einer Automatisierung, die Aktionen aus Paket „Generative KI“ oder KI-Fähigkeiten Paket verwendet, eine KI-Schutzvorrichtung zugewiesen ist, überwacht das System sowohl den Inhalt der an das KI-Modell gesendeten Eingabeaufforderungen als auch die empfangenen Antworten. Wenn die bewertete Toxizität der Eingabeaufforderung oder der Antwort den in der zugewiesenen Schutzvorrichtung konfigurierten Schwellenwert überschreitet, greift die Schutzvorrichtung ein, um zu verhindern, dass potenziell schädliche Inhalte verarbeitet oder angezeigt werden. In solchen Fällen wird die Ausführung der Automatisierung an der Stelle angehalten, an der die Schutzvorrichtung ausgelöst wurde.

KI-SchutzvorrichtungToxizitätsblock – Fehlermeldung

Wie im obigen Screenshot dargestellt, wird eine Fehlermeldung angezeigt, wenn eine Schutzvorrichtung die Ausführung einer Automatisierung aufgrund einer erkannten Toxizitätsverletzung blockiert. Diese Meldung weist in der Regel darauf hin, dass die Eingabeaufforderung durch eine Schutzvorrichtung oder eine ähnliche Benachrichtigung blockiert wurde, wobei häufig der Ort innerhalb der Automatisierung angegeben wird, an dem die Blockierung aufgetreten ist (z. B. eine bestimmte Aktion und Zeilennummer). Die Fehlermeldung enthält auch eine kurze Begründung für die Sperrung, z. B. Überschreitung des definierten Toxizitätsgrades. Zur Behebung dieses Problems müssen Sie den Inhalt überprüfen, der von der KI-Befehlsaktion verarbeitet wird, und gegebenenfalls den Toxizitätsschwellenwert der Schutzvorrichtung anpassen oder die Eingabeaufforderung entsprechend den definierten Richtlinien ändern.

Zurück

Kein vorheriges Thema

Weiter

Kein nächstes Thema

Zurück

Kein vorheriges Thema

Weiter

Kein nächstes Thema