AI Guardrails
- Zuletzt aktualisiert2025/06/24
AI Guardrails
AI Guardrails sind ein entscheidender Schutzmechanismus, der die verantwortungsvolle Nutzung von KI sicherstellt und sensible Informationen während der Automatisierungs-Workflows schützt. Sie dienen als Sicherheits- und Steuerungsmechanismus, der dazu entwickelt wurde, Interaktionen zwischen Nutzern, Automatisierungen und großen Sprachmodellen (LLMs) zu kontrollieren. AI Guardrails zielen darauf ab, potenzielle Risiken zu mindern, Richtlinien durchzusetzen und sicherzustellen, dass KI-Systeme auf eine sichere, ethisch vertretbare und vorhersehbare Weise agieren.
Kernfunktionen von AI Guardrails
Im Kern steuern AI Guardrails den Fluss von Informationen und Aktionen in KI-gestützten Prozessen, hauptsächlich durch:
- Überwachung von Interaktionen Schutzvorrichtungen untersuchen aktiv sowohl die Eingaben (Nutzeranfragen), die an LLMs gesendet werden, als auch die Antworten, die von LLMs generiert werden. Diese Überwachung kann die Analyse von Inhalten anhand verschiedener Kriterien umfassen, wie z. B. Toxizität und sensible Daten.
- Kontrolle des Inhalts Schutzvorrichtungen setzen Regeln durch, um den Inhalt dieser Interaktionen zu verwalten. Dazu gehört die Möglichkeit, Eingabeaufforderungen und Antworten, die gegen vordefinierte Richtlinien verstoßen, zu filtern, zu ändern oder – was besonders wichtig ist – zu blockieren.
- Durchsetzung von Richtlinien: Organisationen können ihre eigenen Richtlinien für die Nutzung von KI durch Schutzvorrichtungen definieren und umsetzen. Dies ermöglicht die Ausrichtung an ethischen Richtlinien, behördlichen Anforderungen und internen Best Practices.
Schlüsselkonzepte und Mechanismen
- Data Masking Schützt sensible Daten in Eingabeaufforderungen und Modellantworten. Standardmäßig wendet das System Maskierung an, aber Sie können Klartext für bestimmte Anwendungsfälle zulassen. Intelligente Tokenisierung identifiziert sensible Daten, ersetzt sie durch Tokens, bevor sie an das LLM gesendet werden, und rekonstruiert die Originaldaten in der LLM-Antwort. AI Guardrails helfen Ihnen, präzise Data Masking-Regeln zu erstellen, die auf die folgenden kritischen Kategorien zugeschnitten sind: Persönlich identifizierbare Informationen (PII), geschützte Gesundheitsinformationen (PHI) und Bankkartendaten (PCI).
- Toxizitätsüberwachung: Analysiert Eingabeaufforderungen und von LLM generierte Antworten auf potenziell schädliche Sprache und klassifiziert sie nach Toxizitätsgrad. AI Guardrails können so konfiguriert werden, dass Eingabeaufforderungen oder Antworten blockiert werden, die festgelegte Toxizitätsschwellen überschreiten, um die Verbreitung schädlicher Inhalte zu verhindern.
-
Blockierungsmechanismen:
-
Eingabeaufforderungs-/Anfrageblockierung: AI Guardrails bewerten eine Eingabeaufforderung, bevor sie an das LLM gesendet wird. Wenn die Eingabeaufforderung gegen festgelegte Regeln verstößt (Zum Beispiel, wenn sie verbotene Sprache enthält oder die Toxizitätsschwellen überschreitet), wird die Schutzvorrichtung die Eingabeaufforderung blockieren.
Ergebnis:
-
Die Eingabeaufforderung wird nicht an das LLM gesendet.
-
Der Nutzer erhält eine Fehlermeldung, die darauf hinweist, dass die Eingabeaufforderung blockiert ist.
-
AI Governance-Protokolle zeichnen die blockierte Eingabeaufforderung und den Grund für die Blockierung auf.
-
-
Antwortblockierung: AI Guardrails können auch die Antwort des LLM auswerten, bevor sie dem Nutzer präsentiert wird. Selbst wenn die Eingabeaufforderung erlaubt ist, kann eine problematische Antwort blockiert werden.
Ergebnis:
-
Das LLM generiert eine Antwort, aber die Schutzvorrichtung fängt sie ab.
-
Die Antwort wird dem Nutzer nicht angezeigt (der Nutzer kann eine leere Antwort oder einen Fehler sehen).
-
AI Governance-Protokolle zeichnen die blockierte Antwort und den Grund für die Blockierung auf.
-
-
- Inline-Abfangmechanismus: AI Guardrails verwenden einen Inline-Abfangmechanismus, um Sicherheits- und Compliance-Richtlinien durchzusetzen.
- Überwachung und Protokollierung Protokolliert alle AI Guardrails-Aktionen, einschließlich Details der Data Masking- und Toxizitätsüberwachungsprozesse, und stellt einen Audit Trail bereit.
Szenarien
Um zu veranschaulichen, wie AI Guardrails den Informationsfluss zwischen AI Skills und LLMs steuern und wie sie verschiedene Szenarien basierend auf Toxizitätsstufen handhaben, bieten die folgenden Diagramme einen visuellen Überblick. Diese Szenarien zeigen den Weg einer Eingabeaufforderung und ihrer entsprechenden Modellantwort, während sie von der AI guardrail bewertet und verarbeitet werden, und veranschaulichen Fälle, in denen Inhalte mit Maskierung erlaubt sind, aufgrund hoher Toxizität blockiert werden oder in denen die Antwort selbst blockiert wird.
- Szenario 1: Eingabeaufforderung und Modellantwort erlaubt (Überwachte Toxizität)
- In diesem Szenario ist Ihre KI-Schutzvorrichtung so konfiguriert, dass alle Inhalte erlaubt sind, was bedeutet, dass Eingaben und Modellantworten auch dann durchgelassen werden, wenn sie erkannte Toxizität enthalten. Während Inhalte in dieser Konfiguration nicht blockiert werden, überwachen und protokollieren AI Guardrails sorgfältig alle erkannten Toxizitätsstufen.
Wie im Diagramm unten dargestellt:
- Die EINGABEAUFFORDERUNG des Nutzers gelangt in die AI guardrail, wo ihre Toxizität erkannt wird (z. B. als 🟢 Niedrig).
- Sensible Daten innerhalb der Eingabeaufforderung werden automatisch maskiert (z. B. PII tokenisiert), um die Privatsphäre zu schützen, bevor sie an das LLM gesendet werden.
- Das LLM generiert eine MODELLANTWORT, die dann an die AI guardrail zurückkehrt.
- Die Schutzvorrichtung führt erneut eine Toxizitätserkennung der Modellantwort durch (z. B. Feststellung 🟢 Niedrige Toxizität) und demaskiert alle tokenisierten Daten.
- Da die Schutzvorrichtung auf Alle erlauben eingestellt ist, sind sowohl die maskierte Eingabeaufforderung (an das LLM) als auch die unmaskierte Modellantwort (an den Nutzer) erlaubt.
- Die erkannten Toxizitätswerte für sowohl die Eingabeaufforderung als auch die Modellantwort werden innerhalb von AI Governance erfasst und protokolliert, wodurch wichtige Daten für Prüf- und Überwachungszwecke bereitgestellt werden, ohne das Nutzererlebnis zu beeinträchtigen.
- Szenario 2: Eingabeaufforderung blockiert aufgrund von Toxizitätsbewertung
-
In diesem Szenario ist Ihre AI guardrail mit Regeln konfiguriert, um Inhalte zu blockieren, die einen bestimmten Toxizitätsgrenzwert überschreiten (z. B. so eingestellt, dass hochgradig toxische und mäßig toxische Inhalte blockiert werden). Dies stellt sicher, dass potenziell schädliche oder unangemessene Nutzereingaben gestoppt werden, bevor sie das LLM erreichen können.
Wie im Diagramm unten dargestellt:
- Der Nutzer initiiert eine EINGABEAUFFORDERUNG, die Inhalte enthält, die mit 🔴 Hohe Toxizität eingestuft werden (oder ein Niveau aufweisen, das gegen die konfigurierte Schutzvorrichtungsregel verstößt).
- Diese Eingabe gelangt in die AI guardrail, wo sie sofort einer Toxizitätserkennung unterzogen wird.
- Beim Erkennen eines Toxizitätsniveaus, das den festgelegten Schwellenwert überschreitet, greift die AI guardrail ein und blockiert die Eingabeaufforderung.
- Folglich wird die Eingabeaufforderung niemals an das LLM gesendet.
- Da die Eingabe blockiert ist, wird keine Modellantwort generiert oder an den Nutzer zurückgegeben, was effektiv die Verarbeitung schädlicher Eingaben verhindert und die Automatisierung stoppt.
- Details der blockierten Eingabeaufforderung, einschließlich seiner Toxizitätsniveaus und des Grundes für die Blockierung, werden automatisch in AI Governance zu Prüf- und Compliance-Zwecken erfasst und protokolliert.
- Szenario 3: [Eingabeaufforderung erlaubt, Modellantwort aufgrund von Toxizitätsbewertung blockiert]
-
In diesem Szenario ist Ihre AI guardrail so konfiguriert, dass anfängliche Eingaben zugelassen werden, die seinen Sicherheitskriterien entsprechen (z. B. als gering oder nicht toxisch eingestuft). Jedoch behält die Schutzvorrichtung die Wachsamkeit bei und überwacht aktiv die vom LLM generierten Antworten, um sicherzustellen, dass dem Nutzer keine schädlichen oder unangemessenen Inhalte präsentiert werden.
Wie im Diagramm unten dargestellt:
- Die EINGABEAUFFORDERUNG des Nutzers gelangt in die KI-Schutzvorrichtung. Seine Toxizität wird erkannt (z. B. als 🟢 Niedrig) und liegt innerhalb des erlaubten Schwellenwerts.
- Sensible Daten innerhalb der Eingabeaufforderung werden automatisch maskiert, um die Privatsphäre zu schützen, bevor die Eingabeaufforderung an das LLM gesendet wird.
- Das LLM verarbeitet die maskierte Eingabeaufforderung und generiert eine MODELLANTWORT.
- Diese Modellantwort kehrt dann zur AI guardrail für eine Toxizitätserkennung zurück.
- In diesem Fall enthält die Modellantwort 🔴 Hohe Toxizität (oder ein Niveau, das die für Antworten konfigurierten Regeln der Schutzvorrichtung verletzt).
- Nach Erkennung dieses Verstoßes blockiert die AI guardrail die Modellantwort.
- Folglich wird die problematische Modellantwort dem Nutzer nicht präsentiert. Stattdessen könnte der Nutzer eine leere Antwort oder eine Fehlermeldung sehen.
- Alle Details der blockierten Antwort, einschließlich ihres Toxizitätsniveaus und des Grundes für die Blockierung, werden automatisch in AI Governance erfasst und protokolliert, um einen vollständigen Audit Trail der KI-Interaktion sicherzustellen.
Vorteile
Die Verwendung von AI Guardrails bietet mehrere wichtige Vorteile:
- Verbesserte Sicherheit: Reduziert das Risiko, Nutzer schädlichen oder unangemessenen Inhalten auszusetzen, die von LLMs generiert werden.
- Verbesserte Compliance: Hilft Organisationen, relevante Vorschriften und Industriestandards im Zusammenhang mit der Nutzung von KI einzuhalten.
- Gesteigertes Vertrauen Fördert das Vertrauen in KI-Systeme, indem es ein Engagement für verantwortungsvolle und ethisch vertretbare Praktiken demonstriert.
- Richtliniendurchsetzung: Ermöglicht es Organisationen, ihre internen KI-Nutzungsrichtlinien konsequent durchzusetzen.
- Risikominderung: Mildert proaktiv potenzielle Risiken im Zusammenhang mit LLM-Ausgaben ab, wie z. B. Reputationsschäden oder rechtliche Haftung.
- Schutz sensibler Daten: Schützt sensible Informationen davor, direkt von LLMs verarbeitet zu werden.