Data Masking in KI
- Zuletzt aktualisiert2025/06/24
Data Masking, auch bekannt als Datenverschleierung oder Anonymisierung, ist eine wichtige Technik zum Schutz sensibler Informationen, bei der diese durch realistische, aber nicht identifizierbare Ersatzdaten ersetzt werden.
Das primäre Ziel ist es, Daten für unbefugten Zugriff oder Analyse unbrauchbar zu machen, während ihr Format und ihre statistischen Eigenschaften für legitime Zwecke wie Tests, Entwicklung, Training von KI-Modellen und Analysen erhalten bleiben. Effektiv implementiertes Data Masking minimiert das Risiko von Datenschutzverletzungen und hilft Organisationen, verschiedene Datenschutzbestimmungen einzuhalten.
Tokenisierung ist eine Data Masking-Technik, die die Sicherheit erhöht, indem sie sensible Datenelemente durch nicht sensible Ersatzwerte ersetzt, die Tokens genannt werden. Diese Tokens bewahren das Format und die Länge der ursprünglichen Daten, wodurch sie realistisch erscheinen, aber keinen intrinsischen Wert haben. Der entscheidende Aspekt der Tokenisierung liegt darin, dass die ursprünglichen sensiblen Daten sicher innerhalb des Control Rooms gespeichert werden.
Wie die Tokenisierung funktioniert
- Datenidentifikation: Das System identifiziert die sensiblen Datenfelder, die Schutz benötigen (z. B. Kreditkartennummern (PCI), Sozialversicherungsnummern (PII), persönliche Gesundheitsinformationen (PHI)).
- Token-Generierung: Für jeden sensiblen Datenwert wird ein einzigartiges, zufälliges Token generiert. Diese Tokens können nicht zurückentwickelt werden, um die ursprünglichen Werte zu erhalten, und haben keine mathematische oder erkennbare Beziehung zu den ursprünglichen Daten.
- Datenersetzung: Die ursprünglichen sensiblen Daten innerhalb der Anwendung, der Datenbank oder des Systems werden durch das entsprechende Tokens ersetzt.
- Sichere Speicherung: Die Zuordnung zwischen den Tokens und den ursprünglichen sensiblen Daten wird sicher im Control Room gespeichert und verwaltet.
- De-Tokenisierung (wenn notwendig und autorisiert): Wenn autorisierte Nutzer oder Systeme aus legitimen Gründen auf die ursprünglichen sensiblen Daten zugreifen müssen, wird ein De-Tokenisierungsprozess aufgerufen. Dies beinhaltet das Abrufen der Originaldaten aus dem Control Room mithilfe des entsprechenden Tokens.
Wichtige Vorteile der Tokenisierung
- Erhöhte Sicherheit: Durch die Entfernung tatsächlicher sensibler Daten aus operativen Umgebungen reduziert die Tokenisierung das Risiko von Datenverletzungen und die Auswirkungen von Sicherheitsvorfällen erheblich. Selbst wenn ein System, das Tokens enthält, kompromittiert wird, erhalten die Angreifer keine wertvollen sensiblen Informationen.
- Erleichterung der Compliance: Tokenisierung hilft Organisationen, strenge Datenschutz- und Sicherheitsvorschriften wie PCI DSS, DSGVO und HIPAA einzuhalten, indem sie die Speicherung, Verarbeitung und Übertragung tatsächlicher sensibler Daten minimiert.
- Datennutzen: Tokens bewahren das Format und die Länge der Originaldaten, sodass Anwendungen und Systeme ohne wesentliche Änderungen weiterhin funktionieren können. Dies macht es geeignet für Tests, Entwicklung und Analysen, bei denen die tatsächlichen sensiblen Werte nicht erforderlich sind.
- Schutz sensibler Informationen: Durch die Minimierung der Präsenz wirklich sensibler Daten in den Automatisierungs-Workflows, die mit LLMs interagieren, können Unternehmen bestimmte Aspekte der Datenverarbeitung und Sicherheitsbewertungen bei Compliance-Audits vereinfachen.
- Kontrolle und Nachvollziehbarkeit: Während sich die Tresore, die die Zuordnung speichern, außerhalb des Control Rooms befinden, bietet der Control Room kontrollierten Zugriff auf diese gespeicherten Daten durch robuste Authentifizierungs- und Autorisierungsmechanismen. Dies trägt dazu bei, unbefugten Zugriff zu verhindern. Die sichere Speicherung von Daten wird durch starke, branchenübliche Authentifizierungsprotokolle gewährleistet.
- Flexibilität: Die Tokenisierung innerhalb des AI Guardrails-Frameworks kann auf verschiedene Arten sensibler Daten angewendet werden, insbesondere innerhalb von Automatisierungen, die mit großen Sprachmodellen (LLMs) interagieren.
Erstellen von Data Masking-Regeln
Sie können eine neue Maskierungsregel definieren, während Sie eine Schutzvorrichtung erstellen, Sie können auf Regel erstellen klicken und dann Folgendes angeben:
-
Kategorieauswahl: Wählen Sie eine übergeordnete Kategorie sensibler Daten aus. Die verfügbaren Kategorien umfassen:
- Personenbezogene Daten (Personally Identifiable Information, PII): Umfasst Daten, die eine Person identifizieren können.
- Bankkartendaten (Payment Card Industry, PCI): Bezieht sich auf Kredit- und Debitkarteninformationen.
- Geschützte Gesundheitsinformationen (Protected Health Information, PHI): Beinhaltet gesundheitsbezogene Daten, die eine Person identifizieren können.
-
Typauswahl: Nach Auswahl einer Kategorie wählen Sie eine oder mehrere spezifische Typen innerhalb dieser Kategorie zum Maskieren aus.
-
Personenbezogene identifizierbare Informationen (Personally Identifiable Informatio oder kurz PII):
- Fahrzeug-Identifizierungsnummer
- Sozialversicherungsnummer
- E-Mail-Adresse
- IP-Adresse
- Einheitlicher Ressourcen-Locator
- Person
- Adresse
- Organisation
- Führerscheinnummer
- Faxnummer
- Telefonnummer
- Fahrzeugkennzeichen
- Alles auswählen
-
Zahlungskartenindustrie (Payment Card Industry oder kurz PCI):
- Kreditkartennummer
- Bankkontonummer
- Alles auswählen
-
Geschützte Gesundheitsinformationen (Protected Health Information oder kurz PHI):
- Medizinische Dokumentationsnummer
- Krankenversicherungsnummer
- Lizenznummer
- Todesdatum
- Entlassungsdatum
- Beginn des Krankenhausaufenthalts
- Medienzugriffskontrollnummer
- Versicherungsnummer
- Gesundheitskontonummer
- Geburtsdatum
- Alles auswählen
Anmerkung: Die sensiblen Entitäten wie PII, PHI, PCI, die in den Eingabeaufforderungen identifiziert werden, werden maskiert, indem sie durch nicht sensible Tokens ersetzt werden, sodass sie nicht den LLMs offengelegt werden. Diese Tokens werden ersetzt, wenn Modellantworten empfangen werden, um sie mit den ursprünglichen Werten zu rekonstruieren. Die sensiblen Daten und die tokenisierten Werte werden sicher in einem Tresor aufbewahrt und nur für 30 Tage gespeichert. -
- Wählen Sie das Verhalten der Schutzvorrichtungen
- Maskieren: Ein umkehrbarer Prozess, bei dem sensible Daten vorübergehend durch einen tokenisierten Wert ersetzt werden. Die Originaldaten werden abgerufen und in der Antwort des LLM wiederhergestellt, bevor sie dem Nutzer präsentiert werden.
- Anononymisieren: Ein irreversibler Prozess, der sensible Daten dauerhaft durch ein Token ersetzt. Die Originaldaten werden nicht gespeichert oder verwendet, um die Antwort für den Nutzer zu rekonstruieren, was es für Szenarien mit strengen Verboten zur Datenaufbewahrung geeignet macht.
- Zulassen: Für bestimmte Anwendungsfälle, die den Zugriff auf vertrauliche Daten erfordern, können Sie die Übermittlung der Daten an das LLM im Klartext zulassen.
Weitere Informationen zum Konfigurieren einer AI guardrail und zum Einrichten des Data Masking finden Sie unter AI Guardrails erstellen und verwalten.