データマスキング、またはデータの難読化や匿名化としても知られる技術は、敏感な情報を保護するために、リアルでありながら特定できない代替品に置き換える重要な手法です。

主な目的は、テスト、開発、AI モデルのトレーニング、分析などの正当な目的のために、データの形式と統計的特性を保持しつつ、無許可のアクセスや分析に対してデータを使用不能にすることです。 効果的に実施されたデータマスキングは、データ侵害のリスクを最小限に抑え、組織がさまざまなプライバシー規制への準拠に役立ちます。

トークン化は、機密データ要素を非機密の代替品である トークン に置き換えることによってセキュリティを強化するデータマスキング技術です。 これらのトークンは元のデータの形式と長さを維持し、リアルに見えますが、内在的な価値は持っていません。 トークン化の重要な側面は、元の機密データが Control Room 内に安全に保存されているという事実にあります。

トークン化の仕組み

  1. データ識別: システムは保護が必要なセンシティブ データフィールドを特定します(例:クレジットカード番号、社会保障番号、個人健康情報)。
  2. トークン生成: 各センシティブデータ値に対して、一意のランダム トークンが生成されます。 これらのトークンは元の値を逆算することができず、元のデータとの間に数学的または明確な関係を持ちません。
  3. データ置換: アプリケーション、データベース、またはシステム内の元の機密データは、それに対応するトークンに置き換えられます。
  4. 安全な保管: トークンと元の機密データとのマッピングは、Control Room 内で安全に保存および管理されています。
  5. デトークン化(必要に応じて、かつ承認された場合): 正当な目的のために承認されたユーザーまたはシステムが元の機密データにアクセスする必要がある場合、デトークン化プロセスが呼び出されます。 これは、対応するトークンを使用して Control Room から元のデータを取得することを含みます。

トークン化の主な利点

  • セキュリティの強化: 実際の機密データを運用環境から削除することで、トークン化はデータ侵害のリスクとセキュリティ インシデントの影響を大幅に軽減します。 トークンを含むシステムが侵害されても、攻撃者が価値のある機密情報を得ることはありません。
  • コンプライアンス促進: トークン化は、実際の機密データの保存、処理、および送信を最小限に抑えることによって、PCI DSS、GDPR、HIPAAなどの厳格なデータセキュリティおよびプライバシー規制を満たすのに役立ちます。
  • データユーティリティ: トークンは元のデータの形式と長さを保持し、アプリケーションやシステムが大幅な変更なしに機能し続けることを可能にします。 これは、実際の機密値が必要ないテスト、開発、分析に適しています。
  • 機密情報の保護: LLM と相互作用する自動化ワークフロー内で実際の機密データの存在を最小限に抑えることで、組織はコンプライアンス監査中のデータ処理およびセキュリティ評価の特定の側面を簡素化できる可能性があります。
  • 管理&監査: マッピングを保存しているボールトは Control Room の外にありますが、Control Room は堅牢な認証および承認メカニズムを通じてこの保存されたデータへの制御されたアクセスを提供します。 これは不正アクセスへの曝露を防ぐのに役立ちます。 データの安全な保管は、強力な業界標準の認証プロトコルを使用して維持されています。
  • 柔軟性: AI Guardrails フレームワーク内でのトークン化は、特に大規模言語モデル(LLM)と対話する自動化内のさまざまな種類の機密データに適用できます。

データマスキング ルールの作成

ガードレールを作成する際に新しいマスキングルールを定義できます。ルール作成をクリックして、次の内容を指定してください:

  1. カテゴリの選択: 機密データの幅広い カテゴリ を選択してください。 利用可能なカテゴリには次のものが含まれます。
    • 個人を特定可能な情報 (PII): 個人を特定できるデータを含みます。
    • 決済カード業界 (PCI): クレジットカードおよびデビットカード情報に関連します。
    • 個人情報保護に基づく健康情報 (PHI): 個人を特定できる健康関連データが含まれます。
  2. タイプ選択: カテゴリを選択した後、そのカテゴリ内でマスキングするために1つ以上の特定のタイプを選択してください。
    • 個人を特定可能な情報 (PII):

      • 車両識別番号
      • 社会保障番号
      • メールアドレス
      • IP アドレス
      • ユニフォーム リソース ロケータ(URL)
      • 名前
      • 住所
      • 組織名
      • 運転免許証番号
      • ファックス番号
      • 電話番号
      • 車両登録番号
      • すべて選択
    • 決済カード業界 (PCI):

      • クレジットカード番号
      • 銀行口座番号
      • すべて選択
    • 個人情報保護に基づく健康情報 (PHI):

      • 医療記録番号
      • 健康受益者番号
      • ライセンス番号
      • 死亡年月日
      • 退院日
      • 入院日
      • MACアドレス
      • 保険者番号
      • ヘルスアカウント番号
      • 生年月日
      • すべて選択
    注: プロンプト内で特定されたPII、PHI、PCIなどのセンシティブなエンティティは、非センシティブなトークンに置き換えられることでマスクされ、LLMにさらされないようにされています。 これらのトークンは、モデルの応答を受信したときに置き換えられ、元の値で再構築されます。 敏感なエンティティとトークン化された値は、安全にボールト内に保存され、30日間のみ保持されます。
  3. ガードレールの動作 を選択
    • マスク: 機密データを一時的にトークン化された値に置き換える可逆的なプロセスです。 元のデータは取得され、ユーザーに提示される前にLLMの応答に再挿入されます。
    • 匿名化: 不可逆的なプロセスで、敏感データをトークンに永久に置き換えます。 元のデータはユーザーへの応答を再構築するために使用されず、保存もされないため、厳格なデータ保持禁止があるシナリオに適しています。
    • 許可: 特定の事例で機密データへのアクセスが必要な場合、データを平文でLLMに送信することを許可することができます。

AI guardrail の構成およびデータマスキングの設定方法の詳細については、AI Guardrailsの作成と管理 を参照してください。