AI Guardrails
- 最終更新日2025/06/24
AI Guardrails
AI Guardrails は重要な保護手段であり、AI の責任ある使用を確保し、自動化ワークフロー中に機密情報を保護します。 彼らはユーザー、自動化、および大規模言語モデル(LLM)間のやり取りを制御するために設計された、安全性とガバナンスのメカニズムとして機能します。AI Guardrailsは潜在的なリスクを軽減し、ポリシーを施行し、AI システムが安全で倫理的かつ予測可能な方法で動作することを保証します。
AI Guardrailsの主要な機能
AI Guardrails は主に以下の方法で AI 駆動プロセスにおける情報と行動の流れを支配します。
- インタラクションの監視: ガードレールは、LLM に送信されたプロンプト(ユーザーリクエスト)と LLM によって生成された応答の両方を積極的に検査します。 この監視は、毒性やセンシティブなデータなど、さまざまな基準に基づいてコンテンツを分析することを含む場合があります。
- コンテンツの管理:ガードレールは、これらのインタラクションのコンテンツを管理するためのルールを強制します。 これには、事前に定められたポリシーに違反するプロンプトや応答をフィルタリング、修正、または重要な点としてブロックする機能が含まれます。
- ポリシーの施行: 組織はガードレールを通じて AI の利用に関する独自のポリシーを定義し、実施することができます。 これは倫理ガイドライン、規制要件、および内部のベスト プラクティスとの整合性を持たせることを可能にします。
重要な概念とメカニズム
- データマスキング: プロンプトとモデルの応答内の機密データを保護します。 デフォルトでは、システムはマスキングを適用しますが、特定の事例にはクリアテキストを許可できます。 スマートトークン化は、センシティブなデータを特定し、LLM に送信する前にトークンに置き換え、LLM の応答で元のデータを再構築します。 AI Guardrails は、以下の重要なカテゴリに合わせた正確なデータマスキングルールを確立するのに役立ちます: 個人を特定できる情報(PII)、保護された健康情報(PHI)、および支払いカード業界データ(PCI)。
- 毒性モニタリング:プロンプトと LLM 生成の応答を潜在的に有害な言語について分析し、毒性レベルで分類します。AI Guardrails は、定義された毒性閾値を超えるプロンプトや応答をブロックするように設定でき、有害なコンテンツの拡散を防ぎます。
-
ブロッキング メカニズム:
-
プロンプト/リクエストのブロック: AI Guardrails は、プロンプトが LLM に送信される前に評価します。 定義されたルールに違反するプロンプト(たとえば、禁止された言語を含む場合や、毒性の閾値を超える場合)は、ガードレールがプロンプトをブロックします。
結果:
-
プロンプトは LLM に送信されません。
-
ユーザーはプロンプトがブロックされていることを示すエラーメッセージを受け取ります。
-
AI Governance のログは、ブロックされたプロンプトとブロックの理由を記録します。
-
-
レスポンス ブロッキング: AI Guardrails は、ユーザーに提示される前に LLM のレスポンスを評価することもできます。 プロンプトが許可されていても、問題のある応答はブロックされる可能性があります。
結果:
-
LLM は応答を生成しますが、ガードレールがそれを阻止します。
-
ユーザーに応答は表示されません(ユーザーは空の応答またはエラーを見ることができます)。
-
AI Governance のログは、ブロックされたレスポンスとブロックの理由を記録します。
-
-
- インラインインターセプション: AI Guardrails はセキュリティおよびコンプライアンスのポリシーを適用するためにインラインインターセプションメカニズムを採用しています。
- 監視とログ記録: AI Guardrails のすべてのアクションをログに記録し、データマスキングおよび毒性監視プロセスの詳細を含めて、監査証跡を提供します。
シナリオ
AI Guardrails が AI Skills と LLM の間で情報の流れをどのように管理し、毒性レベルに基づいて異なるシナリオをどのように処理するかを示すために、以下の図は視覚的な概要を提供します。 これらのシナリオは、プロンプトとそれに対応するモデルの応答がAI guardrailによって評価および処理される過程を示しており、コンテンツがマスキングで許可される場合、高い毒性のためにブロックされる場合、または応答自体がブロックされるインスタンスを示しています。
- シナリオ 1: プロンプトとモデルの応答が許可されている (監視された毒性)
- このシナリオでは、あなたの AI ガードレールは すべてを許可 コンテンツに設定されており、これはプロンプトやモデルの応答が検出された有害性を含んでいても通過することを意味します。 この構成ではコンテンツはブロックされていませんが、AI Guardrails は検出された毒性レベルを注意深く監視し記録します。
下の図に示すように:
- ユーザーのプロンプト は AI guardrail に入ります。そこでその毒性が検出されます(例:🟢 低)。
- プロンプト内の機密データは、プライバシー保護のため、LLM に送信される前に自動的にマスクされます(例:PIIトークン化)。
- LLM はモデル応答を生成し、それがAI guardrailに戻ります。
- ガードレールは再びモデルの応答に対して毒性検出を行い(例:🟢 低毒性を見つける)、トークン化されたデータを明らかにします。
- ガードレールが すべて許可 に設定されているため、マスクされたプロンプト(LLM への)とマスクされていないモデルの応答(ユーザーへの)の両方が許可されています。
- プロンプトとモデルの応答の両方に対する検出された毒性スコアは AI Governance 内に記録され、ユーザーエクスペリエンスに影響を与えることなく、監査およびレビュー目的のための重要なデータを提供します。
- シナリオ2: 有害度スコアのためにプロンプトがブロックされました
-
このシナリオでは、あなたの AI guardrail は特定の毒性閾値を超えるコンテンツをブロックするルールで構成されています(例:高毒性 および 中毒性 コンテンツをブロックするように設定されています)。 これは、潜在的に有害または不適切なユーザー入力が LLM に到達する前に停止されることを保証します。
下の図に示すように:
- ユーザーは、🔴 高い毒性(または設定されたガードレール ルールに違反するレベル)と見なされるコンテンツを含む プロンプト を開始します。
- このプロンプトは AI guardrail に入り、すぐに 毒性検出 を受けます。
- 設定された閾値を超える毒性レベルを検出すると、AI guardrail が介入し、プロンプトをブロックします。
- その結果、プロンプトが LLM に送信されることはありません。
- プロンプトがブロックされているため、モデルの応答は生成されず、ユーザーに返されません。これにより、有害な入力の処理が実質的に防止され、自動化が停止します。
- ブロックされたプロンプトの詳細(毒性レベルおよびブロックの理由を含む)は、自動的にキャプチャされ、監査およびコンプライアンスの目的で AI Governance に記録されます。
- シナリオ3: プロンプトが許可され、モデルの応答が毒性スコアのためにブロックされました
-
このシナリオでは、あなたの AI guardrail は、安全基準を満たす初期プロンプトを許可するように設定されています(例:低毒性または無毒性と見なされます)。 しかし、ガードレールは警戒を維持し、ユーザーに有害または不適切なコンテンツが提示されないように、LLM が生成した応答を積極的に監視しています。
下の図に示すように:
- ユーザーの プロンプト が AI ガードレールに入ります。 その毒性が検出されました(例:🟢 低)および許可された閾値内です。
- プロンプト内の機密データは、LLM に送信される前にプライバシーを保護するために自動的にマスクされます。
- LLM はマスクされたプロンプトを処理し、モデル レスポンスを生成します。
- このモデルの応答は、次に AI guardrail に戻り、毒性検出 を行います。
- この場合、モデルの応答には🔴 高い毒性(またはガードレールの設定された応答ルールに違反するレベル)が含まれていることが判明しました。
- この違反を検出すると、AI guardrail はモデルの応答をブロックします。
- したがって、問題のあるモデルの応答はユーザーに提示されません。 代わりに、ユーザーは空の応答またはエラー メッセージを見るかもしれません。
- ブロックされたレスポンスのすべての詳細(その毒性レベルおよびブロックの理由を含む)は、自動的に AI Governance にキャプチャされ、ログに記録され、AI インタラクションの完全な監査トレイルが確保されます。
メリット
AI Guardrails の使用にはいくつかの重要なメリットがあります:
- 強化された安全性: LLM によって生成された有害または不適切なコンテンツにユーザーをさらすリスクを軽減します。
- コンプライアンスの向上: 組織が AI の使用に関連する規制や業界標準を遵守するのを助けます。
- 信頼の向上: AI システムへの信頼を育むために、責任ある倫理的な実践へのコミットメントを示します。
- ポリシーの施行: 組織が内部の AI 使用ポリシーを一貫して適用できるようにします。
- リスク軽減: LLM の出力に関連する潜在的なリスク、例えば評判の損失や法的責任を積極的に軽減します。
- 機密データの保護: LLM によって直接処理されることから機密情報を保護します。