AI システムの文脈における有害性は、モデルの入力(プロンプト)または出力(レスポンス)内に有害または望ましくないコンテンツが存在することを指します。

これは、ユーザーに悪影響を及ぼし、社会的バイアスを助長し、AI 技術への信頼を損なう可能性のある問題のある言語と概念のスペクトルを含んでいます。 毒性の多面的な性質を理解することは、責任ある倫理的な AI 構築のために重要になります。

毒性の主な要素

  • ヘイトスピーチ: 人種、民族、宗教、性別、性的指向、障害、またはその他の保護された特性などの属性に基づいて、個人やグループを攻撃したり、軽蔑したりする言語。 これは、侮辱、ステレオタイプ、または暴力の呼びかけとして現れることがあります。
  • ハラスメント: 個人に対して攻撃的、虐待的、または脅迫的な内容。 これは個人的な攻撃、脅迫、望まれない性的なアプローチを含む可能性があります。
  • 不適切な言葉や下品な表現: 攻撃的またはわいせつな言葉の使用は、ネガティブまたは不快なユーザー体験を生み出す可能性があります。 文脈によりますが、過度または不必要な表現は有害と見なされることがあります。
  • 暴力と扇動: 暴力、テロリズム、その他の有害な行為を助長または美化するコンテンツ。 これは憎悪を煽り、他者に暴力行為を促すことを含みます。
  • 誤報と偽情報: 感情的な意味で常に本質的に有害であるとは限りませんが、虚偽または誤解を招く情報の拡散は、個人や社会に深刻な悪影響を及ぼす可能性があり、AI の安全性において重大な懸念事項となっています。
  • 偏見と差別: AI システムは、トレーニングデータに存在する偏見を反映し、増幅することによって、意図せず有害な出力を生成する可能性があります。 これは特定のグループに対する差別的または不公平な扱いにつながる可能性があります。
  • アダルトコンテンツ: AI システムの文脈や意図された使用に応じて、明示的な性的コンテンツの生成または配布は、有害または不適切と見なされる場合があります。

有害性ルールの構成

毒性ルールの設定を使用して、ユーザープロンプトモデル生成レスポンス の両方で、システムが潜在的に有害または攻撃的なコンテンツをどのように処理するかを制御します。 これらのルールは、責任ある AI の使用をサポートし、透明性と監査可能性のために AI ガバナンス と完全に統合されています。

各ルールレベルで、システムが毒性に基づいてコンテンツをどの程度厳密に評価し、ブロックするかを定義できます。 プロンプトモデルの応答 に対して異なる閾値を設定できます。

  1. すべて許可(デフォルト設定)
    • ✅毒性レベルに関係なく、コンテンツはブロックされません

    • プロンプトと応答は、裏でまだ 毒性 をスキャンしています。

    • 毒性スコアを記録 は、レビューのために以下の方法で利用可能です:

      • AI プロンプト ログ

      • イベント ログ

    • 監査目的に最適で、ユーザー エクスペリエンスに影響を与えません。

  2. 毒性の高い成分をブロック
    • 深刻な毒性を含むコンテンツをブロックします:

      • 極端な 侮辱

      • 明示的に卑猥な言葉

      • 直接的な脅威

    • 最も有害で攻撃的な入力/出力をフィルタリングするように設計されています。

    • ✅ 中程度および低レベルの毒性はまだ許可されています。

  3. 高毒性および中毒性の成分をブロック
    • および 中程度 レベルの両方をブロックします:

      • 侮辱

      • 卑猥な言葉

      • 脅威

    • 安全性と表現の自由のバランスを取る、敏感な環境に最適です。

    • ✅ 最小限の毒性のあるコンテンツは許可されます。

  4. すべての有害なコンテンツをブロックする(高、中、最小)
    • ❌ 最も制限の厳しい設定—以下を含むあらゆるレベル の毒性をブロックします。

      • 微妙または間接的な侮辱

      • やや攻撃的な言葉

      • 脅威の低い表現

    • 教育、医療、または公共サービスなど、厳格なコンテンツポリシーを持つ環境に推奨されます。

AI ガードレール に割り当てられた 生成 AI パッケージ または AI スキル パッケージ のアクションを使用する自動化があるとき、システムは AI モデルに送信されるプロンプトの内容と受信した応答の両方を監視します。 プロンプトまたはレスポンスの評価された毒性レベルが、割り当てられたガードレール内で設定された閾値を超えた場合、ガードレールは介入して、潜在的に有害なコンテンツが処理または表示されるのを防ぎます。 このようなシナリオでは、ガードレールがトリガーされるポイントで自動化の実行が停止します。


AI ガードレール毒性ブロック - エラーメッセージ

上記のスクリーンショットに示されているように、ガードレールが検出された毒性違反により自動化の実行をブロックすると、エラーメッセージが表示されます。 このメッセージは、通常、プロンプトがガードレールまたは類似の通知によってブロックされたことを示し、しばしばブロックが発生した自動化内の位置(例:特定のアクションと行番号)を指定します。 エラーメッセージは、定義された毒性レベルを超えたなど、ブロックの簡単な理由も提供します。 この問題を解決するには、AI コマンドアクションで処理されているコンテンツを確認し、必要に応じてガードレールの毒性しきい値を調整するか、定義されたポリシーに準拠するようにプロンプトを修正する必要があります。

毒性のカラ―コードについて

ユーザー入力(プロンプト)と応答の両方の毒性レベルは、識別を容易にするために色分けされています。 これは、潜在的に有害なコンテンツの深刻さを理解し、適切な対策を決定するのに役立ちます。 これらのレベルを示すために使用される一般的な色分けシステムには、次のものが含まれます:

  1. グレー: 毒性なし。 グレーでマークされたコンテンツは安全と見なされ、特定可能な有害または望ましくない言語を含んでいません。
  2. 🟢 緑: 低毒性含有量。 コンテンツが緑色にフラグ付けされている場合、潜在的に問題のある言語の最小限のレベルを含んでいます。 これは軽い不適切な表現、やや示唆的な内容、または文脈によっては無神経と見なされる可能性のある軽微な言語の例を含む場合があります。 深刻な害はないものの、注意とさらなる検討が必要です。
  3. 🟠 オレンジ: 中程度の有毒コンテンツ。 オレンジに分類されたコンテンツは、有害または攻撃的な言語の顕著なレベルを示しています。 これは、より強い冒涜的な表現、より明示的または攻撃的なトーン、またはヘイトスピーチや嫌がらせの境界に近いコンテンツを含む可能性がありますが、最高の深刻度の基準を完全には満たしていません。 このようなコンテンツは通常、AI ガードレールにより厳しい措置が講じられます。
  4. 🔴 赤: 高い毒性の含有量。 赤でマークされたコンテンツは、深刻で非常に攻撃的な言語の存在を示しています。 これはしばしば特定のグループを標的にした明示的なヘイトスピーチ、直接的な脅迫、非常に虐待的な言語、または違法活動を促進するコンテンツを含みます。 AI ガードレール は、このレベルのコンテンツをブロックまたはフラグ付けして、危害を防ぎ、安全を維持する設定ができます。