Automation 360

AI における毒性

PDF としてダウンロード

コンテンツ

AI における毒性

PDF としてダウンロード

最終更新日2025/12/01

AI システムの文脈における有害性は、モデルの入力（プロンプト）または出力（レスポンス）内に有害または望ましくないコンテンツが存在することを指します。

これは、ユーザーに悪影響を及ぼし、社会的バイアスを助長し、AI 技術への信頼を損なう可能性のある問題のある言語と概念のスペクトルを含んでいます。毒性の多面的な性質を理解することは、責任ある倫理的な AI 構築のために重要になります。

毒性の主な要素

ヘイトスピーチ： 人種、民族、宗教、性別、性的指向、障害、またはその他の保護された特性などの属性に基づいて、個人やグループを攻撃したり、軽蔑したりする言語。これは、侮辱、ステレオタイプ、または暴力の呼びかけとして現れることがあります。
ハラスメント： 個人に対して攻撃的、虐待的、または脅迫的な内容。これは個人的な攻撃、脅迫、望まれない性的なアプローチを含む可能性があります。
不適切な言葉や下品な表現： 攻撃的またはわいせつな言葉の使用は、ネガティブまたは不快なユーザー体験を生み出す可能性があります。文脈によりますが、過度または不必要な表現は有害と見なされることがあります。
暴力と扇動： 暴力、テロリズム、その他の有害な行為を助長または美化するコンテンツ。これは憎悪を煽り、他者に暴力行為を促すことを含みます。
誤報と偽情報： 感情的な意味で常に本質的に有害であるとは限りませんが、虚偽または誤解を招く情報の拡散は、個人や社会に深刻な悪影響を及ぼす可能性があり、AI の安全性において重大な懸念事項となっています。
偏見と差別： AI システムは、トレーニングデータに存在する偏見を反映し、増幅することによって、意図せず有害な出力を生成する可能性があります。これは特定のグループに対する差別的または不公平な扱いにつながる可能性があります。
アダルトコンテンツ： AI システムの文脈や意図された使用に応じて、明示的な性的コンテンツの生成または配布は、有害または不適切と見なされる場合があります。

有害性ルールの構成

毒性ルールの設定を使用して、ユーザープロンプト と モデル生成レスポンス の両方で、システムが潜在的に有害または攻撃的なコンテンツをどのように処理するかを制御します。これらのルールは、責任ある AI の使用をサポートし、透明性と監査可能性のために AI ガバナンスと完全に統合されています。

各ルールレベルで、システムが毒性に基づいてコンテンツをどの程度厳密に評価し、ブロックするかを定義できます。 プロンプト と モデルの応答 に対して異なる閾値を設定できます。

すべて許可（デフォルト設定）
- ❌毒性レベルに関係なく、コンテンツはブロックされません。
- プロンプトと応答は、裏でまだ毒性をスキャンしています。
- 毒性スコアを記録 は、レビューのために以下の方法で利用可能です:
  - AI プロンプトログ
  - イベントログ
- 監査目的に最適で、ユーザーエクスペリエンスに影響を与えません。
毒性の高い成分をブロック
- ❌ 深刻な毒性を含むコンテンツをブロックします:
  - 極端な侮辱
  - 明示的に卑猥な言葉
  - 直接的な脅威
- 最も有害で攻撃的な入力/出力をフィルタリングするように設計されています。
- ✅ 中程度および低レベルの毒性はまだ許可されています。
高毒性および中毒性の成分をブロック
- ❌ 高および 中程度 レベルの両方をブロックします:
  - 侮辱
  - 卑猥な言葉
  - 脅威
- 安全性と表現の自由のバランスを取る、敏感な環境に最適です。
- ✅ 最小限の毒性のあるコンテンツは許可されます。
すべての有害なコンテンツをブロックする（高、中、最小）
- ❌ 最も制限の厳しい設定—以下を含むあらゆるレベル の毒性をブロックします。
  - 微妙または間接的な侮辱
  - やや攻撃的な言葉
  - 脅威の低い表現
- 教育、医療、または公共サービスなど、厳格なコンテンツポリシーを持つ環境に推奨されます。

AI ガードレールに割り当てられた生成 AI パッケージまたは AI スキルパッケージのアクションを使用する自動化があるとき、システムは AI モデルに送信されるプロンプトの内容と受信した応答の両方を監視します。プロンプトまたはレスポンスの評価された毒性レベルが、割り当てられたガードレール内で設定された閾値を超えた場合、ガードレールは介入して、潜在的に有害なコンテンツが処理または表示されるのを防ぎます。このようなシナリオでは、ガードレールがトリガーされるポイントで自動化の実行が停止します。

上記のスクリーンショットに示されているように、ガードレールが検出された毒性違反により自動化の実行をブロックすると、エラーメッセージが表示されます。このメッセージは、通常、プロンプトがガードレールまたは類似の通知によってブロックされたことを示し、しばしばブロックが発生した自動化内の位置（例：特定のアクションと行番号）を指定します。エラーメッセージは、定義された毒性レベルを超えたなど、ブロックの簡単な理由も提供します。この問題を解決するには、AI コマンドアクションで処理されているコンテンツを確認し、必要に応じてガードレールの毒性しきい値を調整するか、定義されたポリシーに準拠するようにプロンプトを修正する必要があります。