AI 評価
- 最終更新日2025/12/26
AI Evaluationsは管理者が生成 AI 機能の出力を追跡し、評価できるようにします。
AI Evaluationsの概要

AI Evaluations は generative AI(生成AI) システムの特性と能力を評価するために設計されたツールです。 これには、パフォーマンス、堅牢性、公平性、安全性、解釈可能性、および意図された目標や倫理原則との整合性などの側面を定量化および定性化するための指標と方法論が含まれます。AI Evaluations は、設計段階で AI Skills を評価および認定するためにプロ開発者向けに設計されており、必要な基準を満たしていることを保証します。
生成 AI の導入が拡大する中、組織での展開やスケーリング前にモデルの品質を評価するためのツールが急務となっています。AI Evaluations は、このニーズに応え、評価プロセスを迅速化するシンプルかつ直感的なインターフェースを提供します。 徹底的な評価を行うことで、ユーザーは劣化したモデルのパフォーマンスや品質の低下に関連するリスクを軽減し、信頼できる AI ソリューションを確保できます。

これらの評価は、自然言語処理(NLP)と大規模言語モデル(LLM)を活用して、判断とスコアの提供を行い、AI システムを改善する方法に関する洞察を提供します。 評価プロセスは体系的なアプローチを採用し、NLP メトリクスと研究に基づく洞察を活用して詳細な評価を実施します。 これには、モデルの出力を期待される結果と比較し、パフォーマンスの変動を監視し、必要に応じて修正を促すことが含まれます。 継続的な改善により、AI モデルはユーザーのニーズに合わせて常に効果的かつ最適な状態に保たれます。
AI Evaluations ランディング ページ
- 評価 タブの下に完了した評価を見つけてください。
- 評価 名 をクリックして、完了した評価からの洞察を表示します。
主要な概念
出力の比較: AI Evaluations の主要な機能の一つは、言語モデルが生成した出力を、あらかじめ定義された望ましい出力と比較できる点です。 これは、指定された基準と標準に沿った整合性を確保し、生成されたコンテンツの関連性と正確性を最適化します。 データセットまたは期待される出力をアップロードするか、手動で入力してこれらの比較に使用できます。
AI スキル開発における同時評価: AI Skills が進化するにつれて、評価はモデル開発と同時に実施することが可能です。 この反復的なプロセスは、リアルタイムでの調整と改善を可能にし、AI の能力の動的な向上を促進します。
メトリクスとリサーチ インサイト: 評価プロセスは、NLP メトリクスの業界標準および包括的な機械学習研究に基づいています。 これらの指標は、AI モデルのメリットおよびパフォーマンスに関する貴重な洞察をもたらすための枠組みを提供します。 変数が不完全な場合、システムは評価の見直しと再実行を促し、徹底性と精度を確保します。
これらのNLPメトリクスの計算は、評価実行の設定時に提供する予測出力に依存します。 評価に予測出力が利用できない場合、LLM-as-a-judge は事前に定義されたメトリックを使用してスコアを提供します。
- 評価は自動的に実行でき、システムを使用してソースと出力のパフォーマンスを比較します。 AI 評価を自動的に実行するを見てください。
- 比較を行うために、ユーザーが手動で実行オプションを利用できます。 AI 評価を手動で実行するを見てください。
評価基準
この基準は、このデータが高度な機能的ソリューションをサポートする能力に基づいて研究され、選択されました。 これらの分野でのスコアは、意思決定者が生成 AI ソリューションが提供する品質と有効性に影響を与える改善点を特定するのに役立ちます。
| 原則 | 内容 | 事例 |
|---|---|---|
| 要約 | 出力とソースの間に完全かつ事実に基づく整合性を提供する能力。 | 分析、コンテンツモデレーション |
| テキスト生成 | AI から提供されたテキストの関連性と正確性について、ソース情報との比較。 | 顧客のフィードバック、財務文書 |
| テキスト抽出 | 提供された入力データを検証し、基準データを参照してテキストの整列を検証。 | 質問と回答、情報抽出 |
| テキスト分類 | 出力とソースの間の主題のカテゴリを検証。 | 研究/ |
監査ログ
管理者は AI ガバナンス内の各完了した評価のセッションおよびイベントの詳細を表示できます。 AI Governanceを見てください。
権限とアクセス
管理者は、該当するユーザーのロールページで権限を選択することにより、AI Evaluationsを有効にできます。 これらの権限は、AI Evaluations に関連するアクセスおよび機能を管理するために不可欠です。
権限:
-
AI Evaluationsを表示: この権限により、ユーザーは AI Evaluations のスコアおよび根拠を表示できます。 アクセスは、ユーザーに割り当てられたフォルダーおよび AI スキル(例:public)に制限されています。
-
AI Evaluationsの管理: この権限は、ユーザーが評価を実行し、データセットを管理するために必要です。