AI Evaluationsは管理者が生成 AI 機能の出力を追跡し、評価できるようにします。

AI Evaluationsの概要


グラフィックは、AI Evaluations が提供するメリットについて説明しています。

注: 最良の結果を得るために、AI Skill パッケージのバージョン 9.0.0 を使用していることを確認してください。

AI Evaluationsgenerative AI(生成AI) システムの特性と能力を評価するために設計されたツールです。 これには、パフォーマンス、堅牢性、公平性、安全性、解釈可能性、および意図された目標や倫理原則との整合性などの側面を定量化および定性化するための指標と方法論が含まれます。AI Evaluations は、設計段階で AI Skills を評価および認定するためにプロ開発者向けに設計されており、必要な基準を満たしていることを保証します。

生成 AI の導入が拡大する中、組織での展開やスケーリング前にモデルの品質を評価するためのツールが急務となっています。AI Evaluations は、このニーズに応え、評価プロセスを迅速化するシンプルかつ直感的なインターフェースを提供します。 徹底的な評価を行うことで、ユーザーは劣化したモデルのパフォーマンスや品質の低下に関連するリスクを軽減し、信頼できる AI ソリューションを確保できます。

次の図は、評価がどのように実施されるかを示しています。
図は評価プロセスで実施される複数の操作を示しています。

これらの評価は、自然言語処理(NLP)と大規模言語モデル(LLM)を活用して、判断とスコアの提供を行い、AI システムを改善する方法に関する洞察を提供します。 評価プロセスは体系的なアプローチを採用し、NLP メトリクスと研究に基づく洞察を活用して詳細な評価を実施します。 これには、モデルの出力を期待される結果と比較し、パフォーマンスの変動を監視し、必要に応じて修正を促すことが含まれます。 継続的な改善により、AI モデルはユーザーのニーズに合わせて常に効果的かつ最適な状態に保たれます。

AI Evaluations ランディング ページ

評価は、開発プロセスにシームレスに統合されています。 中央集約型かつユーザーフレンドリーなインターフェースにより、スコアや指標、評価ツールへのアクセスが可能となり、専門的な機械学習の知識が必要となる場面を削減します。 このアクセシビリティにより、ユーザーは必要に応じて効率的に評価を実施し、AIモデルの最適化を行うことができます。
  • 評価 タブの下に完了した評価を見つけてください。
  • 評価 をクリックして、完了した評価からの洞察を表示します。

主要な概念

出力の比較: AI Evaluations の主要な機能の一つは、言語モデルが生成した出力を、あらかじめ定義された望ましい出力と比較できる点です。 これは、指定された基準と標準に沿った整合性を確保し、生成されたコンテンツの関連性と正確性を最適化します。 データセットまたは期待される出力をアップロードするか、手動で入力してこれらの比較に使用できます。

AI スキル開発における同時評価: AI Skills が進化するにつれて、評価はモデル開発と同時に実施することが可能です。 この反復的なプロセスは、リアルタイムでの調整と改善を可能にし、AI の能力の動的な向上を促進します。

メトリクスとリサーチ インサイト: 評価プロセスは、NLP メトリクスの業界標準および包括的な機械学習研究に基づいています。 これらの指標は、AI モデルのメリットおよびパフォーマンスに関する貴重な洞察をもたらすための枠組みを提供します。 変数が不完全な場合、システムは評価の見直しと再実行を促し、徹底性と精度を確保します。

これらのNLPメトリクスの計算は、評価実行の設定時に提供する予測出力に依存します。 評価に予測出力が利用できない場合、LLM-as-a-judge は事前に定義されたメトリックを使用してスコアを提供します。

評価者とメトリクスの起源: 評価者は、業界標準に基づくメトリクスを活用し、AI の出力を評価するためのメカニズムとして機能します。 LLM-as-a-judge が使用される場合、このメカニズムは研究に基づいており、評価が人間のようで包括的なアプローチを取ることを保証します。

評価基準

この基準は、このデータが高度な機能的ソリューションをサポートする能力に基づいて研究され、選択されました。 これらの分野でのスコアは、意思決定者が生成 AI ソリューションが提供する品質と有効性に影響を与える改善点を特定するのに役立ちます。

評価は、一般的な事例に不可欠な AI の4つの主要なタスクタイプに焦点を当てています。 各事例は、パフォーマンスのスコアおよびインサイトを提供するために必要なタスクや事前定義された指標に合わせて分類されています。 詳細については、AI 評価のための指標を参照してください。
表 1.
原則 内容 事例
要約 出力とソースの間に完全かつ事実に基づく整合性を提供する能力。 分析、コンテンツモデレーション
テキスト生成 AI から提供されたテキストの関連性と正確性について、ソース情報との比較。 顧客のフィードバック、財務文書
テキスト抽出 提供された入力データを検証し、基準データを参照してテキストの整列を検証。 質問と回答、情報抽出
テキスト分類 出力とソースの間の主題のカテゴリを検証。 研究/

監査ログ

管理者は AI ガバナンス内の各完了した評価のセッションおよびイベントの詳細を表示できます。 AI Governanceを見てください。

権限とアクセス

管理者は、該当するユーザーのロールページで権限を選択することにより、AI Evaluationsを有効にできます。 これらの権限は、AI Evaluations に関連するアクセスおよび機能を管理するために不可欠です。

権限:

  • AI Evaluationsを表示: この権限により、ユーザーは AI Evaluations のスコアおよび根拠を表示できます。 アクセスは、ユーザーに割り当てられたフォルダーおよび AI スキル(例:public)に制限されています。

  • AI Evaluationsの管理: この権限は、ユーザーが評価を実行し、データセットを管理するために必要です。