AI 評価のための指標
- 最終更新日2025/11/20
スコアリングのメトリクスと次元をより深く理解することで、AI のパフォーマンスに関する洞察を得る。
各評価はパフォーマンスの質に対するスコアを返します。 自動評価を使用する際、LLM が評価しスコアを返すために使用するさまざまな指標があります。
メトリクス
AI の能力に関する4つの主要なタスクタイプから評価が行われます。 各タイプには評価のためのスコアを提供する対応する寸法と指標があります。 すべての次元が解決されると、評価は完全に完了します。
| 指標 | 指標 | タイプ | 定義 |
|---|---|---|---|
| 要約 | 事実の一貫性 | 裁判官としての LLM | 要約と要約されたソースとの事実的整合性。 |
| 完全性 | 裁判官としての LLM | 要約は重要なポイントを捉えていますか。 | |
| Bleu-2 | NLP | この指標は、参照テキストと一致する LLM 出力のバイグラム(連続する2つの単語のシーケンス)の精度を測定します。 | |
| Rouge-2 | NLP | このメトリックは、LLM 出力に現れる参照テキストからのバイグラム(連続する二つの単語のシーケンス)のリコールを測定します。 | |
| テキスト生成 | 回答の関連性 | 裁判官としての LLM | 提供された入力と比較して、LLM の出力はどれほど関連性がありますか? |
| 幻覚 | 裁判官としての LLM | LLM が実際の出力を提供されたコンテキストと比較することによって、事実に基づいた正しい情報を生成するかどうか。 | |
| Bleu-2 | NLP | 答えの真実との整合性。 | |
| Rouge-2 | NLP | 提供された入力と比較して、LLM の出力はどれほど関連性がありますか? | |
| テキスト抽出 | 回答の関連性 | 裁判官としての LLM | 提供された入力と比較して、LLM の出力はどれほど関連性がありますか? |
| 幻覚 | 裁判官としての LLM | LLM が実際の出力を提供されたコンテキストと比較することによって、事実に基づいた正しい情報を生成するかどうか。 | |
| 真値等価性 | 裁判官としての LLM | 真実の整合性に対する回答。 | |
| テキスト分類 | 正確性 | 裁判官としての LLM | 予測されたラベルは正しいですか。 |
| 完全一致 | NLP | メトリックは、期待される出力と実際の出力が完全に一致しているかどうかをチェックします。 | |
| ほぼ完全一致 | NLP | このメトリックは、期待される出力と実際の出力の間で、すべてを小文字にし、句読点や冠詞を取り除き、余分な空白を削除した後に、完全一致を確認します。 |