スコアリングのメトリクスと次元をより深く理解することで、AI のパフォーマンスに関する洞察を得る。

各評価はパフォーマンスの質に対するスコアを返します。 自動評価を使用する際、LLM が評価しスコアを返すために使用するさまざまな指標があります。

メトリクス

AI の能力に関する4つの主要なタスクタイプから評価が行われます。 各タイプには評価のためのスコアを提供する対応する寸法と指標があります。 すべての次元が解決されると、評価は完全に完了します。

表 1.
指標 指標 タイプ 定義
要約 事実の一貫性 裁判官としての LLM 要約と要約されたソースとの事実的整合性。
完全性 裁判官としての LLM 要約は重要なポイントを捉えていますか。
Bleu-2 NLP この指標は、参照テキストと一致する LLM 出力のバイグラム(連続する2つの単語のシーケンス)の精度を測定します。
Rouge-2 NLP このメトリックは、LLM 出力に現れる参照テキストからのバイグラム(連続する二つの単語のシーケンス)のリコールを測定します。
テキスト生成 回答の関連性 裁判官としての LLM 提供された入力と比較して、LLM の出力はどれほど関連性がありますか?
幻覚 裁判官としての LLM LLM が実際の出力を提供されたコンテキストと比較することによって、事実に基づいた正しい情報を生成するかどうか。
Bleu-2 NLP 答えの真実との整合性。
Rouge-2 NLP 提供された入力と比較して、LLM の出力はどれほど関連性がありますか?
テキスト抽出 回答の関連性 裁判官としての LLM 提供された入力と比較して、LLM の出力はどれほど関連性がありますか?
幻覚 裁判官としての LLM LLM が実際の出力を提供されたコンテキストと比較することによって、事実に基づいた正しい情報を生成するかどうか。
真値等価性 裁判官としての LLM 真実の整合性に対する回答。
テキスト分類 正確性 裁判官としての LLM 予測されたラベルは正しいですか。
完全一致 NLP メトリックは、期待される出力と実際の出力が完全に一致しているかどうかをチェックします。
ほぼ完全一致 NLP このメトリックは、期待される出力と実際の出力の間で、すべてを小文字にし、句読点や冠詞を取り除き、余分な空白を削除した後に、完全一致を確認します。