Automation 360

AI 評価のための指標

PDF としてダウンロード

コンテンツ

AI 評価のための指標

PDF としてダウンロード

最終更新日2026/04/16

スコアリングのメトリクスと次元をより深く理解することで、AI のパフォーマンスに関する洞察を得る。

重要: この機能は一般に提供されておらず、特定のお客様に限定されています。詳細については、Automation Anywhere アカウントチームにお問い合わせください。

各評価はパフォーマンスの質に対するスコアを返します。自動評価を使用する際、LLM が評価しスコアを返すために使用するさまざまな指標があります。

メトリクス

AI の能力に関する4つの主要なタスクタイプから評価が行われます。各タイプには評価のためのスコアを提供する対応する寸法と指標があります。すべての次元が解決されると、評価は完全に完了します。

注: スコア値は、低い数値が低いパフォーマンスに、高い数値が高いパフォーマンスに対応します。

表 1.
指標	指標	タイプ	定義	スコア範囲
要約	事実の一貫性	裁判官としての LLM	要約と要約されたソースとの事実的整合性。	0 - 1
	完全性	裁判官としての LLM	要約は重要なポイントを捉えていますか。	0 - 1
	Bleu-2	NLP	この指標は、参照テキストと一致する LLM 出力のバイグラム（連続する2つの単語のシーケンス）の精度を測定します。	0 - 1
	Rouge-2	NLP	このメトリックは、LLM 出力に現れる参照テキストからのバイグラム（連続する二つの単語のシーケンス）のリコールを測定します。	0 - 1
テキスト生成	回答の関連性	裁判官としての LLM	提供された入力と比較して、LLM の出力はどれほど関連性がありますか？	0 - 1
	幻覚	裁判官としての LLM	LLM が実際の出力を提供されたコンテキストと比較することによって、事実に基づいた正しい情報を生成するかどうか。	0 - 1
	Bleu-2	NLP	答えの真実との整合性。	0 - 1
	Rouge-2	NLP	提供された入力と比較して、LLM の出力はどれほど関連性がありますか？	0 - 1
テキスト抽出	回答の関連性	裁判官としての LLM	提供された入力と比較して、LLM の出力はどれほど関連性がありますか？	0 - 1
	幻覚	裁判官としての LLM	LLM が実際の出力を提供されたコンテキストと比較することによって、事実に基づいた正しい情報を生成するかどうか。	0 - 1
	真値等価性	裁判官としての LLM	真実の整合性に対する回答。	0または1
テキスト分類	正確性	裁判官としての LLM	予測されたラベルは正しいですか。	0または1
	完全一致	NLP	メトリックは、期待される出力と実際の出力が完全に一致しているかどうかをチェックします。	0または1
	ほぼ完全一致	NLP	このメトリックは、期待される出力と実際の出力の間で、すべてを小文字にし、句読点や冠詞を取り除き、余分な空白を削除した後に、完全一致を確認します。	0または1