Automation 360

Metriken für KI-Bewertungen

Als PDF herunterladen

Inhalte

Metriken für KI-Bewertungen

Als PDF herunterladen

Version:
Zuletzt aktualisiert2025/11/20

Gewinnen Sie Einblicke in die KI-Leistung mit einem tieferen Verständnis der Metriken und Dimensionen der Bewertung.

Jede Bewertung liefert Punktzahlen für die Qualität der Leistung. Bei der Verwendung von Automatisch bewerten gibt es eine Vielzahl von Metriken, die das LLM verwendet, um Bewertungen vorzunehmen und Ergebnisse zurückzugeben.

Metriken

Bewertungen werden anhand der vier wichtigsten Aufgabentypen von KI-Fähigkeiten bewertet. Jeder Typ verfügt über entsprechende Dimensionen und Metriken, um Bewertungen für die Auswertung zu liefern. Eine Bewertung ist vollständig abgeschlossen, wenn jede Dimension abgeschlossen ist.

Tabelle 1.
Metrik	Metrik	Typ	Definition
Zusammenfassungen	Faktentreue	LLM as a Judge	Die sachliche Übereinstimmung zwischen der Zusammenfassung und der zusammengefassten Quelle.
	Vollständigkeit	LLM as a Judge	Erfasst die Zusammenfassung die wichtigsten Punkte.
	Bleu-2	NLP	Diese Metrik misst die Präzision von Bigrammen (Folgen von zwei aufeinanderfolgenden Wörtern) in der LLM-Ausgabe, die mit dem Referenztext übereinstimmen.
	Rouge-2	NLP	Diese Metrik misst den Recall von Bigrammen (Folgen von zwei aufeinanderfolgenden Wörtern) aus dem Referenztext, die in der LLM-Ausgabe erscheinen.
Texterstellung	Antwortrelevanz	LLM as a Judge	Wie relevant ist die LLM-Ausgabe im Vergleich zur bereitgestellten Eingabe?
	Halluzination	LLM as a Judge	Ob das LLM sachlich korrekte Informationen erzeugt, indem die tatsächliche Ausgabe mit dem bereitgestellten Kontext verglichen wird.
	Bleu-2	NLP	Übereinstimmung der Antwort mit der tatsächlichen Wahrheit.
	Rouge-2	NLP	Wie relevant ist die Ausgabe des LLM im Vergleich zur bereitgestellten Eingabe?
Textextraktion	Antwortrelevanz	LLM as a Judge	Wie relevant ist die LLM-Ausgabe im Vergleich zur bereitgestellten Eingabe?
	Halluzination	LLM as a Judge	Ob das LLM sachlich korrekte Informationen erzeugt, indem die tatsächliche Ausgabe mit dem bereitgestellten Kontext verglichen wird.
	Ground Truth-Äquivalenz	LLM as a Judge	Antwortausrichtung mit der Ground Truth.
Textklassifizierung	Korrektheit	LLM as a Judge	Ist das vorhergesagte Label korrekt.
	Genaue Übereinstimmung	NLP	Die Metrik prüft, ob eine genaue Übereinstimmung zwischen der erwarteten Ausgabe und der tatsächlichen Ausgabe vorliegt.
	Beinahe exakte Übereinstimmung	NLP	Diese Metrik prüft auf eine exakte Übereinstimmung zwischen dem erwarteten und dem tatsächlichen Ergebnis, nachdem sie durch Kleinschreibung, Entfernen von Satzzeichen und Artikeln sowie das Entfernen von überflüssigen Leerzeichen normalisiert wurden.

Zurück

Kein vorheriges Thema

Weiter

Kein nächstes Thema

Zurück

Kein vorheriges Thema

Weiter

Kein nächstes Thema