Gewinnen Sie Einblicke in die KI-Leistung mit einem tieferen Verständnis der Metriken und Dimensionen der Bewertung.

Jede Bewertung liefert Punktzahlen für die Qualität der Leistung. Bei der Verwendung von Automatisch bewerten gibt es eine Vielzahl von Metriken, die das LLM verwendet, um Bewertungen vorzunehmen und Ergebnisse zurückzugeben.

Metriken

Bewertungen werden anhand der vier wichtigsten Aufgabentypen von KI-Fähigkeiten bewertet. Jeder Typ verfügt über entsprechende Dimensionen und Metriken, um Bewertungen für die Auswertung zu liefern. Eine Bewertung ist vollständig abgeschlossen, wenn jede Dimension abgeschlossen ist.

Tabelle 1.
Metrik Metrik Typ Definition
Zusammenfassungen Faktentreue LLM as a Judge Die sachliche Übereinstimmung zwischen der Zusammenfassung und der zusammengefassten Quelle.
Vollständigkeit LLM as a Judge Erfasst die Zusammenfassung die wichtigsten Punkte.
Bleu-2 NLP Diese Metrik misst die Präzision von Bigrammen (Folgen von zwei aufeinanderfolgenden Wörtern) in der LLM-Ausgabe, die mit dem Referenztext übereinstimmen.
Rouge-2 NLP Diese Metrik misst den Recall von Bigrammen (Folgen von zwei aufeinanderfolgenden Wörtern) aus dem Referenztext, die in der LLM-Ausgabe erscheinen.
Texterstellung Antwortrelevanz LLM as a Judge Wie relevant ist die LLM-Ausgabe im Vergleich zur bereitgestellten Eingabe?
Halluzination LLM as a Judge Ob das LLM sachlich korrekte Informationen erzeugt, indem die tatsächliche Ausgabe mit dem bereitgestellten Kontext verglichen wird.
Bleu-2 NLP Übereinstimmung der Antwort mit der tatsächlichen Wahrheit.
Rouge-2 NLP Wie relevant ist die Ausgabe des LLM im Vergleich zur bereitgestellten Eingabe?
Textextraktion Antwortrelevanz LLM as a Judge Wie relevant ist die LLM-Ausgabe im Vergleich zur bereitgestellten Eingabe?
Halluzination LLM as a Judge Ob das LLM sachlich korrekte Informationen erzeugt, indem die tatsächliche Ausgabe mit dem bereitgestellten Kontext verglichen wird.
Ground Truth-Äquivalenz LLM as a Judge Antwortausrichtung mit der Ground Truth.
Textklassifizierung Korrektheit LLM as a Judge Ist das vorhergesagte Label korrekt.
Genaue Übereinstimmung NLP Die Metrik prüft, ob eine genaue Übereinstimmung zwischen der erwarteten Ausgabe und der tatsächlichen Ausgabe vorliegt.
Beinahe exakte Übereinstimmung NLP Diese Metrik prüft auf eine exakte Übereinstimmung zwischen dem erwarteten und dem tatsächlichen Ergebnis, nachdem sie durch Kleinschreibung, Entfernen von Satzzeichen und Artikeln sowie das Entfernen von überflüssigen Leerzeichen normalisiert wurden.