Metriken für KI-Bewertungen
- Zuletzt aktualisiert2025/11/20
Gewinnen Sie Einblicke in die KI-Leistung mit einem tieferen Verständnis der Metriken und Dimensionen der Bewertung.
Jede Bewertung liefert Punktzahlen für die Qualität der Leistung. Bei der Verwendung von Automatisch bewerten gibt es eine Vielzahl von Metriken, die das LLM verwendet, um Bewertungen vorzunehmen und Ergebnisse zurückzugeben.
Metriken
Bewertungen werden anhand der vier wichtigsten Aufgabentypen von KI-Fähigkeiten bewertet. Jeder Typ verfügt über entsprechende Dimensionen und Metriken, um Bewertungen für die Auswertung zu liefern. Eine Bewertung ist vollständig abgeschlossen, wenn jede Dimension abgeschlossen ist.
| Metrik | Metrik | Typ | Definition |
|---|---|---|---|
| Zusammenfassungen | Faktentreue | LLM as a Judge | Die sachliche Übereinstimmung zwischen der Zusammenfassung und der zusammengefassten Quelle. |
| Vollständigkeit | LLM as a Judge | Erfasst die Zusammenfassung die wichtigsten Punkte. | |
| Bleu-2 | NLP | Diese Metrik misst die Präzision von Bigrammen (Folgen von zwei aufeinanderfolgenden Wörtern) in der LLM-Ausgabe, die mit dem Referenztext übereinstimmen. | |
| Rouge-2 | NLP | Diese Metrik misst den Recall von Bigrammen (Folgen von zwei aufeinanderfolgenden Wörtern) aus dem Referenztext, die in der LLM-Ausgabe erscheinen. | |
| Texterstellung | Antwortrelevanz | LLM as a Judge | Wie relevant ist die LLM-Ausgabe im Vergleich zur bereitgestellten Eingabe? |
| Halluzination | LLM as a Judge | Ob das LLM sachlich korrekte Informationen erzeugt, indem die tatsächliche Ausgabe mit dem bereitgestellten Kontext verglichen wird. | |
| Bleu-2 | NLP | Übereinstimmung der Antwort mit der tatsächlichen Wahrheit. | |
| Rouge-2 | NLP | Wie relevant ist die Ausgabe des LLM im Vergleich zur bereitgestellten Eingabe? | |
| Textextraktion | Antwortrelevanz | LLM as a Judge | Wie relevant ist die LLM-Ausgabe im Vergleich zur bereitgestellten Eingabe? |
| Halluzination | LLM as a Judge | Ob das LLM sachlich korrekte Informationen erzeugt, indem die tatsächliche Ausgabe mit dem bereitgestellten Kontext verglichen wird. | |
| Ground Truth-Äquivalenz | LLM as a Judge | Antwortausrichtung mit der Ground Truth. | |
| Textklassifizierung | Korrektheit | LLM as a Judge | Ist das vorhergesagte Label korrekt. |
| Genaue Übereinstimmung | NLP | Die Metrik prüft, ob eine genaue Übereinstimmung zwischen der erwarteten Ausgabe und der tatsächlichen Ausgabe vorliegt. | |
| Beinahe exakte Übereinstimmung | NLP | Diese Metrik prüft auf eine exakte Übereinstimmung zwischen dem erwarteten und dem tatsächlichen Ergebnis, nachdem sie durch Kleinschreibung, Entfernen von Satzzeichen und Artikeln sowie das Entfernen von überflüssigen Leerzeichen normalisiert wurden. |