Obtenez des informations sur les performances de l\'IA grâce à une compréhension approfondie des métriques et des dimensions de l\'évaluation.

Chaque évaluation retourne des scores pour la qualité de la performance. Lors de l\'utilisation de Évaluer automatiquement, il existe une variété de métriques que le LLM utilise pour juger et retourner des scores.

Métriques

Les évaluations sont notées à partir des quatre principaux types de tâches de capacités de l\'IA. Chaque type possède des dimensions et des métriques correspondantes pour fournir des scores à l\'évaluation. Une évaluation est entièrement terminée lorsque chaque dimension est résolue.

Tableau 1.
Métrique Métrique Type Définition
Synthèse Cohérence factuelle LLM en tant que juge L\'alignement factuel entre le résumé et la source résumée.
Exhaustivité LLM en tant que juge Le résumé met-il en évidence les points clés.
Bleu-2 TLN Cette métrique mesure la précision des bigrammes (séquences de deux mots consécutifs) dans la sortie du LLM qui correspondent au texte de référence.
Rouge-2 TLN Cette métrique mesure le rappel des bigrammes (séquences de deux mots consécutifs) du texte de référence qui apparaissent dans la sortie du LLM.
Génération de texte Pertinence de la réponse LLM en tant que juge Quelle est la pertinence de la sortie du LLM par rapport à l\'entrée fournie ?
Hallucination LLM en tant que juge Si le LLM génère des informations factuellement correctes en comparant la sortie réelle au contexte fourni.
Bleu-2 TLN Alignement de la réponse avec la vérité terrain.
Rouge-2 TLN Dans quelle mesure la sortie du LLM est-elle pertinente par rapport à l\'entrée fournie ?
Extraction de texte Pertinence de la réponse LLM en tant que juge Quelle est la pertinence de la sortie du LLM par rapport à l\'entrée fournie ?
Hallucination LLM en tant que juge Si le LLM génère des informations factuellement correctes en comparant la sortie réelle au contexte fourni.
Équivalence à la vérité terrain LLM en tant que juge Alignement de la réponse avec la vérité terrain.
Classification de texte Exactitude LLM en tant que juge L\'étiquette prédite est-elle correcte.
Correspondance exacte TLN La métrique vérifie une correspondance exacte entre le résultat attendu et le résultat réel.
Correspondance quasi exacte TLN Cette métrique vérifie une correspondance exacte entre le résultat attendu et le résultat réel après leur normalisation en mettant en minuscules, en supprimant la ponctuation et les articles, et en éliminant les espaces blancs supplémentaires.