Obtenga información sobre el rendimiento de la IA con una comprensión más profunda de las métricas y dimensiones de puntuación.

Cada evaluación devuelve puntuaciones sobre la calidad del rendimiento. Cuando se utiliza Evaluar automáticamente, hay una variedad de métricas que el modelo de lenguaje extenso (LLM) usa para juzgar y devolver puntuaciones.

Métricas

Las evaluaciones se puntúan a partir de los cuatro tipos de tareas clave de las capacidades de IA. Cada tipo tiene dimensiones y métricas correspondientes para ofrecer puntuaciones para la evaluación. Una evaluación se considera completa cuando se han resuelto todas las dimensiones.

Tabla 1.
Métrica Métrica Tipo Definición
Resúmenes Consistencia factual LLM como juez La alineación factual entre el resumen y la fuente resumida.
Exhaustividad LLM como juez ¿El resumen refleja los puntos clave?
Bleu-2 NLP Esta métrica mide la precisión de los bigramas (secuencias de dos palabras consecutivas) en la salida del LLM que coinciden con el texto de referencia.
Rouge-2 NLP Esta métrica mide la recuperación de bigramas (secuencias de dos palabras consecutivas) del texto de referencia que aparecen en la salida del LLM.
Generación de texto Relevancia de la respuesta LLM como juez ¿Qué relevancia tiene el resultado del LLM en comparación con los datos introducidos?
Alucinación LLM como juez Si el LLM genera información correcta desde el punto de vista factual al comparar el resultado real con el contexto proporcionado.
Bleu-2 NLP Alineación de la respuesta con la verdad fundamental.
Rouge-2 NLP ¿Qué relevancia tiene el resultado del LLM en comparación con la entrada proporcionada?
Extracción de texto Relevancia de la respuesta LLM como juez ¿Qué relevancia tiene el resultado del LLM en comparación con los datos introducidos?
Alucinación LLM como juez Si el LLM genera información correcta desde el punto de vista factual al comparar el resultado real con el contexto proporcionado.
Equivalencia de la verdad fundamental LLM como juez Alineación de la respuesta con la verdad fundamental.
Clasificación de textos Corrección LLM como juez ¿Es correcta la etiqueta prevista?
Coincidencia exacta NLP La métrica verifica si hay una coincidencia exacta entre el resultado esperado y el resultado real.
Coincidencia casi exacta NLP Esta métrica comprueba si existe una coincidencia exacta entre el resultado esperado y el resultado real después de normalizarlos poniéndolos en minúsculas, eliminando la puntuación y los artículos, y eliminando los espacios en blanco adicionales.