Métricas para las evaluaciones de IA
- Última actualización2025/11/21
Obtenga información sobre el rendimiento de la IA con una comprensión más profunda de las métricas y dimensiones de puntuación.
Cada evaluación devuelve puntuaciones sobre la calidad del rendimiento. Cuando se utiliza Evaluar automáticamente, hay una variedad de métricas que el modelo de lenguaje extenso (LLM) usa para juzgar y devolver puntuaciones.
Métricas
Las evaluaciones se puntúan a partir de los cuatro tipos de tareas clave de las capacidades de IA. Cada tipo tiene dimensiones y métricas correspondientes para ofrecer puntuaciones para la evaluación. Una evaluación se considera completa cuando se han resuelto todas las dimensiones.
| Métrica | Métrica | Tipo | Definición |
|---|---|---|---|
| Resúmenes | Consistencia factual | LLM como juez | La alineación factual entre el resumen y la fuente resumida. |
| Exhaustividad | LLM como juez | ¿El resumen refleja los puntos clave? | |
| Bleu-2 | NLP | Esta métrica mide la precisión de los bigramas (secuencias de dos palabras consecutivas) en la salida del LLM que coinciden con el texto de referencia. | |
| Rouge-2 | NLP | Esta métrica mide la recuperación de bigramas (secuencias de dos palabras consecutivas) del texto de referencia que aparecen en la salida del LLM. | |
| Generación de texto | Relevancia de la respuesta | LLM como juez | ¿Qué relevancia tiene el resultado del LLM en comparación con los datos introducidos? |
| Alucinación | LLM como juez | Si el LLM genera información correcta desde el punto de vista factual al comparar el resultado real con el contexto proporcionado. | |
| Bleu-2 | NLP | Alineación de la respuesta con la verdad fundamental. | |
| Rouge-2 | NLP | ¿Qué relevancia tiene el resultado del LLM en comparación con la entrada proporcionada? | |
| Extracción de texto | Relevancia de la respuesta | LLM como juez | ¿Qué relevancia tiene el resultado del LLM en comparación con los datos introducidos? |
| Alucinación | LLM como juez | Si el LLM genera información correcta desde el punto de vista factual al comparar el resultado real con el contexto proporcionado. | |
| Equivalencia de la verdad fundamental | LLM como juez | Alineación de la respuesta con la verdad fundamental. | |
| Clasificación de textos | Corrección | LLM como juez | ¿Es correcta la etiqueta prevista? |
| Coincidencia exacta | NLP | La métrica verifica si hay una coincidencia exacta entre el resultado esperado y el resultado real. | |
| Coincidencia casi exacta | NLP | Esta métrica comprueba si existe una coincidencia exacta entre el resultado esperado y el resultado real después de normalizarlos poniéndolos en minúsculas, eliminando la puntuación y los artículos, y eliminando los espacios en blanco adicionales. |