Automation 360

Métricas para las evaluaciones de IA

Descargar como PDF

Contenidos

Métricas para las evaluaciones de IA

Descargar como PDF

Última actualización2025/11/21

Obtenga información sobre el rendimiento de la IA con una comprensión más profunda de las métricas y dimensiones de puntuación.

Cada evaluación devuelve puntuaciones sobre la calidad del rendimiento. Cuando se utiliza Evaluar automáticamente, hay una variedad de métricas que el modelo de lenguaje extenso (LLM) usa para juzgar y devolver puntuaciones.

Métricas

Las evaluaciones se puntúan a partir de los cuatro tipos de tareas clave de las capacidades de IA. Cada tipo tiene dimensiones y métricas correspondientes para ofrecer puntuaciones para la evaluación. Una evaluación se considera completa cuando se han resuelto todas las dimensiones.

Tabla 1.
Métrica	Métrica	Tipo	Definición
Resúmenes	Consistencia factual	LLM como juez	La alineación factual entre el resumen y la fuente resumida.
	Exhaustividad	LLM como juez	¿El resumen refleja los puntos clave?
	Bleu-2	NLP	Esta métrica mide la precisión de los bigramas (secuencias de dos palabras consecutivas) en la salida del LLM que coinciden con el texto de referencia.
	Rouge-2	NLP	Esta métrica mide la recuperación de bigramas (secuencias de dos palabras consecutivas) del texto de referencia que aparecen en la salida del LLM.
Generación de texto	Relevancia de la respuesta	LLM como juez	¿Qué relevancia tiene el resultado del LLM en comparación con los datos introducidos?
	Alucinación	LLM como juez	Si el LLM genera información correcta desde el punto de vista factual al comparar el resultado real con el contexto proporcionado.
	Bleu-2	NLP	Alineación de la respuesta con la verdad fundamental.
	Rouge-2	NLP	¿Qué relevancia tiene el resultado del LLM en comparación con la entrada proporcionada?
Extracción de texto	Relevancia de la respuesta	LLM como juez	¿Qué relevancia tiene el resultado del LLM en comparación con los datos introducidos?
	Alucinación	LLM como juez	Si el LLM genera información correcta desde el punto de vista factual al comparar el resultado real con el contexto proporcionado.
	Equivalencia de la verdad fundamental	LLM como juez	Alineación de la respuesta con la verdad fundamental.
Clasificación de textos	Corrección	LLM como juez	¿Es correcta la etiqueta prevista?
	Coincidencia exacta	NLP	La métrica verifica si hay una coincidencia exacta entre el resultado esperado y el resultado real.
	Coincidencia casi exacta	NLP	Esta métrica comprueba si existe una coincidencia exacta entre el resultado esperado y el resultado real después de normalizarlos poniéndolos en minúsculas, eliminando la puntuación y los artículos, y eliminando los espacios en blanco adicionales.

Ningún tema anterior

No hay tema siguiente

Ningún tema anterior

No hay tema siguiente