Evaluaciones de IA
- Última actualización2025/12/29
La AI Evaluations permite al administrador rastrear y calificar los resultados de las capacidades de IA generativa.
Descripción general de AI Evaluations

AI Evaluations es una herramienta diseñada para evaluar las características y capacidades de los sistemas de generative AI(genAI). Esto incluye métricas y metodologías para cuantificar y calificar aspectos como el rendimiento, la solidez, la equidad, la seguridad, la interpretabilidad y la alineación con los objetivos previstos y los principios éticos. AI Evaluations está diseñado para que los desarrolladores profesionales evalúen y califiquen AI Skills durante la etapa de diseño, lo que garantiza que cumplan con los estándares requeridos.
Con la creciente adopción de la IA generativa, existe una necesidad urgente de contar con herramientas que permitan evaluar la calidad de los modelos antes de su implementación y escalada en las organizaciones. AI Evaluations satisface este requisito al ofrecer una interfaz sencilla e intuitiva que agiliza el proceso de evaluación. Al realizar evaluaciones exhaustivas, los usuarios pueden mitigar los riesgos asociados con el rendimiento degradado del modelo y la calidad comprometida para asegurar soluciones de IA confiables.

Estas evaluaciones aprovechan el procesamiento de lenguaje natural (NLP) y los modelos de lenguaje extenso (LLM) para analizar y asignar puntuaciones, lo que proporciona información sobre cómo mejorar los sistemas de IA. El proceso de evaluación emplea un enfoque sistemático mediante métricas de NLP y conocimientos basados en investigaciones para realizar evaluaciones detalladas. Implica comparar los resultados del modelo con los resultados deseados, monitorear desviaciones en el rendimiento y solicitar revisiones cuando sea necesario. Esta mejora continua garantiza que los modelos de IA se mantengan efectivos y optimizados para las necesidades de los usuarios.
Página de destino AI Evaluations
- Encuentre las evaluaciones completadas en la pestaña Evaluaciones.
- Haga clic en el Nombre de la evaluación para mostrar información detallada de la evaluación que se completó.
Conceptos clave
Comparación de resultados: Una característica clave de las AI Evaluations es la capacidad de comparar el resultado generado por un modelo de lenguaje con un resultado deseado predefinido. Esto garantiza la alineación con los criterios y estándares especificados para optimizar la relevancia y precisión del contenido generado. Se puede cargar o introducir manualmente un conjunto de datos o un resultado esperado para utilizarlo en estas comparaciones.
Evaluación simultánea en el desarrollo de habilidades en IA: A medida que evolucionan las AI Skills, las evaluaciones pueden realizarse de forma simultánea al desarrollo del modelo. Este proceso iterativo permite realizar ajustes y mejoras en tiempo real para fomentar la mejora dinámica de las capacidades de la IA.
Métricas y perspectivas de investigación: El proceso de evaluación se basa en estándares de la industria para las métricas de NLP y en una investigación exhaustiva del aprendizaje automático. Estas métricas proporcionan el marco que permite obtener información valiosa sobre los beneficios y el rendimiento de los modelos de IA. En casos donde las variables están incompletas, el sistema solicita una revisión y una nueva ejecución de la evaluación, lo que garantiza exhaustividad y precisión.
El cálculo de estas métricas de procesamiento de lenguaje natural (NLP) depende de los resultados esperados que proporcione durante la configuración de la ejecución de la evaluación. En los casos en que no se disponga de salidas esperadas en la evaluación, el LLM como juez utiliza métricas predefinidas para asignar puntuaciones.
- Las evaluaciones pueden ser Ejecutadas automáticamente, utilizando el sistema para comparar el rendimiento de la fuente y el resultado. Consulte Ejecución automática de una evaluación de IA.
- La opción de Ejecutar manualmente está disponible para que los usuarios realicen la comparación. Consulte Ejecutar evaluaciones de IA manualmente.
Criterios de evaluación
Este criterio ha sido investigado y seleccionado, basándose en la capacidad de estos datos para respaldar soluciones altamente funcionales. Las puntuaciones en estas áreas ayudan a los responsables de la toma de decisiones a identificar las mejoras que repercuten en la calidad y la eficacia que ofrecen las soluciones de la IA generativa.
| Principio | Descripción | Casos de uso |
|---|---|---|
| Resúmenes | Capacidad para ofrecer una alineación completa y verídica entre el resultado y la fuente. | Análisis y moderación de contenido |
| Generación de texto | Relevancia y precisión del texto proporcionado por la IA en comparación con la información fuente. | Comentarios del cliente y documentos financieros |
| Extracción de texto | Valida que el texto esté alineado, utilizando datos de referencia y comparando las entradas proporcionadas. | Pregunta y respuesta, y extracción de información |
| Clasificación de textos | Verifica las categorías de los sujetos entre la salida y la fuente. | Investigación |
Registros de auditoría
El administrador puede ver los detalles de la sesión y el evento para cada evaluación completada en la gobernanza de IA. Consulte AI Governance.
Permisos y acceso
El administrador puede habilitar AI Evaluations al seleccionar permisos en la página de roles para los respectivos usuarios. Estos permisos son fundamentales para administrar el acceso y la funcionalidad relacionada con AI Evaluations.
Permisos:
-
Ver las AI Evaluations: Este permiso permite a los usuarios ver las puntuaciones de AI Evaluations y el razonamiento. El acceso está limitado a las carpetas y habilidades de la IA que se le asignen al usuario (ejemplo: público).
-
Administrar las AI Evaluations: Este permiso es necesario para que los usuarios ejecuten evaluaciones y gestionen conjuntos de datos.