La AI Evaluations permite al administrador rastrear y calificar los resultados de las capacidades de IA generativa.

Descripción general de AI Evaluations


El gráfico describe los beneficios que ofrece AI Evaluations.

Nota: Para obtener los mejores resultados, asegúrese de usar la versión 9.0.0 del paquete AI Skill.

AI Evaluations es una herramienta diseñada para evaluar las características y capacidades de los sistemas de generative AI(genAI). Esto incluye métricas y metodologías para cuantificar y calificar aspectos como el rendimiento, la solidez, la equidad, la seguridad, la interpretabilidad y la alineación con los objetivos previstos y los principios éticos. AI Evaluations está diseñado para que los desarrolladores profesionales evalúen y califiquen AI Skills durante la etapa de diseño, lo que garantiza que cumplan con los estándares requeridos.

Con la creciente adopción de la IA generativa, existe una necesidad urgente de contar con herramientas que permitan evaluar la calidad de los modelos antes de su implementación y escalada en las organizaciones. AI Evaluations satisface este requisito al ofrecer una interfaz sencilla e intuitiva que agiliza el proceso de evaluación. Al realizar evaluaciones exhaustivas, los usuarios pueden mitigar los riesgos asociados con el rendimiento degradado del modelo y la calidad comprometida para asegurar soluciones de IA confiables.

El siguiente diagrama muestra cómo se realiza una evaluación.
El diagrama muestra varias operaciones realizadas durante una evaluación.

Estas evaluaciones aprovechan el procesamiento de lenguaje natural (NLP) y los modelos de lenguaje extenso (LLM) para analizar y asignar puntuaciones, lo que proporciona información sobre cómo mejorar los sistemas de IA. El proceso de evaluación emplea un enfoque sistemático mediante métricas de NLP y conocimientos basados en investigaciones para realizar evaluaciones detalladas. Implica comparar los resultados del modelo con los resultados deseados, monitorear desviaciones en el rendimiento y solicitar revisiones cuando sea necesario. Esta mejora continua garantiza que los modelos de IA se mantengan efectivos y optimizados para las necesidades de los usuarios.

Página de destino AI Evaluations

Las evaluaciones se integran perfectamente en el desarrollo. Una interfaz centralizada y fácil de usar proporciona acceso a puntuaciones, métricas y herramientas de evaluación, lo que reduce la necesidad de contar con conocimientos especializados en aprendizaje automático. Esta accesibilidad garantiza que los usuarios puedan realizar evaluaciones de manera eficiente y optimizar los modelos de IA, según sea necesario.
  • Encuentre las evaluaciones completadas en la pestaña Evaluaciones.
  • Haga clic en el Nombre de la evaluación para mostrar información detallada de la evaluación que se completó.

Conceptos clave

Comparación de resultados: Una característica clave de las AI Evaluations es la capacidad de comparar el resultado generado por un modelo de lenguaje con un resultado deseado predefinido. Esto garantiza la alineación con los criterios y estándares especificados para optimizar la relevancia y precisión del contenido generado. Se puede cargar o introducir manualmente un conjunto de datos o un resultado esperado para utilizarlo en estas comparaciones.

Evaluación simultánea en el desarrollo de habilidades en IA: A medida que evolucionan las AI Skills, las evaluaciones pueden realizarse de forma simultánea al desarrollo del modelo. Este proceso iterativo permite realizar ajustes y mejoras en tiempo real para fomentar la mejora dinámica de las capacidades de la IA.

Métricas y perspectivas de investigación: El proceso de evaluación se basa en estándares de la industria para las métricas de NLP y en una investigación exhaustiva del aprendizaje automático. Estas métricas proporcionan el marco que permite obtener información valiosa sobre los beneficios y el rendimiento de los modelos de IA. En casos donde las variables están incompletas, el sistema solicita una revisión y una nueva ejecución de la evaluación, lo que garantiza exhaustividad y precisión.

El cálculo de estas métricas de procesamiento de lenguaje natural (NLP) depende de los resultados esperados que proporcione durante la configuración de la ejecución de la evaluación. En los casos en que no se disponga de salidas esperadas en la evaluación, el LLM como juez utiliza métricas predefinidas para asignar puntuaciones.

Origen del evaluador y las métricas: El evaluador actúa como el mecanismo para evaluar los resultados de la IA, a partir de métricas extraídas de los estándares de la industria. El mecanismo de LLM como juez se basa en la investigación para garantizar que las evaluaciones tengan un enfoque integral y similar al humano.

Criterios de evaluación

Este criterio ha sido investigado y seleccionado, basándose en la capacidad de estos datos para respaldar soluciones altamente funcionales. Las puntuaciones en estas áreas ayudan a los responsables de la toma de decisiones a identificar las mejoras que repercuten en la calidad y la eficacia que ofrecen las soluciones de la IA generativa.

Las evaluaciones se centran en cuatro tipos clave de tareas de capacidades de IA que son esenciales para los casos de uso más comunes. Cada caso de uso se clasifica para alinearse con las tareas y métricas predefinidas necesarias para proporcionar puntuaciones e información sobre el rendimiento. Para obtener más información, consulte Métricas para las evaluaciones de IA.
Tabla 1.
Principio Descripción Casos de uso
Resúmenes Capacidad para ofrecer una alineación completa y verídica entre el resultado y la fuente. Análisis y moderación de contenido
Generación de texto Relevancia y precisión del texto proporcionado por la IA en comparación con la información fuente. Comentarios del cliente y documentos financieros
Extracción de texto Valida que el texto esté alineado, utilizando datos de referencia y comparando las entradas proporcionadas. Pregunta y respuesta, y extracción de información
Clasificación de textos Verifica las categorías de los sujetos entre la salida y la fuente. Investigación

Registros de auditoría

El administrador puede ver los detalles de la sesión y el evento para cada evaluación completada en la gobernanza de IA. Consulte AI Governance.

Permisos y acceso

El administrador puede habilitar AI Evaluations al seleccionar permisos en la página de roles para los respectivos usuarios. Estos permisos son fundamentales para administrar el acceso y la funcionalidad relacionada con AI Evaluations.

Permisos:

  • Ver las AI Evaluations: Este permiso permite a los usuarios ver las puntuaciones de AI Evaluations y el razonamiento. El acceso está limitado a las carpetas y habilidades de la IA que se le asignen al usuario (ejemplo: público).

  • Administrar las AI Evaluations: Este permiso es necesario para que los usuarios ejecuten evaluaciones y gestionen conjuntos de datos.