AI Evaluations permet à l\'administrateur de suivre et d\'évaluer les sorties d\'IA générative.

Présentation d\'AI Evaluations


Le graphique décrit les avantages offerts par AI Evaluations.

Remarque : Pour de meilleurs résultats, assurez-vous d\'utiliser la version 9.0.0 du package AI Skill.

AI Evaluations est un outil conçu pour évaluer les caractéristiques et les capacités des systèmes generative AI (genAI). Cela inclut des métriques et des méthodologies pour quantifier et qualifier des aspects tels que la performance, la robustesse, l\'équité, la sécurité, l\'interprétabilité et l\'alignement avec les objectifs visés et les principes éthiques. AI Evaluations est conçu pour que les développeurs professionnels évaluent et qualifient les AI Skills pendant la phase de conception, afin de s\'assurer qu\'elles répondent aux normes requises.

Avec l\'adoption croissante de l\'IA générative, il devient essentiel de disposer d\'outils permettant d\'évaluer la qualité des modèles avant leur déploiement et leur mise à l\'échelle au sein des organisations. AI Evaluations répond à cette exigence en proposant une interface simple et intuitive qui accélère le processus d\'évaluation. En menant des évaluations approfondies, les utilisateurs peuvent atténuer les risques associés à une dégradation des performances du modèle et à une qualité compromise, garantissant ainsi des solutions IA fiables.

Le schéma suivant illustre le déroulement d\'une évaluation.
Le diagramme illustre plusieurs opérations effectuées lors d\'une évaluation.

Ces évaluations exploitent le Traitement du Langage Naturel (TLN) et les grands modèles de langage (LLM) pour évaluer et attribuer des scores, offrant ainsi des perspectives sur l\'optimisation des systèmes IA. Le processus d\'évaluation adopte une approche systématique, en s\'appuyant sur des métriques TLN et des analyses fondées sur la recherche pour réaliser des évaluations approfondies. Cela consiste à comparer les résultats du modèle aux résultats attendus, à surveiller les dérives de performance et à solliciter des révisions lorsque cela s\'avère nécessaire. Le perfectionnement continu garantit que les modèles IA demeurent performants et optimisés pour répondre aux besoins des utilisateurs.

Page d\'accueil AI Evaluations

Les évaluations sont parfaitement intégrées au processus de développement. Une interface centralisée et conviviale offre un accès aux scores, aux métriques et aux outils d\'évaluation, réduisant ainsi la nécessité d\'une expertise spécialisée en apprentissage machine. Cette accessibilité garantit que les utilisateurs peuvent réaliser efficacement des évaluations et optimiser les modèles IA selon les besoins.
  • Recherchez les évaluations terminées sous l\'onglet Évaluations.
  • Cliquez sur le Nom de l\'évaluation pour afficher les informations issues de votre évaluation terminée.

Concepts clés

Comparaison de sortie : Une fonctionnalité essentielle de AI Evaluations réside dans la capacité à comparer la sortie produite par un modèle de langage à une sortie souhaitée et prédéfinie. Cela garantit l\'alignement avec les critères et normes spécifiés, optimisant la pertinence et l\'exactitude du contenu généré. Un ensemble de données ou un résultat attendu peut être téléchargé ou saisi manuellement pour être utilisé dans ces comparaisons.

Évaluation simultanée dans le développement des compétences IA : À mesure que les AI Skills évoluent, des évaluations peuvent être réalisées simultanément au développement du modèle. Ce processus itératif permet des ajustements et des améliorations en temps réel, favorisant l\'amélioration dynamique des capacités de l\'IA.

Métriques et insights de recherche : Le processus d\'évaluation repose sur les normes industrielles relatives aux métriques TLN ainsi que sur des recherches approfondies en apprentissage machine. Ces mesures constituent le cadre permettant d\'apporter des insights précieux sur les avantages et les performances des modèles IA. Dans les cas où les variables sont incomplètes, le système demande une révision et une relance de l\'évaluation, garantissant ainsi l\'exhaustivité et la précision.

Le calcul de ces métriques TLN repose sur les résultats attendus que vous fournissez lors de la configuration de l\'exécution de l\'évaluation. Dans les cas où les résultats attendus ne sont pas disponibles dans l\'évaluation, le LLM-en-tant-que-juge utilise des métriques prédéfinies pour attribuer des scores.

Origine de l\'évaluateur et des métriques : L\'évaluateur agit comme le mécanisme d\'évaluation des résultats de l\'IA, en s\'appuyant sur des métriques issues des normes du secteur. Lorsque LLM-en-tant-que-juge est utilisé, ce mécanisme est basé sur la recherche afin de garantir que les évaluations adoptent une approche humaine et complète.

Critères d\'évaluation

Ce critère a été étudié et sélectionné en fonction de la capacité de ces données à prendre en charge des solutions hautement performantes. Les scores dans ces domaines aident les décideurs à identifier des améliorations qui ont un impact sur la qualité et l\'efficacité des solutions d\'IA générative.

Les évaluations se concentrent sur quatre types de tâches clés des capacités de l\'IA qui sont essentielles pour les cas d\'utilisation courants. Chaque cas d\'utilisation est classé pour correspondre aux tâches et aux métriques prédéfinies nécessaires afin de fournir des scores et des analyses de performance. Pour plus d\'informations, voir Mesures pour les évaluations IA.
Tableau 1.
Principe Description Cas d\'utilisation
Synthèse Capacité d\'offrir une correspondance complète et factuelle entre le résultat et la source. Analyse, modération de contenu
Génération de texte Pertinence et exactitude du texte fourni par l\'IA par rapport aux informations sources. Retour d\'informations client, documents financiers
Extraction de texte Validez que le texte est aligné, en utilisant les données de référence et en comparant les entrées fournies. Question et réponse, extraction d\'informations
Classification de texte Vérifie les catégories des sujets entre la sortie et la source. Recherche

Journaux d\'audit

L\'administrateur peut consulter les détails de la session et de l\'événement pour chaque évaluation terminée dans la gouvernance de l\'IA. Voir, AI Governance.

Autorisations et accès

L\'administrateur peut activer AI Evaluations en sélectionnant les autorisations sur la page des rôles pour les utilisateurs concernés. Ces autorisations sont indispensables pour gérer l\'accès et les fonctionnalités associées à AI Evaluations.

Autorisations :

  • Voir les AI Evaluations : cette autorisation permet aux utilisateurs de consulter les scores AI Evaluations ainsi que les justifications. L\'accès est limité aux dossiers et aux compétences IA qui sont attribués à l\'utilisateur (exemple : public).

  • Gérer les AI Evaluations : cette autorisation est requise pour que les utilisateurs puissent exécuter des évaluations et gérer des ensembles de données.