Évaluations IA
- Dernière mise à jour2025/12/26
AI Evaluations permet à l\'administrateur de suivre et d\'évaluer les sorties d\'IA générative.
Présentation d\'AI Evaluations

AI Evaluations est un outil conçu pour évaluer les caractéristiques et les capacités des systèmes generative AI (genAI). Cela inclut des métriques et des méthodologies pour quantifier et qualifier des aspects tels que la performance, la robustesse, l\'équité, la sécurité, l\'interprétabilité et l\'alignement avec les objectifs visés et les principes éthiques. AI Evaluations est conçu pour que les développeurs professionnels évaluent et qualifient les AI Skills pendant la phase de conception, afin de s\'assurer qu\'elles répondent aux normes requises.
Avec l\'adoption croissante de l\'IA générative, il devient essentiel de disposer d\'outils permettant d\'évaluer la qualité des modèles avant leur déploiement et leur mise à l\'échelle au sein des organisations. AI Evaluations répond à cette exigence en proposant une interface simple et intuitive qui accélère le processus d\'évaluation. En menant des évaluations approfondies, les utilisateurs peuvent atténuer les risques associés à une dégradation des performances du modèle et à une qualité compromise, garantissant ainsi des solutions IA fiables.

Ces évaluations exploitent le Traitement du Langage Naturel (TLN) et les grands modèles de langage (LLM) pour évaluer et attribuer des scores, offrant ainsi des perspectives sur l\'optimisation des systèmes IA. Le processus d\'évaluation adopte une approche systématique, en s\'appuyant sur des métriques TLN et des analyses fondées sur la recherche pour réaliser des évaluations approfondies. Cela consiste à comparer les résultats du modèle aux résultats attendus, à surveiller les dérives de performance et à solliciter des révisions lorsque cela s\'avère nécessaire. Le perfectionnement continu garantit que les modèles IA demeurent performants et optimisés pour répondre aux besoins des utilisateurs.
Page d\'accueil AI Evaluations
- Recherchez les évaluations terminées sous l\'onglet Évaluations.
- Cliquez sur le Nom de l\'évaluation pour afficher les informations issues de votre évaluation terminée.
Concepts clés
Comparaison de sortie : Une fonctionnalité essentielle de AI Evaluations réside dans la capacité à comparer la sortie produite par un modèle de langage à une sortie souhaitée et prédéfinie. Cela garantit l\'alignement avec les critères et normes spécifiés, optimisant la pertinence et l\'exactitude du contenu généré. Un ensemble de données ou un résultat attendu peut être téléchargé ou saisi manuellement pour être utilisé dans ces comparaisons.
Évaluation simultanée dans le développement des compétences IA : À mesure que les AI Skills évoluent, des évaluations peuvent être réalisées simultanément au développement du modèle. Ce processus itératif permet des ajustements et des améliorations en temps réel, favorisant l\'amélioration dynamique des capacités de l\'IA.
Métriques et insights de recherche : Le processus d\'évaluation repose sur les normes industrielles relatives aux métriques TLN ainsi que sur des recherches approfondies en apprentissage machine. Ces mesures constituent le cadre permettant d\'apporter des insights précieux sur les avantages et les performances des modèles IA. Dans les cas où les variables sont incomplètes, le système demande une révision et une relance de l\'évaluation, garantissant ainsi l\'exhaustivité et la précision.
Le calcul de ces métriques TLN repose sur les résultats attendus que vous fournissez lors de la configuration de l\'exécution de l\'évaluation. Dans les cas où les résultats attendus ne sont pas disponibles dans l\'évaluation, le LLM-en-tant-que-juge utilise des métriques prédéfinies pour attribuer des scores.
- Les évaluations peuvent être exécutées automatiquement, en utilisant le système pour comparer les performances de la source et du résultat. Voir, Exécuter une Évaluation IA automatiquement.
- L\'option pour Exécuter manuellement est disponible pour que les utilisateurs puissent faire la comparaison. Voir, Exécuter des Évaluations IA manuellement.
Critères d\'évaluation
Ce critère a été étudié et sélectionné en fonction de la capacité de ces données à prendre en charge des solutions hautement performantes. Les scores dans ces domaines aident les décideurs à identifier des améliorations qui ont un impact sur la qualité et l\'efficacité des solutions d\'IA générative.
| Principe | Description | Cas d\'utilisation |
|---|---|---|
| Synthèse | Capacité d\'offrir une correspondance complète et factuelle entre le résultat et la source. | Analyse, modération de contenu |
| Génération de texte | Pertinence et exactitude du texte fourni par l\'IA par rapport aux informations sources. | Retour d\'informations client, documents financiers |
| Extraction de texte | Validez que le texte est aligné, en utilisant les données de référence et en comparant les entrées fournies. | Question et réponse, extraction d\'informations |
| Classification de texte | Vérifie les catégories des sujets entre la sortie et la source. | Recherche |
Journaux d\'audit
L\'administrateur peut consulter les détails de la session et de l\'événement pour chaque évaluation terminée dans la gouvernance de l\'IA. Voir, AI Governance.
Autorisations et accès
L\'administrateur peut activer AI Evaluations en sélectionnant les autorisations sur la page des rôles pour les utilisateurs concernés. Ces autorisations sont indispensables pour gérer l\'accès et les fonctionnalités associées à AI Evaluations.
Autorisations :
-
Voir les AI Evaluations : cette autorisation permet aux utilisateurs de consulter les scores AI Evaluations ainsi que les justifications. L\'accès est limité aux dossiers et aux compétences IA qui sont attribués à l\'utilisateur (exemple : public).
-
Gérer les AI Evaluations : cette autorisation est requise pour que les utilisateurs puissent exécuter des évaluations et gérer des ensembles de données.