Mit AI Evaluations können Administratoren die Ergebnisse von generativen KI-Funktionen verfolgen und bewerten.

Übersicht über AI Evaluations


Die Grafik beschreibt die Vorteile, die AI Evaluations bietet.

Anmerkung: Für beste Ergebnisse verwenden Sie die AI Skill-Paketversion 9.0.0.

AI Evaluations ist ein Tool zur Bewertung der Eigenschaften und Fähigkeiten von generative AI(genAI)-Systemen. Dies umfasst Metriken und Methoden zur Quantifizierung und Qualifizierung von Aspekten wie Leistung, Robustheit, Fairness, Sicherheit, Interpretierbarkeit und Übereinstimmung mit den beabsichtigten Zielen und ethischen Grundsätzen. AI Evaluations ist für professionelle Entwickler konzipiert, um AI Skills während der Entwurfsphase zu bewerten und zu qualifizieren und so sicherzustellen, dass sie die erforderlichen Standards erfüllen.

Mit der zunehmenden Verbreitung von Generativer KI besteht ein dringender Bedarf an Tools, die die Modellqualität vor der unternehmensweiten Einführung und Skalierung bewerten. AI Evaluations erfüllen diese Anforderung, indem sie eine einfache und intuitive Benutzeroberfläche bereitstellen, die den Bewertungsprozess beschleunigt. Durch gründliche Bewertungen können Nutzer Risiken im Zusammenhang mit verschlechterter Modellleistung und beeinträchtigter Qualität mindern und so zuverlässige KI-Lösungen sicherstellen.

Das folgende Diagramm zeigt, wie eine Bewertung durchgeführt wird.
Das Diagramm zeigt mehrere Vorgänge, die in einer Bewertung durchgeführt werden.

Diese Bewertungen nutzen Natural Language Processing (NLP) und Large Language Models (LLMs), um zu beurteilen und Bewertungen abzugeben, wodurch Einblicke zur Verbesserung von KI-Systemen bereitgestellt werden. Der Bewertungsprozess folgt einem systematischen Ansatz, bei dem NLP-Kennzahlen und forschungsbasierte Erkenntnisse eingesetzt werden, um umfassende Bewertungen durchzuführen. Dies umfasst den Vergleich von Modellausgaben mit den angestrebten Ergebnissen, die Überwachung auf Leistungsschwankungen sowie das Anstoßen von Überarbeitungen, wenn erforderlich. Kontinuierliche Weiterentwicklung stellt sicher, dass KI-Modelle wirksam bleiben und optimal auf die Anforderungen der Nutzer abgestimmt sind.

AI Evaluations Landing-Page

Bewertungen sind nahtlos in die Entwicklung integriert. Eine zentrale, benutzerfreundliche Oberfläche bietet Zugriff auf Bewertungen, Kennzahlen und Bewertungstools und verringert so die Notwendigkeit spezieller Fachkenntnisse im Bereich Maschinelles Lernen. Dank dieser Zugänglichkeit können Nutzer bei Bedarf effizient Bewertungen durchführen und KI-Modelle optimieren.
  • Finden Sie abgeschlossene Bewertungen unter dem Tab Bewertungen.
  • Klicken Sie auf die Bewertung Name, um Einblicke aus Ihrer abgeschlossenen Bewertung anzuzeigen.

Schlüsselkonzepte

Ausgabevergleich: Ein zentrales Merkmal von AI Evaluations ist die Fähigkeit, die von einem Sprachmodell generierte Ausgabe mit einer vordefinierten, gewünschten Ausgabe zu vergleichen. Dies gewährleistet die Ausrichtung auf festgelegte Kriterien und Standards und optimiert die Relevanz und Genauigkeit des erstellten Inhalts. Ein Datensatz oder erwartetes Ergebnis kann hochgeladen oder manuell eingegeben werden, um für diese Vergleiche verwendet zu werden.

Simultane Bewertung in der KI-Fähigkeitenentwicklung: Wenn sich AI Skills weiterentwickeln, können Bewertungen parallel zur Modellentwicklung durchgeführt werden. Dieser iterative Prozess erlaubt Echtzeitanpassungen und Verbesserungen, wodurch die dynamische Weiterentwicklung der KI-Fähigkeiten gefördert wird.

Metriken und Forschungserkenntnisse: Der Bewertungsprozess basiert auf Industriestandards für NLP-Metriken und umfassender Forschung im Bereich Maschinelles Lernen. Diese Kennzahlen bilden das Framework, das wertvolle Einblicke in die Vorteile und die Leistung von KI-Modellen liefert. In Fällen, in denen Variablen unvollständig sind, fordert das System eine Überarbeitung und erneute Ausführung der Bewertung, um Gründlichkeit und Präzision zu gewährleisten.

Die Berechnung dieser NLP-Metriken basiert auf den erwarteten Ausgaben, die Sie während der Konfiguration des Bewertungslaufs bereitstellen. In Fällen, in denen erwartete Ausgaben in der Bewertung nicht verfügbar sind, verwendet das LLM-as-a-Judge vordefinierte Metriken, um Bewertungen zu liefern.

Ursprung von Evaluator und Metriken: Die Bewertungsinstanz fungiert als Mechanismus zur Bewertung von KI-Ausgaben und leitet Kennzahlen aus Branchenstandards ab. Wenn LLM-as-a-Judge verwendet wird, basiert dieser Mechanismus auf Forschung, um sicherzustellen, dass Bewertungen einen menschenähnlichen und umfassenden Ansatz verfolgen.
  • Sie können Bewertungen Automatisch ausführen, indem das System verwendet wird, um die Leistung von Quelle und Ausgabe zu vergleichen. Weitere Informationen finden Sie unter KI-Auswertung automatisch ausführen.
  • Die Option, Manuell auszuführen, steht den Benutzern zur Verfügung, um den Vergleich durchzuführen. Weitere Informationen finden Sie unter Führen Sie KI-Bewertungen manuell aus.

Bewertungskriterien

Dieses Kriterium wurde recherchiert und ausgewählt, basierend auf der Fähigkeit dieser Daten, hochfunktionale Lösungen zu unterstützen. Die Ergebnisse in diesen Bereichen helfen Entscheidungsträgern, Verbesserungen zu erkennen, die die Qualität und Effektivität der von genAI-Lösungen bereitgestellten Leistungen beeinflussen.

Bewertungen konzentrieren sich auf vier zentrale Aufgabentypen von KI-Fähigkeiten, die für gängige Anwendungsfälle wesentlich sind. Jeder Anwendungsfall wird kategorisiert, um die Aufgaben und vordefinierten Metriken abzugleichen, die erforderlich sind, um Bewertungen und Einblicke in die Leistung zu liefern. Weitere Details finden Sie unter Metriken für KI-Bewertungen.
Tabelle 1.
Prinzip Beschreibung Anwendungsfälle
Zusammenfassungen Die Fähigkeit, eine vollständige und sachliche Übereinstimmung zwischen der Ausgabe und der Quelle zu bieten. Analyse, Inhaltsmoderation
Texterstellung Relevanz und Genauigkeit des von der KI bereitgestellten Textes im Vergleich zu den Ausgangsinformationen. Kundenfeedback, Finanzdokumente
Textextraktion Überprüfen Sie, ob der Text ausgerichtet ist, indem Sie die Referenzdaten verwenden und die bereitgestellten Eingaben vergleichen. Fragen und Antworten, Informationsgewinnung
Textklassifizierung Überprüft die Kategorien der Fächer zwischen Ausgabe und Quelle. Forschung

Auditprotokolle

Der Administrator kann Sitzungs- und Ereignisdetails für jede abgeschlossene Bewertung in der KI-Governance anzeigen. Weitere Informationen finden Sie unter AI Governance.

Berechtigungen und Zugriff

Der Administrator kann AI Evaluations aktivieren, indem er auf der Rollen-Seite für die jeweiligen Benutzer Berechtigungen auswählt. Diese Berechtigungen sind unerlässlich für die Verwaltung des Zugriffs und der Funktionalität im Zusammenhang mit AI Evaluations.

Berechtigungen:

  • AI Evaluations anzeigen: Diese Berechtigung ermöglicht es Nutzern, AI Evaluations-Bewertungen und -Begründungen anzuzeigen. Der Zugriff ist auf Ordner und KI-Funktionen beschränkt, denen der Benutzer zugewiesen ist (Beispiel: öffentlich).

  • AI Evaluations verwalten: Diese Berechtigung ist erforderlich, damit Benutzer Bewertungen ausführen und Datensätze verwalten können.