Aufrufen eines textbasierten Modells in SageMaker

Bei diesem Thema wird anhand eines Beispiels beschrieben, wie das LLaMA 2 AI-Modell von Meta über AWS SageMaker aufgerufen werden kann.

Die Llama 2-Familie großer Sprachmodelle (LLMs) ist eine Sammlung von vortrainierten und verfeinerten generativen Textmodellen, die in ihrer Größe von 7 Milliarden bis zu 70 Milliarden Parametern variieren. Fein abgestimmte LLMs, genannt Llama-2-chat, sind für Dialoganwendungen optimiert. Sie können die Automation Anywhere-Aktion „SageMaker-Endpunkt aufrufen“ verwenden, um eine Eingabeaufforderung zu senden und eine Antwort von diesem Modell zu erhalten. In diesem Beispiel wird eine Eingabeaufforderung an das Modell gesendet und eine Antwort in einem Nachrichtenfeld ausgegeben.

Prozedur

  1. Klicken Sie im Control Room auf Zu konfigurierende Endpunkte ermitteln, um die Liste der Endpunkte anzuzeigen. AWS: SageMaker-Endpunkt aufrufen
    1. Geben Sie die Anmeldedaten wie unter Aktion „Authentifizierung“ beschrieben ein.
    2. Klicken Sie auf das Dropdown-Menü Region, um eine Region Ihrer AWS-Instanz auszuwählen, aus der Sie die Endpunkte beziehen möchten.Zu konfigurierende Endpunkte ermitteln
    3. Klicken Sie auf Verbinden.
      Eine Verbindung zu SageMaker wird hergestellt und die in der ausgewählten Region verfügbaren Endpunkte werden aufgelistet.Liste der AWS SageMaker-Endpunkte in einer Region
    4. Klicken Sie auf einen Endpunktnamen, der dem gewünschten Modell entspricht, und klicken Sie auf Auswählen. In diesem Beispiel wird ein textbasiertes Modell verwendet. Es wird ein bereits vorhandenes und ein vortrainiertes Modell verwendet. Sie können die bereits eingesetzten Modelle anzeigen, indem Sie zu Inferenz > Endpunktenavigieren. Wenn Sie ein Modell Ihrer Wahl bereitstellen möchten, siehe AWS SageMaker Deploy models for inference und zum Trainieren der eingesetzten Modelle, siehe AWS SageMaker Build, Train, and Deploy models for inference. Um weitere Informationen zu den Modellen zu erhalten, klicken Sie auf ein Modell.
    5. Klicken Sie auf Auswählen.
      Der Endpunktname und die Region werden automatisch in den übergeordneten Bildschirm übernommen.
  2. Klicken Sie auf das Dropdown-Menü Inhaltstyp, um den Nutzdatentyp auszuwählen, den Sie eingeben möchten. In diesem Beispiel wählen Sie application/json als Nutzdatentyp aus.
  3. Geben Sie den Inhalt in einem JSON-Format ein. In diesem Beispiel wird das folgende JSON-Format verwendet:
    {
       "inputs":[
          [
             {
                "role":"user",
                "content":"Tell me about Automation Anywhere"
             }
          ]
       ],
       "parameters":{
          "max_new_tokens":512,
          "top_p":0.9,
          "temperature":0.6
       }
    }
  4. Geben Sie Standard als Sitzungsnamen ein oder speichern Sie die Sitzung in einer Variablen.
  5. Um die optionalen Parameter zu verwalten, wählen Sie Ja für Weitere Optionen anzeigen. Wenn Sie Ja wählen, können Sie weitere Parameter hinzufügen, wie z. B.: Benutzerdefinierte Attribute (optional) Erklärung aktivieren (optional), Inferenz-ID (optional), Ziel-Container-Hostname (optional), Zielmodell (optional) und Zielvariante (optional). Informationen zu diesen optionalen Parametern und Details zu „SageMaker-Endpunkt aufrufen“ finden Sie unter AWS SageMaker InvokeEndpoint.
  6. In diesem Beispiel erfordert das ausgewählte Modell das Akzeptieren der EULA. Sie müssen die Benutzerdefinierten Attribute (optional) auf accept_eula=true setzen.
  7. Klicken Sie auf Ausführen, um den Bot zu starten. Sie können den Wert des Feldes ablesen, indem Sie die Antwort einfach in einer Nachrichtenfeld-Aktion ausgeben. In diesem Beispiel gibt str-TextBasedModelResponse die Antwort aus.AWS SageMaker-Antwort