Invoquer un modèle basé sur un texte dans SageMaker

Dans cette rubrique, nous vous expliquons comment invoquer le modèle d'IA LLaMA 2 de Meta via AWS SageMaker à l'aide d'un exemple.

La famille LLaMA 2 de grands modèles de langage (LLM) est une collection de modèles de texte génératifs préentraînés et affinés, dont le nombre de paramètres varie de 7 milliards à 70 milliards. Des LLM affinés, appelés Llama-2-chat, sont optimisés pour les cas d'utilisation de boîte de dialogue. Vous pouvez utiliser l'action Invoquer le point de terminaison SageMaker de Automation Anywhere pour envoyer une invite et recevoir une réponse de ce modèle. Dans cet exemple, une invite est envoyée au modèle et une réponse s'affiche dans une zone de message.

Procédure

  1. Dans la Control Room, cliquez sur Découverte des points de terminaison à configurer pour obtenir la liste des points de terminaison. Invoquer le point de terminaison AWS SageMaker
    1. Saisissez les infos d'identification conformément aux instructions de la rubrique AWS SageMaker : Action d'authentification.
    2. Cliquez sur le menu déroulant Région pour sélectionner une région de votre instance AWS à partir de laquelle obtenir les points de terminaison.Découvrir les points de terminaison à configurer
    3. Cliquez sur Connecter.
      Vous vous connectez à SageMaker et obtenez la liste des points de terminaison disponibles dans la région sélectionnée.Liste des points de terminaison AWS SageMaker dans une région
    4. Cliquez sur le nom du point de terminaison correspondant au modèle que vous souhaitez utiliser, puis cliquez sur Sélectionner. Dans cet exemple, nous utilisons un modèle basé sur un texte. Nous utilisons un modèle existant préentraîné. Vous pouvez afficher les modèles déjà déployés en accédant à Inférence > Points de terminaison. Pour déployer le modèle de votre choix, consultez la rubrique AWS SageMaker Deploy models for inference ; pour entraîner les modèles déployés, consultez la rubrique AWS SageMaker Build, Train, and Deploy models for inference. Pour en savoir plus sur les modèles, cliquez sur un modèle.
    5. Cliquez sur Sélectionner.
      Les champs Nom du point de terminaison et Région sont automatiquement renseignés dans l'écran parent.
  2. Cliquez sur le menu déroulant Type de contenu pour sélectionner le type de charge utile de contenu que vous souhaitez saisir. Dans cet exemple, sélectionnez application/json comme type de charge utile.
  3. Saisissez le contenu au format JSON. Dans cet exemple, le format JSON suivant est utilisé :
    {
       "inputs":[
          [
             {
                "role":"user",
                "content":"Tell me about Automation Anywhere"
             }
          ]
       ],
       "parameters":{
          "max_new_tokens":512,
          "top_p":0.9,
          "temperature":0.6
       }
    }
  4. Saisissez Par défaut comme nom de session ou enregistrez la session dans une variable.
  5. Pour gérer les paramètres facultatifs, sélectionnez Oui en regard de Afficher plus d'options. Si vous sélectionnez Oui, vous pouvez ajouter d'autres paramètres tels que : Attributs personnalisés (facultatif) Activer l'explication (facultatif), ID d'inférence (facultatif), Nom d'hôte du conteneur cible (facultatif), Modèle cible (facultatif) et Variante cible (facultatif). Pour en savoir plus sur ces paramètres facultatifs et sur l'action Invoquer le point de terminaison SageMaker, consultez la rubrique Invoquer le point de terminaison AWS SageMaker.
  6. Dans cet exemple, le modèle sélectionné exige l'acceptation du CLUF. Vous devez définir les attributs personnalisés (facultatifs) sur accept_eula=true.
  7. Cliquez sur Exécuter pour démarrer le robot. Vous pouvez lire la valeur du champ en affichant la réponse dans l'action Zone de message. Dans cet exemple, str-TextBasedModelResponse affiche la réponse.Réponse d'AWS SageMaker