Azure OpenAI: IA de chat multimodale action

L\'action Azure OpenAI : MultiModal Chat AI action vous permet d\'intégrer Azure OpenAI gpt-4o et les capacités de vision de gpt-4 dans vos flux de travail. Cela signifie que vos automatisations peuvent désormais traiter et répondre à des questions sur les images, allant au-delà des simples interactions basées sur du texte.

Prérequis

  • Vous devez avoir le rôle de Créateur de robots pour utiliser l\'action Azure OpenAI : Chat IA MultiModal action dans le cadre d\'une automatisation.
  • Assurez-vous de disposer des informations d\'identification nécessaires pour envoyer une demande et d\'inclure L'action Azure OpenAI : Action Authentifier avant d\'appeler toute action Microsoft Azure OpenAI.

Cet exemple montre comment envoyer un message en langage naturel à l\'aide de Azure OpenAI : Chat IA action et obtenir une réponse appropriée.

Procédure

  1. Dans la Automation Anywhere Control Room, accédez au volet Actions, sélectionnez IA générative > Microsoft Azure OpenAI, puis faites glisser l\'action Azure OpenAI: Multimodal Chat IA, et placez-la dans le canevas.
  2. Renseignez ou sélectionnez les champs suivants :

    Azure OpenAI Chat IA multimodal

    1. Saisissez l\'ID de déploiement du Azure OpenAI. L\'ID de déploiement est associé au grand modèle de langage (LLM) que vous souhaitez utiliser pour votre invite et peut être copié depuis le Automation Anywhere Control Room.
    2. Saisissez un Message de chat que le modèle va utiliser pour générer une réponse.
      Remarque : Les actions de chat conservent le résultat de l\'action de chat précédente dans la même session. Si vous appelez les actions de chat consécutivement, le modèle peut comprendre les messages consécutifs et les relier au message précédent. Cependant, tout l\'historique du chat est supprimé après la fin de la session.
    3. Sélectionnez une image : Vous pouvez soit choisir lien d\'image et entrer une URL d\'image, soit sélectionner Télécharger l\'image pour télécharger une image.
      Exemple :

      Dans l\'exemple fourni, une image d\'une fleur violette est associée à la première instance du Azure OpenAI : action IA de chat multimodale. La deuxième instance utilise une image de guépard, tandis que la troisième instance présente trois chiens assis dans un champ entouré de fleurs blanches (comme montré sur l\'image ci-dessous).

      exemple de chiens chatai multimodal azure openai

    4. Indiquez le nombre maximal de jetons à générer. Par défaut, si vous ne saisissez pas de valeur, le nombre maximal de jetons générés est automatiquement fixé de manière à respecter la longueur maximale du contexte pour le modèle sélectionné en tenant compte de la longueur de la réponse générée.
    5. Saisissez une Température. Cette valeur fait référence au caractère aléatoire de la réponse. Lorsque la température se rapproche de zéro, la réponse est plus ciblée et déterministe. Plus la valeur est élevée, plus la réponse est aléatoire.
    6. Saisissez le nom de la session pour limiter la session à la session en cours. Utilisez le nom utilisé dans l\'action d\'authentification. Vous pouvez utiliser une variable à la place.
    7. Pour gérer les paramètres facultatifs, sélectionnez Oui sous Afficher plus d\'options pour ajouter d\'autres paramètres tels que : Nombre maximum de messages de chat, Top P, Arrêter, Pénalité de présence, Pénalité de fréquence, Utilisateur, Biais de logit, Format de réponse, et Fidélité de l\'image. Pour plus d\'informations sur ces paramètres facultatifs, voir Achèvements du chat Azure Open AI.
      Remarque :
      • Nombre maximum de messages de chat :

        Ce paramètre contrôle combien de messages sont conservés dans l\'historique de chat pour l\'action Multimodal Chat AI. C\'est particulièrement important lors du travail avec plusieurs images, car chaque image peut augmenter considérablement la taille du message. En définissant une limite (entre 0 et 10), vous pouvez optimiser la taille de la session de chat et éviter les problèmes de performance.

        • 0: Aucun historique de discussion n\'est conservé, similaire à une action d\'invite.
        • 1-10: Le nombre spécifié de messages (y compris l\'invite actuelle et les réponses les plus récentes) est conservé.

        Dans l\'exemple ci-dessus, la valeur est fixée à 4. Cela signifie que l\'historique de chat inclura l\'invite actuelle et les réponses des 3 interactions précédentes.

      • Paramètre de détail : Ce champ vous permet de contrôler la manière dont le modèle traite l\'image et génère sa compréhension textuelle. Pour plus d\'informations, consultez Azure OpenAI Service REST API reference.
    8. Enregistrez la réponse dans une variable. Dans cet exemple, la réponse est enregistrée dans AzureOpenAI-MultiModalChat-Response.
  3. Cliquez sur Exécuter pour démarrer l\'automatisation. Vous pouvez lire la valeur du champ en affichant la réponse dans une Zone de message action. Dans cet exemple, str_chatai-response affiche la réponse.
    Conseil : Pour gérer plusieurs chats dans le même robot, vous devez créer plusieurs sessions avec des variables ou des noms différents.
La réponse à l\'automatisation ci-dessus est la suivante :

Réponse AI Chat Multimodal Azure OpenAI