OpenAI: IA de chat multimodale action

L\'action OpenAI : L\'action MultiModal Chat AI vous permet d\'intégrer OpenAI gpt-4o et les capacités de vision d\'OpenAI dans vos flux de travail. Cela signifie que vos automatisations peuvent désormais traiter et répondre à des questions sur les images, allant au-delà des simples interactions basées sur du texte.

Prérequis

  • Vous devez disposer du rôle Créateur de robots pour utiliser l\'OpenAI Multimodal Chat AI action dans un robot.
  • Assurez-vous de disposer des informations d\'identification nécessaires pour envoyer une demande et d\'inclure L'action OpenAI : Action Authentifier avant d\'appeler toute action OpenAI.

Cet exemple montre comment envoyer plusieurs images en utilisant l\'OpenAI MultiModal Chat AI action et poser des questions sur ce qui est présent dans les images.

Procédure

  1. Dans la Automation Anywhere Control Room, accédez au volet Actions, sélectionnez IA générative > OpenAI, puis faites glisser l\'action OpenAI : MultiModal Chat AI et placez-la dans le canevas.
  2. Renseignez ou sélectionnez les champs suivants :

    OpenAI MultiModal Chat AI

    1. Sélectionnez un grand modèle de langage (LLM) à utiliser pour votre chat multimodal dans la liste déroulante Modèle. Vous pouvez sélectionner les modèles suivants :
      • gpt-4o (par défaut)
      • gpt-4-turbo
      • gpt-4-turbo-2024-04-09
      • GPT-4o-mini
      • GPT-4.1
      • GPT-4.1-mini
      • GPT-4.1-nano
      • o1
      • Autre version prise en charge pour entrer un modèle pris en charge. En plus des modèles listés ci-dessus, vous pouvez explorer une variété d\'autres modèles de prévisualisation textuels pris en charge depuis OpenAI other supported versions.
    2. Saisissez un Message de chat que le modèle va utiliser pour générer une réponse.
      Remarque : Les actions de chat conservent le résultat de l\'action de chat précédente dans la même session. Si vous appelez les actions de chat consécutivement, le modèle peut comprendre les messages consécutifs et les relier au message précédent. Cependant, tout l\'historique du chat est supprimé après la fin de la session.
    3. Sélectionnez une image : Vous pouvez soit choisir Lien d\'image et entrer une URL d\'image, soit sélectionner Charger une image pour charger une image. Dans cet exemple : Une image d\'une fleur violette est jointe à la première instance de l\'OpenAI MultiModal Chat AI action et une image de chien est jointe à la deuxième instance de la même action.
    4. Indiquez le nombre maximal de jetons à générer. Par défaut, si vous ne saisissez pas de valeur, le nombre maximal de jetons générés est automatiquement fixé de manière à respecter la longueur maximale du contexte pour le modèle sélectionné en tenant compte de la longueur de la réponse générée.
    5. Saisissez une Température. Cette valeur fait référence au caractère aléatoire de la réponse. Lorsque la température se rapproche de zéro, la réponse est plus ciblée et déterministe. Plus la valeur est élevée, plus la réponse est aléatoire.
    6. Saisissez le nom de la session pour limiter la session à la session en cours. Utilisez le nom utilisé dans l\'action d\'authentification. Vous pouvez utiliser une variable à la place.
    7. Pour gérer les paramètres facultatifs, sélectionnez Oui sous Afficher plus d\'options pour ajouter d\'autres paramètres tels que : Nombre maximum de messages de chat, Top P, Arrêter, Pénalité de présence, Pénalité de fréquence, Utilisateur, Biais de logit, Format de réponse, et Fidélité de l\'image. Pour plus d\'informations sur ces paramètres facultatifs, voir OpenAI create chat et OpenAI Vision.
      Remarque :
      • Nombre maximum de messages de chat : Ce champ vous permet de limiter le nombre de messages stockés dans l\'historique de chat pour l\'action Multimodal Chat AI. Cela est particulièrement utile lorsque vous travaillez avec plusieurs images, car chaque message contenant une image peut augmenter considérablement la taille de la charge utile. En définissant une limite (entre 0 et  10), vous pouvez optimiser la taille de la session de chat et garantir que les requêtes suivantes se déroulent sans problème. Une valeur de 0 fonctionnera de la même manière qu\'une action Prompt, où aucun historique de chat n\'est conservé. Dans l\'exemple ci-dessus, la valeur est fixée à 3. Cela signifie que l\'historique de chat conservera l\'invite actuelle, la réponse de l\'interaction précédente et la requête de l\'interaction précédente.
      • Fidélité de l\'image : Ce champ vous permet de contrôler la manière dont le modèle traite l\'image et génère sa compréhension textuelle. Pour plus d\'informations, consultez OpenAI Vision.
    8. Enregistrez la réponse dans une variable. Dans cet exemple, la réponse est enregistrée dans OpenAI-Response.
  3. Cliquez sur Exécuter pour démarrer le bot. Vous pouvez lire la valeur du champ en affichant la réponse dans une Zone de message action. Dans cet exemple, OpenAI-Response affiche la réponse.
    Conseil : Pour gérer plusieurs chats dans le même robot, vous devez créer plusieurs sessions avec des variables ou des noms différents.
La réponse à l\'automatisation ci-dessus est la suivante :

Réponse Multimodal OpenAI Chat AI