OpenAI: ação Chat de IA multimodal

O OpenAI: A ação Chat de IA MultiModal permite que você integre OpenAI gpt-4o e os recursos de visão do OpenAI em seus fluxos de trabalho. Isso significa que suas automações agora podem processar e responder perguntas sobre imagens, indo além de apenas interações baseadas em texto.

Pré-requisitos

  • Você deve ter a função de criador de bots para usar a ação Chat de IA MultiModal OpenAI em um bot.
  • Certifique-se de ter as credenciais obrigatórias para enviar uma solicitação e de ter incluído OpenAI: Ação de autenticação antes de chamar qualquer ação do OpenAI.

Esse exemplo mostra como enviar várias imagens usando a ação Chat de IA MultiModal do OpenAI e fazer perguntas sobre o que está presente nas imagens.

Procedimento

  1. Na Automation Anywhere Control Room, acesse o painel Ações, selecione IA generativa > OpenAI, arraste OpenAI: Chat de IA MultiModal e coloque-a na tela.
  2. Insira ou selecione os seguintes campos:

    Chat de IA OpenAI MultiModal

    1. Selecione um grande modelo de linguagem (LLM) para usar em seu chat multimodal no menu suspenso Modelo. É possível selecionar os seguintes modelos:
      • gpt-4o (padrão)
      • gpt-4-turbo
      • gpt-4-turbo-2024-04-09
      • GPT-4o-mini
      • GPT-4.1
      • GPT-4.1-mini
      • GPT-4.1-nano
      • o1
      • Outra versão suportada para inserir outros modelos compatíveis. Além dos modelos listados acima, é possível explorar uma variedade de outros modelos de visualização baseados em texto compatíveis com o OpenAI other supported versions.
    2. Envie uma mensagem no chat para ser usada pelo modelo para gerar uma resposta.
      Nota: As ações de chat manterão o resultado da ação de chat anterior na mesma sessão. Se você chamar ações de chat consecutivamente, o modelo poderá entender as mensagens subsequentes e relacioná-las à mensagem anterior. No entanto, todo o histórico de chat é excluído após o término da sessão.
    3. Selecionar uma imagem: Você pode escolher Link da imagem e inserir um URL de imagem ou selecionar Carregar imagem para carregar uma imagem. Neste exemplo: Uma imagem de uma flor violeta é anexada à primeira instância da ação Chat de IA MultiModal do OpenAI e uma imagem de cachorro é anexada à segunda instância da mesma ação.
    4. Insira o número máximo de tokens para gerar. Por padrão, se você não inserir um valor, o número máximo de tokens gerados será definido automaticamente para ficar no comprimento máximo do contexto do modelo selecionado, considerando o comprimento da resposta gerada.
    5. Digite uma Temperatura. Esse valor se refere à aleatoriedade da resposta. À medida que a temperatura se aproxima de zero, a resposta se torna mais focada e específica. Quanto maior o valor, mais aleatória é a resposta.
    6. Insira o nome da sessão para limitar a sessão à sessão atual. Use o mesmo nome usado na ação Autenticação. Você pode usar uma variável em vez disso.
    7. Para gerenciar os parâmetros opcionais, selecione Sim em Mostrar mais opções para adicionar outros parâmetros, como: Contagem máxima de mensagens de chat, Top P, Parar, Penalidade de Presença, Penalidade de Frequência, Usuário, Viés de Logit, Formato de resposta, e Fidelidade da imagem. Para obter informações sobre esses parâmetros opcionais, consulte OpenAI create chat e OpenAI Vision.
      Nota:
      • Contagem máxima de mensagens do chat: Esse campo permite que você limite o número de mensagens armazenadas no histórico de chat para a ação Chat de IA Multimodal. Isso é particularmente útil quando se trabalha com várias imagens, pois cada mensagem que contém uma imagem pode aumentar consideravelmente o tamanho da carga útil. Ao definir um limite (entre 0 e 10), você pode otimizar o tamanho da sessão de chat e garantir que as solicitações subsequentes sejam executadas sem problemas. Um valor de 0 funcionará de forma idêntica a uma ação Prompt, em que nenhum histórico de chat é mantido. No exemplo acima, o valor é definido como 3. Ou seja, o histórico do chat manterá o prompt atual, a resposta da interação anterior e a solicitação da interação anterior.
      • Fidelidade da imagem: Este campo permite que você controle como o modelo processa a imagem e gera sua compreensão textual. Para obter mais informações, consulte OpenAI Vision.
    8. Salve a resposta em uma variável. Neste exemplo, a resposta é salva como OpenAI-Response.
  3. Clique em Executar para iniciar o bot. Você pode ler o valor do campo imprimindo a resposta em uma ação Caixa de mensagem. Nesse exemplo, OpenAI-Response imprime a resposta.
    Dica: Para manter vários chats no mesmo bot, será necessário criar várias sessões com nomes ou variáveis diferentes.
A resposta da automação acima é a seguinte:

Resposta do Chat de IA OpenAI MultiModal