Azure OpenAI: ação Chat de IA multimodal

O Azure OpenAI: A ação Chat de IA multimodal permite que você integre recursos de visão Azure OpenAI gpt-4o e gpt-4 em seus fluxos de trabalho. Isso significa que suas automações agora podem processar e responder perguntas sobre imagens, indo além de apenas interações baseadas em texto.

Pré-requisitos

  • Você deve ter a função de Criador de bots para usar o Azure OpenAI: ação Chat de IA multimodal em uma automação.
  • Certifique-se de ter as credenciais necessárias para enviar uma solicitação e de ter incluído Azure OpenAI: Ação de autenticação antes de chamar qualquer ação do Microsoft Azure OpenAI.

Este exemplo mostra como enviar uma mensagem de linguagem natural usando o Azure OpenAI: ação Chat de IA multimodal e obter uma resposta adequada.

Procedimento

  1. Na Automation Anywhere Control Room, acesse o painel Ações, selecione IA generativa > Microsoft Azure OpenAI, arraste Azure OpenAI: Chat de IA multimodal e coloque-o na tela.
  2. Insira ou selecione os seguintes campos:

    Chat de IA multimodal do Azure OpenAI

    1. Insira o ID da implantação do Azure OpenAI. O ID de Implantação está associado ao modelo de linguagem grande (LLM) que você deseja usar para seu prompt e pode ser copiado da Automation Anywhere Control Room.
    2. Envie uma mensagem no chat para ser usada pelo modelo para gerar uma resposta.
      Nota: As ações de chat manterão o resultado da ação de chat anterior na mesma sessão. Se você chamar ações de chat consecutivamente, o modelo poderá entender as mensagens subsequentes e relacioná-las à mensagem anterior. No entanto, todo o histórico de chat é excluído após o término da sessão.
    3. Selecionar uma imagem: Você pode escolher Link da imagem e inserir uma URL de imagem ou selecionar Carregar imagem para carregar uma imagem.
      Exemplo:

      No exemplo fornecido, uma imagem de uma flor violeta está associada à primeira instância do Azure OpenAI: ação Chat de IA multimodal. A segunda instância usa uma imagem de guepardo, enquanto a terceira instância apresenta três cachorros sentados em um campo cercado por flores brancas (como mostrado na imagem abaixo).

      amostra de cães do chatai multimodal do azure openai

    4. Insira o número máximo de tokens para gerar. Por padrão, se você não inserir um valor, o número máximo de tokens gerados será definido automaticamente para ficar no comprimento máximo do contexto do modelo selecionado, considerando o comprimento da resposta gerada.
    5. Digite uma Temperatura. Esse valor se refere à aleatoriedade da resposta. À medida que a temperatura se aproxima de zero, a resposta se torna mais focada e específica. Quanto maior o valor, mais aleatória é a resposta.
    6. Insira o nome da sessão para limitar a sessão à sessão atual. Use o mesmo nome usado na ação Autenticação. Você pode usar uma variável em vez disso.
    7. Para gerenciar os parâmetros opcionais, selecione Sim em Mostrar mais opções para adicionar outros parâmetros, como: Contagem máxima de mensagens de chat, Top P, Parar, Penalidade de Presença, Penalidade de Frequência, Usuário, Viés de Logit, Formato de resposta, e Fidelidade da imagem. Para obter informações sobre esses parâmetros opcionais, consulte conclusões do Chat do Azure e Open AI.
      Nota:
      • Contagem máxima de mensagens do chat:

        Esta configuração controla quantas mensagens são mantidas no histórico de chat para a ação Chat de IA multimodal. Isso é especialmente importante ao trabalhar com várias imagens, pois cada imagem pode aumentar significativamente o tamanho da mensagem. Ao definir um limite (entre 0 e 10), você pode otimizar o tamanho da sessão de chat e evitar problemas de desempenho.

        • 0: Nenhum histórico de chat é mantido, semelhante a uma ação Prompt.
        • 1-10: O número especificado de mensagens (incluindo o prompt atual e as respostas mais recentes) é retido.

        No exemplo acima, o valor é definido como 4. Isso significa que o histórico de chat incluirá o prompt atual e as respostas das 3 interações anteriores.

      • Detalhe do parâmetro: Este campo permite que você controle como o modelo processa a imagem e gera sua compreensão textual. Para obter mais informações, consulte Azure OpenAI Service REST API reference.
    8. Salve a resposta em uma variável. Neste exemplo, a resposta é salva como AzureOpenAI-MultiModalChat-Response.
  3. Clique em Executar para iniciar a automação. Você pode ler o valor do campo imprimindo a resposta em uma ação da Caixa de mensagem. Neste exemplo, str_chatai-response imprime a resposta.
    Dica: Para manter vários chats no mesmo bot, será necessário criar várias sessões com nomes ou variáveis diferentes.
A resposta da automação acima é a seguinte:

Resposta de IA do Azure OpenAI MultiModal Chat