Azure OpenAI: acción MultiModal Chat AI

El Azure OpenAI: La acción MultiModal Chat AI le permite integrar las capacidades de visión de gpt-4o y gpt-4 de Azure OpenAI en sus flujos de trabajo. Esto significa que sus automatizaciones ahora pueden procesar y responder preguntas sobre imágenes, yendo más allá de las interacciones basadas en texto.

Antes de empezar

  • Debe tener el rol Bot Creator para usar Azure OpenAI: acción MultiModal Chat AI en una automatización.
  • Asegúrese de tener las credenciales necesarias para enviar una solicitud y haber incluido Azure OpenAI: Acción Autenticar antes de invocar cualquier acción de Microsoft Azure OpenAI.

Este ejemplo muestra cómo enviar un mensaje en lenguaje natural mediante Azure OpenAI: acciónMultiModal Chat AI y obtener una respuesta adecuada.

Procedimiento

  1. En Automation Anywhere Control Room, vaya al panel Acciones, seleccione IA generativa > Microsoft Azure OpenAI, arrastre Azure OpenAI: Multimodal Chat AI, y colóquelo en el lienzo.
  2. Ingrese o seleccione los siguientes campos:

    MultiModal Chat AI de Azure OpenAI

    1. Ingrese el ID de implementación de Azure OpenAI. El ID de implementación está asociado al modelo de lenguaje extenso (LLM) que desea usar para su solicitud y se puede copiar desde la Automation Anywhere Control Room.
    2. Ingrese un mensaje para que el modelo lo use para generar una respuesta.
      Nota: Las acciones de chat conservan el resultado de la acción de chat anterior dentro de la misma sesión. Si activa las acciones de chat consecutivamente, el modelo puede comprender los mensajes posteriores y relacionarlos con el mensaje anterior. Sin embargo, todo el historial de chat se elimina una vez finalizada la sesión.
    3. Seleccionar una imagen: Puede elegir Enlace de imagen e ingresar la URL de una imagen o seleccionar Cargar imagen para cargar una imagen.
      Ejemplo:

      En el ejemplo proporcionado, una imagen de una flor violeta está asociada a la primera instancia de Azure OpenAI: acción MultiModal Chat AI. La segunda instancia utiliza una imagen de un guepardo, mientras que la tercera instancia presenta una imagen de tres perros sentados en un campo rodeados de flores blancas (como se muestra en la imagen a continuación).

      imagen de perros de multimodal chatai de azure openai

    4. Ingrese la cantidad máxima de tokens que desea generar. De manera predeterminada, si no ingresa un valor, la cantidad máxima de tokens generados se establece automáticamente para mantenerla dentro de la longitud máxima de contexto del modelo seleccionado considerando la longitud de la respuesta generada.
    5. Introduzca una Temperatura. Este valor se refiere a la aleatoriedad de la respuesta. A medida que la temperatura se acerca a cero, hace que la respuesta sea más focalizada y determinista. Cuanto más alto es el valor, más aleatoria es la respuesta.
    6. Ingrese el nombre de la sesión para limitarla a la sesión actual. Utilice el mismo nombre de la acción de Autenticación. Puede usar una variable en su lugar.
    7. Para administrar los parámetros opcionales, seleccione en Mostrar más opciones, lo que le permitirá agregar otros parámetros, como: Cantidad máxima de mensajes de chat, P superior, Detener, Penalización de presencia, Penalización de frecuencia, Usuario, Sesgo logit, Formato de respuesta y Fidelidad de imagen. Para obtener información sobre estos parámetros opcionales, consulte Conclusiones de Azure Open AI Chat.
      Nota:
      • Número máximo de mensajes de chat:

        Esta configuración controla cuántos mensajes se mantienen en el historial de chat de la acción Multimodal Chat AI. Esto es especialmente importante cuando se trabaja con varias imágenes, ya que cada imagen puede aumentar significativamente el tamaño del mensaje. Al establecer un límite (entre 0 y 10), puede optimizar el tamaño de la sesión de chat y prevenir problemas de rendimiento.

        • 0: No se mantiene un historial de chat, similar a una acción de indicador.
        • 1-10: Se conserva el número especificado de mensajes (incluido el indicador actual y las respuestas más recientes).

        En el ejemplo anterior, el valor se establece en 4. Esto significa que el historial de chat incluirá el indicador actual y las respuestas de las 3 interacciones anteriores.

      • Parámetro detallado: Este campo le permite controlar cómo el modelo procesa la imagen y genera su comprensión textual. Para obtener más información, consulte Azure OpenAI Service REST API reference.
    8. Guardar la respuesta en una variable. Por ejemplo, la respuesta se guarda en AzureOpenAI-MultiModalChat-Response.
  3. Haga clic en Ejecutar para iniciar la automatización. Podrá leer el valor del campo simplemente mediante la impresión de la respuesta en una acción Cuadro de mensaje. En este ejemplo, str_chatai-response imprime la respuesta.
    Consejo: Para mantener múltiples chats en el mismo bot, deberá crear múltiples sesiones con diferentes nombres o variables.
La respuesta de la automatización anterior es la siguiente:

Respuesta de MultiModal Chat AI de Azure OpenAI