OpenAI: action MultiModal Chat AI

El OpenAI: La action MultiModal Chat AI le permite integrar OpenAI gpt-4o y las capacidades de visión de OpenAI en sus flujos de trabajo. Esto significa que sus automatizaciones ahora pueden procesar y responder preguntas sobre imágenes, yendo más allá de las interacciones basadas en texto.

Antes de empezar

  • Debe tener el rol Bot creator para usar la action MultiModal Chat AI OpenAI en un bot.
  • Asegúrese de tener las credenciales necesarias para enviar una solicitud y haber incluido OpenAI: Acción Autenticar antes de llamar cualquier acción de OpenAI.

Este ejemplo muestra cómo enviar múltiples imágenes usando la action MultiModal Chat AI OpenAI y hacer preguntas sobre lo que está presente en las imágenes.

Procedimiento

  1. En la Automation Anywhere Control Room, navegue hasta el panel Acciones, seleccione IA generativa > OpenAI, arrastre OpenAI: MultiModal Chat AI, y colóquelo en el lienzo.
  2. Ingrese o seleccione los siguientes campos:

    MultiModal Chat AI OpenAI

    1. Seleccione un modelo de lenguaje extenso (LLM) para usar en su chat multimodal del menú desplegable Modelo. Puede seleccionar los siguientes modelos:
      • gpt-4o (predeterminado)
      • gpt-4-turbo
      • gpt-4-turbo-2024-04-09
      • GPT-4o-mini
      • GPT-4.1
      • GPT-4.1-mini
      • GPT-4.1-nano
      • o1
      • Otra versión compatible para ingresar un modelo compatible. Además de los modelos enumerados anteriormente, puede explorar una variedad de otros modelos de vista previa basados en texto compatibles desde OpenAI other supported versions.
    2. Ingrese un mensaje para que el modelo lo use para generar una respuesta.
      Nota: Las acciones de chat conservan el resultado de la acción de chat anterior dentro de la misma sesión. Si activa las acciones de chat consecutivamente, el modelo puede comprender los mensajes posteriores y relacionarlos con el mensaje anterior. Sin embargo, todo el historial de chat se elimina una vez finalizada la sesión.
    3. Seleccionar una imagen: Puede elegir Enlace de imagen e ingresar la URL de una imagen o seleccionar Cargar imagen para cargar una imagen. En este ejemplo: Se adjunta una imagen de una flor violeta a la primera instancia de la action MultiModal Chat AI OpenAI y se adjunta una imagen de un perro a la segunda instancia de la misma acción.
    4. Ingrese la cantidad máxima de tokens que desea generar. De manera predeterminada, si no ingresa un valor, la cantidad máxima de tokens generados se establece automáticamente para mantenerla dentro de la longitud máxima de contexto del modelo seleccionado considerando la longitud de la respuesta generada.
    5. Introduzca una Temperatura. Este valor se refiere a la aleatoriedad de la respuesta. A medida que la temperatura se acerca a cero, hace que la respuesta sea más focalizada y determinista. Cuanto más alto es el valor, más aleatoria es la respuesta.
    6. Ingrese el nombre de la sesión para limitarla a la sesión actual. Utilice el mismo nombre de la acción de Autenticación. Puede usar una variable en su lugar.
    7. Para administrar los parámetros opcionales, seleccione en Mostrar más opciones, lo que le permitirá agregar otros parámetros, como: Cantidad máxima de mensajes de chat, P superior, Detener, Penalización de presencia, Penalización de frecuencia, Usuario, Sesgo logit, Formato de respuesta y Fidelidad de imagen. Para obtener información acerca de estos parámetros opcionales, consulte OpenAI create chat y OpenAI Vision.
      Nota:
      • Número máximo de mensajes de chat: Este campo le permite limitar la cantidad de mensajes almacenados en el historial de chat para la acción de IA de chat multimodal. Esto es particularmente útil cuando se trabaja con múltiples imágenes, ya que cada mensaje que contiene una imagen puede aumentar significativamente el tamaño de la carga útil. Al establecer un límite (entre 0 y 10), puede optimizar el tamaño de la sesión de chat y garantizar que las solicitudes posteriores se ejecuten sin problemas. Un valor de 0 funcionará de manera idéntica a una acción de Indicador, donde no se mantiene ningún historial de chat. En el ejemplo anterior, el valor se establece en 3. Esto significa que el historial de chat conservará el indicador actual, la respuesta de la interacción anterior y la solicitud de la interacción anterior.
      • Fidelidad de la imagen: Este campo le permite controlar cómo el modelo procesa la imagen y genera su comprensión textual. Para obtener más información, consulte OpenAI Vision.
    8. Guardar la respuesta en una variable. Por ejemplo, la respuesta se guarda en OpenAI-Response.
  3. Haga clic en Ejecutar para iniciar el bot. Podrá leer el valor del campo simplemente mediante la impresión de la respuesta en un Cuadro de mensaje action. En este ejemplo, OpenAI-Response imprime la respuesta.
    Consejo: Para mantener múltiples chats en el mismo bot, deberá crear múltiples sesiones con diferentes nombres o variables.
La respuesta de la automatización anterior es la siguiente:

Respuesta de MultiModal Chat AI de OpenAI