OpenAI: 多模态聊天 AI 操作

OpenAI: 多模态聊天 AI 操作 允许您将 OpenAI gpt-4o 和 OpenAI 的视觉能力集成到您的工作流中。 这意味着您的自动化现在可以处理和回答有关图像的问题,不再仅限于基于文本的交互。

先决条件

  • 您必须拥有机器人创造程序角色才能在机器人中使用 OpenAI 多模态聊天 AI操作
  • 确保您拥有发送请求所需的凭据,并在调用任何 OpenAI 操作之前包含 OpenAI: 身份验证操作

此示例演示如何使用 OpenAI 多模态聊天 AI 操作 发送多张图片,并询问有关图片中内容的问题。

过程

  1. Automation Anywhere Control Room 中,导航到操作窗格,选择 生成式 AI > OpenAI,拖动 OpenAI: 多模态聊天 AI,并将其放置在画布上。
  2. 输入或选择以下字段:

    OpenAI 多模态聊天 AI

    1. 模型下拉菜单中选择一个大型语言模型 (LLM),用于您的多模态聊天。 您可以选择以下模型:
      • gpt-4o(默认)
      • gpt-4-turbo
      • gpt-4-turbo-2024-04-09
      • gpt-4-vision-preview
      • gpt-4-1106-vision-preview
      • 其他支持的版本以输入支持的模型。 除了上面列出的模型之外,您还可以从 OpenAI other supported versions 中探索各种其他基于文本的受支持预览模型。
    2. 输入聊天消息,以供模型生成回复。
      注: 聊天操作会在同一会话中保留前一个聊天操作的结果。 如果您连续调用聊天操作,模型可以理解后续消息并将其与之前的消息关联起来。 然而,所有聊天记录在会话结束后都会被删除。
    3. 选择图像: 您可以选择图像链接并输入图像 URL,或者选择上传图像来上传图像。 在此示例中: 一张紫色花朵的图像附加到 OpenAI 多模态聊天 AI 操作 的第一个实例,而一张狗的图像附加到同一操作的第二个实例。
    4. 输入要生成的最大令牌数。 默认情况下,如果您不输入值,则生成的最大令牌数会自动设置,以通过考虑生成响应的长度来保持在所选模型的最大上下文长度内。
    5. 输入温度。 该值指的是响应的随机性。 当温度接近零时,响应会更加集中和确定。 该值越高,响应就越随机。
    6. 输入会话名称以将会话限制为当前会话。 使用与身份验证操作中相同的名称。 您可以使用变量代替。
    7. 要管理可选参数,请在显示更多选项下选择以添加其他参数,例如: 最大聊天消息计数Top P停止存在惩罚频率惩罚用户Logit 偏差响应格式图像保真度。 有关这些可选参数的信息,请参阅 OpenAI create chatOpenAI Vision
      注:
      • 最大聊天消息计数: 此字段允许您限制存储在多模态聊天 AI 操作的聊天记录中的消息数量。 这在处理多张图像时特别有用,因为每条包含图像的消息都会显著增加负载大小。 通过设置一个限制(0 到 10 之间),您可以优化聊天会话的大小,并确保后续请求顺利进行。 值为 0 时,其功能与提示操作相同,不会保留聊天记录。 在上述示例中,该值被设置为 3。 这意味着聊天记录将保留当前提示、先前交互的响应以及先前交互的请求。
      • 图像保真度: 此字段允许您控制模型如何处理图像并生成其文本理解。 有关更多信息,请参阅 OpenAI Vision
    8. 将响应保存到变量。 在此示例中,响应被保存到 OpenAI-Response
  3. 单击运行启动 机器人。 您可以通过在 消息框 操作 中打印响应来读取字段的值。 在此示例中,OpenAI-Response 打印响应。
    提示: 要在同一个机器人中维护多个聊天,您需要用不同的名称或变量创建多个会话。
上述自动化的响应如下:

OpenAI 多模态聊天 AI 响应