Automation 360

OpenAI: MultiModal Chat AI action

Download as PDF

Table of Contents

OpenAI: MultiModal Chat AI action

Download as PDF

Updated: 2025/12/22

OpenAI: MultiModal Chat AI action

OpenAI： MultiModal Chat AI action 允许您将 OpenAI gpt-4o 和 OpenAI 的视觉能力集成到您的工作流中。这意味着您的自动化现在可以处理和回答有关图像的问题，不再仅限于基于文本的交互。

先决条件

您必须拥有机器人创造程序角色才能在机器人中使用 OpenAI MultiModal Chat AIaction。
确保您拥有发送请求所需的凭据，并在调用任何 OpenAI 操作之前包含 OpenAI: 身份验证操作。

此示例演示如何使用 OpenAI MultiModal Chat AI action 发送多个图像，并询问有关图像中内容的问题。

过程

在 Automation Anywhere Control Room 中，导航到操作窗格，选择生成式 AI > OpenAI，拖动 OpenAI： MultiModal Chat AI，并将其放置在画布上。
输入或选择以下字段：
1. 从模型下拉菜单中选择一个大型语言模型 (LLM)，用于您的多模态聊天。您可以选择以下模型：
  - gpt-4o（默认）
  - gpt-4-turbo
  - gpt-4-turbo-2024-04-09
  - GPT-4o-mini
  - GPT-4.1
  - GPT-4.1-mini
  - GPT-4.1-nano
  - o1
  - 其他支持的版本以输入支持的模型。除了上面列出的模型之外，您还可以从 OpenAI other supported versions 中探索各种其他基于文本的受支持预览模型。
2. 输入聊天消息，以供模型生成响应。
  
  注：聊天操作会在同一会话中保留前一个聊天操作的结果。如果您连续调用聊天操作，模型可以理解后续消息并将其与之前的消息关联起来。然而，所有聊天记录在会话结束后都会被删除。
3. 要上传图像，请执行以下操作之一：
  - 选择图像链接并输入图像网址或
  - 选择上传图像，通过文件流（参见使用文件变量进行文件流式传输）、Control Room 文件或桌面文件上传图像。
  在此示例中：一张紫色花朵的图像附加到 OpenAI MultiModal Chat AI action 的第一个实例，而一张狗的图像附加到同一操作的第二个实例。
4. 输入要生成的最大令牌数。默认情况下，如果您不输入值，则生成的最大令牌数会自动设置，以通过考虑生成响应的长度来保持在所选模型的最大上下文长度内。
5. 输入温度。该值指的是响应的随机性。当温度接近零时，它使反应更加集中和确定。该值越高，响应就越随机。
6. 输入会话名称以将会话限制为当前会话。使用与身份验证操作中相同的名称。您可以使用变量代替。
7. 要管理可选参数，请在显示更多选项下选择是以添加其他参数，例如：最大聊天消息计数、Top P、停止、存在惩罚、频率惩罚、用户、Logit 偏差、响应格式和图像保真度。有关这些可选参数的信息，请参阅 OpenAI create chat 和 OpenAI Vision。
  注：
  - 最大聊天消息计数： 此字段允许您限制存储在多模态聊天 AI 操作的聊天记录中的消息数量。这在处理多张图像时特别有用，因为每条包含图像的消息都会显著增加负载大小。通过设置一个限制（0 到 10 之间），您可以优化聊天会话的大小，并确保后续请求顺利进行。值为 0 时，其功能与提示操作相同，不会保留聊天记录。在上述示例中，该值被设置为 3。这意味着聊天记录将保留当前提示、先前交互的响应以及先前交互的请求。
  - 图像保真度：此字段允许您控制模型如何处理图像并生成其文本理解。有关更多信息，请参阅 OpenAI Vision。
8. 将响应保存到变量。在此示例中，响应被保存到 OpenAI-Response。
单击运行启动 bot。您可以通过在 消息框 action 中打印响应来读取字段的值。在此示例中，OpenAI-Response 打印响应。

提示：要在同一个机器人中维护多个聊天，您需要用不同的名称或变量创建多个会话。

上述自动化的响应如下：

OpenAI MultiModal Chat AI Response