Azure OpenAI: MultiModal Chat AI action

Azure OpenAI: MultiModal Chat AI action 允许您将 Azure OpenAI gpt-4ogpt-4 的视觉能力集成到您的工作流中。 这意味着您的自动化现在可以处理和回答有关图像的问题,不再仅限于基于文本的交互。

先决条件

  • 您必须拥有 Bot Creator 角色才能在自动化中使用 Azure OpenAI: MultiModal Chat AI action
  • 在调用任何 Microsoft Azure OpenAI 操作之前,请确保您拥有发送请求所需的凭据并且已包含 Azure OpenAI: 身份验证操作

此示例展示了如何使用 Azure OpenAI: MultiModal Chat AI action 发送自然语言消息并获得适当的响应。

过程

  1. Automation Anywhere Control Room 中,导航到操作窗格,选择生成式人工智能 > Microsoft Azure OpenAI,拖动 Azure OpenAI: Multimodal Chat AI,并将其放置在画布上。
  2. 输入或选择以下字段:

    Azure OpenAI MultiModal Chat AI

    1. 请输入来自 Azure OpenAI部署 ID部署 ID 与您要用于提示的大型语言模型 (LLM) 相关联,可以从 Automation Anywhere Control Room 中复制。
    2. 输入聊天消息,以供模型生成响应。
      注: 聊天操作会在同一会话中保留前一个聊天操作的结果。 如果您连续调用聊天操作,模型可以理解后续消息并将其与之前的消息关联起来。 然而,所有聊天记录在会话结束后都会被删除。
    3. 选择图像: 您可以选择图像链接并输入图像 URL,或者选择上传图像来上传图像。
      示例:

      在提供的示例中,一朵紫色花的图像与 Azure OpenAI: MultiModal Chat AI action 的第一个实例相关联。 第二个示例使用的是猎豹图片,而第三个示例则是三只狗坐在一片被白色花朵环绕的田野中(如下图所示)。

      Azure OpenAI Multimodal Chat AI 狗样本

    4. 输入要生成的最大令牌数。 默认情况下,如果您不输入值,则生成的最大令牌数会自动设置,以通过考虑生成响应的长度来保持在所选模型的最大上下文长度内。
    5. 输入温度。 该值指的是响应的随机性。 当温度接近零时,它使反应更加集中和确定。 该值越高,响应就越随机。
    6. 输入会话名称以将会话限制为当前会话。 使用与身份验证操作中相同的名称。 您可以使用变量代替。
    7. 要管理可选参数,请在显示更多选项下选择以添加其他参数,例如: 最大聊天消息计数Top P停止存在惩罚频率惩罚用户Logit 偏差响应格式图像保真度。 有关这些可选参数的信息,请参阅 Azure Open AI Chat 完成
      注:
      • 最大聊天消息计数:

        此设置控制 Multimodal Chat AI 操作的聊天记录中保留多少条消息。 这在处理多张图像时尤为重要,因为每张图像都可能显著增加消息的大小。 通过设置限制(0 到 10 之间),可以优化聊天会话大小,防止出现性能问题。

        • 0: 与 Prompt 操作类似,不保留聊天记录。
        • 1-10: 保留指定数量的信息(包括当前提示和最新回复)。

        在上述示例中,该值被设置为 4。 这意味着聊天历史记录将包括当前提示和前 3 次互动的回复。

      • 详细参数: 此字段允许您控制模型如何处理图像并生成其文本理解。 有关更多信息,请参阅 Azure OpenAI Service REST API reference
    8. 将响应保存到变量。 在此示例中,响应被保存到 AzureOpenAI-MultiModalChat-Response
  3. 单击运行以启动自动化。 您可以通过打印消息框 action中的响应来读取字段的值。 在此示例中,str_chatai-response 打印响应。
    提示: 要在同一个机器人中维护多个聊天,您需要用不同的名称或变量创建多个会话。
上述自动化的响应如下:

Azure OpenAI MultiModal Chat AI 响应