Automation 360

Vertex AI： Multimodal Prompt AI 操作

Download as PDF

Table of Contents

Vertex AI： Multimodal Prompt AI 操作

Download as PDF

Updated: 2025/12/22

Vertex AI: Multimodal Prompt AI 操作使用 Google 的多模态模型，该模型能够处理来自多种模态的信息，包括图像、视频和文本。这种功能使其能够处理复杂的任务，例如描述作为输入的图像和视频的内容。

先决条件

您必须拥有 Bot Creator 角色才能在自动化中使用 Vertex AI： Multimodal Prompt AI 操作。
确保您拥有发送请求所需的凭据，并在调用任何 Google Cloud 操作之前包含 Vertex AI: 连接操作。

此示例展示了如何向该模型发送一盘饼干的照片，并要求它使用 Vertex AI： Multimodal Prompt AI action 生成这些饼干的食谱并获得适当的响应。

过程

在 Automation Anywhere Control Room 中，导航到操作窗格，选择生成式 AI > Google，拖动 Vertex AI： MultiModal Prompt AI，并将其放置在画布上。
输入或选择以下字段：
1. 输入项目编号/名称。这是来自 GCP 的唯一项目 ID。有关项目 ID 的更多信息，请参阅 Google Cloud 项目的项目 ID。
2. 输入位置。有关 Vertex AI 位置的更多信息，请参阅 Vertex AI 位置。
3. 单击发布商下拉菜单并选择谷歌；或者选择第三方以输入第三方发布商。
4. 从模型下拉菜单中选择一个大型语言模型 (LLM) 来使用您的提示。您可以选择以下模型：
  - Gemini Pro Vision（已弃用）
  - Gemini 2.0 Flash-Lite
  - Gemini 2.0 Flash
  - Gemini 2.5 Flash-Lite
  - Gemini 2.5 Flash
  - Gemini 2.5 Pro
5. 输入一个提示，以便模型生成响应。
6. 上传最多十张图片或一个视频。在此示例中，上传的是一个装有几块饼干的盘子的图片。要上传图像，请执行以下操作之一：
  - 选择图像链接并输入图像网址或
  - 选择上传图像，通过文件流（参见使用文件变量进行文件流式传输）、Control Room 文件或桌面文件上传图像。
7. 选择是以上传多个图像。您最多可以上传十个图像。
8. 输入要生成的最大令牌数（最大令牌数）。默认情况下，如果您不输入值，则会通过考虑生成的响应的长度自动设置生成的最大令牌数，以使其保持在所选模型的最大上下文长度内。
9. 输入温度。该值指的是响应的随机性。当温度接近零时，响应会更加集中和确定。该值越高，响应就越随机。
10. 在会话名称中输入 Vertex-Default，以将会话限制为当前会话。输入的名称应与连接到 GCP 时建立的会话匹配。
11. 要管理可选参数，请在显示更多选项下选择是以添加其他参数，例如：Top K 和 Top P。有关这些可选参数的信息，请参阅学习模型。
12. 将响应保存到变量。在此示例中，响应被保存到 VertexMultiModelResponse。
单击运行启动 bot。您可以通过在消息框 action中打印响应来读取字段的值。在此示例中，VertexMultiModelResponse 打印响应。

看看 Vertex AI 的 Multimodal Prompt AI 操作如何解锁新的可能性！观看此视频，了解真实场景。

当以下图像与提示一起作为输入提供时，生成的响应显示在下表中：


提示	响应
生成食谱。	成分： 1 杯通用面粉 1/2 茶匙泡打粉 1/4 茶匙盐 1/2 杯（1 根）无盐黄油，软化 1/2 杯白砂糖 1 个大鸡蛋 1 茶匙香草精 1 杯半甜巧克力豆说明：将烤箱预热至 375 华氏度（190 摄氏度）。在烤盘上铺上一层烘焙纸。在一个中等大小的碗中，将面粉、泡打粉和盐一起搅拌均匀。在一个大碗中，将黄油和糖搅拌至轻盈松软。将鸡蛋和香草精搅拌均匀。逐渐将干料加入湿料中，搅拌至刚刚混合均匀。拌入巧克力豆。将面团用圆汤匙舀到准备好的烤盘上，间隔约 2 英寸。烘烤 10-12 分钟，或直到边缘呈金黄色且中心凝固。在烤盘上冷却几分钟后，再转移到冷却架上完全冷却。