顶点 AI: Multimodal Prompt AI 操作使用 Google 的多模态模型,该模型能够处理来自多种模态的信息,包括图像、视频和文本。 这种功能使其能够处理复杂的任务,例如描述作为输入的图像和视频的内容。

先决条件

  • 您必须拥有 Bot Creator 角色才能在自动化中使用 Vertex AI: Multimodal Prompt AI 操作。
  • 确保您拥有发送请求所需的凭据,并在调用任何 Google Cloud 操作之前包含 Vertex AI: 连接操作

此示例展示了如何向该模型发送一盘饼干的照片,并要求它使用 Vertex AI: Multimodal Prompt AI 操作 生成这些饼干的食谱并获得适当的响应。

过程

  1. Automation Anywhere Control Room 中,导航到操作窗格,选择生成式 AI > Google,拖动 Vertex AI: MultiModal Prompt AI,并将其放置在画布上。
  2. 输入或选择以下字段:

    Vertex Multimodal Prompt 操作

    1. 输入项目编号/名称。 这是来自 GCP 的唯一 项目 ID。 有关项目 ID 的更多信息,请参阅 Google Cloud 项目的项目 ID
    2. 输入位置。 有关 Vertex AI 位置的更多信息,请参阅 Vertex AI locations
    3. 单击发布商下拉菜单并选择谷歌;或者选择第三方以输入第三方发布商。
    4. 模型下拉菜单中选择一个大型语言模型(LLM)来使用您的提示。 可以选择以下模型: Gemini Pro Vision(目前唯一可用的型号)
    5. 输入一个提示,以便模型生成响应。
    6. 上传最多十张图片或一个视频。 在此示例中,上传的是一个装有几块饼干的盘子的图片。
    7. 选择以上传多张图片。 您最多可以上传十张图片。
    8. 输入要生成的最大令牌数(最大令牌数)。 默认情况下,如果您不输入值,则生成的最大令牌数会自动设置,以通过考虑生成响应的长度来保持在所选模型的最大上下文长度内。
    9. 输入温度。 该值指的是响应的随机性。 当温度接近零时,反应变得更加集中和确定。 值越高,响应就越随机。
    10. 在会话名称中输入 Vertex-Default,以将会话限制为当前会话。 输入的名称应与连接到 GCP 时建立的会话匹配。
    11. 要管理可选参数,请在显示更多选项下选择以添加其他参数,例如:Top KTop P。有关这些可选参数的信息,请参阅学习模型
    12. 将响应保存到变量。 在此示例中,响应被保存到 VertexMultiModelResponse
  3. 单击 Run 启动机器人。 您可以通过在消息框 操作中打印响应来读取字段的值。 在此示例中,VertexMultiModelResponse 打印响应。

看看 Vertex AI 的 Multimodal Prompt AI 操作如何解锁新的可能性!观看此视频,了解真实场景。

当以下图像与提示一起作为输入提供时,生成的响应显示在下表中:

提示 响应
生成食谱。提示-图像-饼干

成分:

  • 1 杯通用面粉
  • 1/2 茶匙泡打粉
  • 1/4 茶匙盐
  • 1/2 杯(1 根)无盐黄油,软化
  • 1/2 杯白砂糖
  • 1 个大鸡蛋
  • 1 茶匙香草精
  • 1 杯半甜巧克力豆

说明:

  • 将烤箱预热至 375 华氏度(190 摄氏度)。
  • 在烤盘上铺上一层烘焙纸。
  • 在一个中等大小的碗中,将面粉、泡打粉和盐一起搅拌均匀。
  • 在一个大碗中,将黄油和糖搅拌至轻盈松软。
  • 将鸡蛋和香草精搅拌均匀。
  • 逐渐将干料加入湿料中,搅拌至刚刚混合均匀。
  • 拌入巧克力豆。
  • 将面团用圆汤匙舀到准备好的烤盘上,间隔约 2 英寸。
  • 烘烤 10-12 分钟,或直到边缘呈金黄色且中心凝固。
  • 在烤盘上冷却几分钟后,再转移到冷却架上完全冷却。