Azure OpenAI: [マルチモーダル チャット AI] アクション

Azure OpenAI: MultiModal Chat AI アクション は、あなたのワークフローに Azure OpenAI gpt-4ogpt-4 のビジョン機能を統合することを可能にします。 これは、あなたの自動化が画像に関する質問を処理し、回答できるようになったことを意味します。テキストベースのインタラクションを超えています。

前提条件

  • を使用するには、Bot Creator ロールが必要です。 Azure OpenAI: オートメーションにおけるマルチモーダル チャット AI アクション
  • Microsoft Azure OpenAI のアクションを呼び出す前に、リクエストを送信するために必要な認証情報があり、Azure OpenAI: [認証] アクション が含まれていることを確認してください。

この例では、Azure OpenAI を使用して自然言語メッセージを送信する方法を示します。 マルチモーダル チャット AI アクションを使用して、適切なレスポンスを得る方法について説明します。

手順

  1. Automation Anywhere Control Room で [アクション] ペインに移動し、[生成 AI] > [Microsoft Azure OpenAI] を選択し、[ Azure OpenAI: [マルチモーダル チャット AI] をドラッグしてキャンバスに配置します。
  2. 以下のフィールドを入力または選択します。

    Azure OpenAI マルチモーダル チャット AI

    1. [Azure OpenAI] から [デプロイ ID] を入力します。 デプロイメントID は、プロンプトに使用したい大規模言語モデル(LLM)に関連付けられており、Automation Anywhere Control Room からコピーできます。
    2. モデルが応答を生成するために使用するチャット [メッセージ] を入力します。
      注: チャット アクションは、同じセッション内で前のチャット アクションの結果を保持します。 チャット アクションを連続して呼び出すと、モデルは後続のメッセージを理解し、前のメッセージに関連付けることができます。 ただし、セッションが終了すると、チャット履歴はすべて削除されます。
    3. 画像を選択してください。 画像リンク を選択して画像のURLを入力するか、画像をアップロード を選択して画像をアップロードできます。
      例:

      提供された例では、紫色の花の画像が Azure OpenAI の最初のインスタンスに関連付けられています。 [マルチモーダル チャット AI] アクション. 第二のインスタンスはチーターの画像を使用しており、第三のインスタンスは白い花に囲まれた野原に座っている三匹の犬を特徴としています(下の画像に示されています)。

      マルチモーダルチャットAI犬サンプル

    4. 生成するトークンの最大数を入力します。 デフォルトでは、値を入力しない場合、生成されるトークンの最大数は、生成されるレスポンスの長さを考慮することで、選択されたモデルのコンテキストの最大長に収まるように自動的に設定されます。
    5. [Temperature (温度)] を入力します。 この値は、レスポンスのランダム性を示します。 温度がゼロに近づくにつれて、レスポンスの焦点がより絞り込まれ、決定的になります。 値が高いほど、よりランダムなレスポンスとなります。
    6. セッションの名前を入力し、セッションを現在のセッションに限定します。 認証アクションに使用するものと同じ名前を使用します。 変数を代わりに使用することができます。
    7. オプションのパラメーターを管理するには、[その他のオプションを表示] で [はい] を選択し、次のような他のパラメーターを追加します。 最大チャットメッセージ数Top P停止存在ペナルティ頻度ペナルティユーザーロジットバイアス応答形式、および画像忠実度。 これらのオプション パラメーターの詳細については、Azure Open AI チャットの完了を参照してください。
      注:
      • 最大チャットメッセージ数:

        この設定では、マルチモーダルチャットAIアクションのチャット履歴に保持されるメッセージの数を管理します。 複数の画像を扱う際に特に重要であり、各画像がメッセージサイズを大幅に増加させる可能性があります。 制限を設定することで(0から10の範囲内)、チャットセッションのサイズを最適化し、パフォーマンスの問題を防ぐことができます。

        • 0: チャット履歴は保持されず、プロンプトアクションに似ています。
        • 1-10: 指定されたメッセージの数(現在のプロンプトと最も最近の応答を含む)が保持されます。

        上記の例では、値は4に設定されています。 これは、チャット履歴が現在のプロンプトと前回の3つのインタラクションからの応答を含むことを意味します。

      • 詳細パラメーター: このフィールドでは、モデルが画像を処理し、そのテキスト理解を生成する方法を制御できます。 詳細については、「Azure OpenAI Service REST API reference」を参照してください。
    8. 変数にレスポンスを保存します。 この例では、レスポンスは AzureOpenAI-MultiModalChat-Response に保存されます。
  3. [実行] をクリックしてオートメーションを開始します。 メッセージ ボックス アクションでレスポンスを印刷することで、フィールドの値を読み取ることができます。 この例では、str_chatai-response がレスポンスを印刷します。
    ヒント: 同じ Bot で複数のチャットを維持するには、異なる名前や変数で複数のセッションを作成する必要があります。
上記のオートメーションのレスポンスを次に示します。

Azure OpenAI マルチモーダルチャットAIレスポンス