OpenAI: [マルチモーダル チャット AI] action

OpenAI: MultiModal Chat AI action は、あなたのワークフローに OpenAI gpt-4o と OpenAI のビジョン機能を統合することを可能にします。 これは、あなたの自動化が画像に関する質問を処理し、回答できるようになったことを意味します。テキストベースのインタラクションを超えています。

前提条件

  • Bot 作成者ロールを持っている必要があります。OpenAI MultiModal Chat AI actionを Bot で使用するには。
  • OpenAI のアクションを呼び出す前に、リクエストを送信するために必要な認証情報があり、OpenAI: [認証] アクション が含まれていることを確認してください。

この例では、OpenAI マルチモーダルチャットAI action を使用して複数の画像を送信し、画像に存在するものについて質問する方法を示します。

手順

  1. Automation Anywhere Control Roomアクション ペインに移動し、生成 AI > OpenAI を選択し、 OpenAI をドラッグします: マルチモーダル チャット AI をドラッグしてキャンバスに配置します。
  2. 次のフィールドを入力または選択します。

    OpenAI マルチモーダル チャット AI

    1. [モデル] ドロップダウンからマルチモーダルチャットに使用する大規模言語モデル (LLM) を選択します。 以下のモデルを選択できます。
      • gpt-4o (デフォルト)
      • gpt-4-turbo
      • gpt-4-turbo-2024-04-09
      • GPT-4o-mini
      • GPT-4.1
      • GPT-4.1-mini
      • GPT-4.1-nano
      • o1
      • その他のサポートされているバージョン にサポートされているモデルを入力できます。 上記のモデルに加えて、OpenAI other supported versions のサポートされている他のさまざまなテキストベースのプレビューモデルを調べることができます。
    2. モデルが応答を生成するために使用するチャット メッセージ を入力します。
      注: チャット アクションは、同じセッション内で前のチャット アクションの結果を保持します。 チャット アクションを連続して呼び出すと、モデルは後続のメッセージを理解し、前のメッセージに関連付けることができます。 ただし、セッションが終了すると、チャット履歴はすべて削除されます。
    3. 画像を選択してください。 画像リンク を選択して画像の url を入力するか、画像をアップロード を選択して画像をアップロードできます。 この例では: 最初のOpenAI マルチモーダル チャット AI actionのインスタンスには紫色の花の画像が添付されており、同じアクションの2番目のインスタンスには犬の画像が添付されています。
    4. 生成するトークンの最大数を入力します。 デフォルトでは、値を入力しない場合、生成されるトークンの最大数は、生成されるレスポンスの長さを考慮して、選択したモデルの最大コンテキスト長に収まるように自動的に設定されます。
    5. [Temperature (温度)] を入力します。 この値は、レスポンスのランダム性を示します。 温度がゼロに近づくにつれて、レスポンスはより焦点化され、決定的になります。 値が高いほど、よりランダムなレスポンスとなります。
    6. セッションの名前を入力して、セッションを現在のセッションに限定します。 認証アクションに使用したのと同じ名前を使用します。 変数を代わりに使用することができます。
    7. 任意のパラメータを管理するには、はいを選択してその他のオプションを表示の下に、次のような他のパラメータを追加します: 最大チャットメッセージ数Top P停止存在ペナルティ頻度ペナルティユーザーロジットバイアス応答形式、および画像忠実度。 これらの任意のパラメーターの詳細については、OpenAI create chatおよびOpenAI Visionを参照してください。
      注:
      • 最大チャットメッセージ数: このフィールドでは、マルチモーダル チャット AI アクションのチャット履歴に保存されるメッセージの数を制限できます。 これは複数の画像を扱う際に特に有用であり、画像を含む各メッセージがペイロードサイズを大幅に増加させる可能性があります。 制限を設定することで(0〜10の範囲内)、チャットセッションのサイズを最適化し、その後のリクエストがスムーズに実行されるようにできます。 値が 0 の場合、チャット履歴が保持されないプロンプトアクションと同様に機能します。 上記の例では、値は3に設定されています。 これは、チャット履歴が現在のプロンプト、前回のインタラクションからの応答、および前回のインタラクションからのリクエストを保持することを意味します。
      • 画像の忠実度: このフィールドでは、モデルが画像を処理し、そのテキスト理解を生成する方法を制御できます。 詳細については、OpenAI Visionを参照してください。
    8. レスポンスを変数に保存します。 この例では、レスポンスは OpenAI-Response に保存されます。
  3. 実行 をクリックして、bot を開始します。 メッセージ ボックス actionでレスポンスを印刷することで、フィールドの値を読み取ることができます。 この例では、OpenAI-Response がレスポンスを印刷します。
    ヒント: 同じ Bot で複数のチャットを維持するには、異なる名前や変数で複数のセッションを作成する必要があります。
上記の自動化の応答は次のとおりです:

OpenAI マルチモーダル チャット AI レスポンス