Automation 360

Anthropic: マルチモーダル AI action

PDF としてダウンロード

コンテンツ

Anthropic: マルチモーダル AI action

PDF としてダウンロード

最終更新日2026/03/02

Anthropic: マルチモーダル AI action

Anthropic: マルチモーダル AI actionでは Amazon Bedrock Anthropic の Claude 3 モデルにオートメーションを接続し、入力として提供された画像の内容を記述するなどの複雑なタスクを処理できます。

前提条件

Anthropic を使用するには、Bot 作成者ロールを持っている必要があります : Bot のマルチモーダル AI アクション。
リクエストを送信するために必要な資格情報があることを確認してください。資格情報の取得についての詳細は、Amazon Bedrock: 認証actionを参照してください。

この例では、Claude 3 モデルに特定の画像を送り、的を絞った質問をして、その内容に基づいて適切な回答を生成する方法を紹介します。

手順

Control Room でアクションペインに移動し、生成 AI > Amazon Bedrock を選択し、Anthropic をドラッグします: マルチモーダル AI をドラッグしてキャンバスに配置します。
次のフィールドを入力または選択します。
1. 地域を入力します。地域の詳細については、Amazon Bedrock GA の地域を参照してください。
2. モデルドロップダウンからプロンプトに使用する大規模言語モデル (LLM) を選択します。以下のモデルを選択できます。
  - Claude 3 Sonnet v1
  - Claude 3 Haiku v1
  - その他の対応バージョン: 他の対応バージョンを使用すると、Amazon Bedrock によってサポートされている任意の Anthropic Claude モデルのモデル ID を入力できます。このモデルは Claude 3 モデルと同じリクエストおよびレスポンス形式に従います。 Anthropic Claude モデルに関するサポートされているリクエストおよびレスポンススキーマの詳細については、Amazon Bedrock documentationを参照してください。
  この例では、Claude 3 Sonnet v1が選択されています。
3. モデルが応答を生成するためのプロンプトを入力してください。
4. 画像を 5 枚までアップロードします。この例では、草原に3匹の犬がいる画像を使用します。画像をアップロードするには、次のいずれかの方法を実行してください。
  - 画像リンクを選択し、画像の URL を入力してください。
  - 画像をアップロードを選択して、ファイルストリーム（ファイル変数を使用したファイルストリーミングを参照）または Control Room ファイル、デスクトップファイル経由で画像をアップロードします。
5. はいを選択して、複数の画像をアップロードします。画像は 5 枚までアップロードできます。
6. 最長を入力します。
  デフォルトでは、値を入力しない場合、最大長は、生成されるレスポンスの長さを考慮して、選択したモデルの最大コンテキスト長に収まるように自動的に設定されます。
7. Temperature (温度) を入力します。この値は、レスポンスのランダム性を示します。温度がゼロに近づくにつれて、レスポンスが具体的になります。値が高いほど、よりランダムなレスポンスとなります。
8. セッションの名前を入力して、セッションを現在のセッションに限定します。認証アクションで使用したのと同じ名前を使用します。
9. 任意のパラメーターを管理するには、その他のオプションを表示をクリックし、はいを選択します。はいを選択した場合、他のパラメーターを追加することができます。システムプロンプト、Top P、Top K、指示を追加、シーケンスを停止などのパラメーターを追加するか、Anthropic バージョンを入力できます。これらの任意のパラメーターについては、Learn Modelsを参照してください。
  
  注: Claude 3 モデルはシステムプロンプトを受け入れます。従来の指示とは異なり、システムプロンプトは構造化された方法によって Claude 3 を導きます。 Claude 3 が単に一連の命令に従うのではなく、プロンプトの背後にある意図を理解し、その目標を達成するための応答を生成するようにトレーニングされているためです。
10. レスポンスを変数に保存します。
  この例では、レスポンスは multiModalResponse に保存されます。
実行をクリックして、bot を開始します。
メッセージボックス actionでレスポンスを印刷することで、フィールドの値を読み取ることができます。この例では、multiModalResponse がレスポンスを印刷します。

次の画像がプロンプトと一緒に入力として提供されると、生成された応答は以下の表に示されます:


プロンプト	レスポンス
画像の説明	画像では、3匹の愛らしい子犬が屋外の草原で一緒に走っています。オーストラリアンシェパードか、それに似たタイプの牧畜犬種のようです。毛は、黒、白、褐色のミックスです。子犬たちは耳が垂れており、エネルギーに満ちあふれていて、広場を駆け回ってはしゃいでいる瞬間を撮影しました。背後は少しぼかした設定で、手前の生き生きと楽しそうな子犬たちに焦点が合っています。この画像は、遊び好きな子犬の幸福感、若々しさ、純粋な楽しさを伝えています。