Automation 360

Anthropic: action „Multimodal AI“

Als PDF herunterladen

Inhalte

Anthropic: action „Multimodal AI“

Als PDF herunterladen

Zuletzt aktualisiert2026/03/02

Anthropic: action „Multimodal AI“

Die Aktion „Anthropic: Multimodale KI action verbindet Ihre Automatisierung mit den Claude 3-Modellen von Amazon Bedrock Anthropic, die komplexe Aufgaben bewältigen können, wie zum Beispiel das Beschreiben von als Eingaben bereitgestellten Bildern.

Vorbereitungen

Sie benötigen die Bot Creator-Rolle zur Verwendung der Aktion „Anthropic: Multimodal AI“ in einem Bot.
Vergewissern Sie sich, dass Sie über die erforderlichen Anmeldedaten verfügen, um eine Anfrage zu senden. Weitere Informationen zum Erhalt der Anmeldedaten finden Sie unter Amazon Bedrock: action „Authentifizieren“.

Dieses Beispiel zeigt, wie Sie ein bestimmtes Bild an das Claude 3-Modell senden und gezielte Fragen stellen können, die auf Grundlage des Inhalts relevante Antworten generieren.

Prozedur

Navigieren Sie im Control Room zum Fenster Aktionen, wählen Sie Generative KI > Amazon Bedrock und ziehen Sie Anthropic: Multimodal AI auf den Bildschirm.
Geben Sie die folgenden Felder ein oder wählen Sie sie aus:
1. Geben Sie die Region ein. Informationen zur Region finden Sie unter Amazon Bedrock GA-Regionen.
2. Wählen Sie ein großes Sprachmodell (LLM), das Sie für Ihren Chat verwenden möchten, aus der Dropdown-Liste Modell aus. Sie können die folgenden Modelle auswählen:
  - Claude 3 Sonnet v1
  - Claude 3 Haiku v1
  - Andere unterstützte Version: Die Option Andere unterstützte Version ermöglicht es Ihnen, die Modell-ID eines beliebigen von Amazon Bedrock unterstützten Anthropic-Claude-Modells einzugeben, das das gleiche Anfrage- und Antwortformat wie Claude 3-Modelle verwendet. Für Details zum unterstützten Anfrage- und Antwortschema siehe die Amazon Bedrock-Dokumentation für Anthropic-Claude-Modelle.
  In diesem Beispiel wird das Claude 3 Sonnet v1 ausgewählt.
3. Geben Sie eine Eingabeaufforderung ein, auf die das Modell eine Antwort generieren soll.
4. Laden Sie bis zu fünf Bilder hoch. In diesem Beispiel wird ein Bild mit drei Hunden auf einer Wiese verwendet. Um die Bilder hochzuladen, führen Sie eine der folgenden Aktionen aus:
  - Wählen Sie Bildlink und geben Sie eine Bild-URL ein oder
  - Wählen Sie Bild hochladen, um ein Bild über einen Dateistream (siehe Dateistreaming mit Dateivariable), eine Control Room-Datei oder eine Desktop-Datei hochzuladen.
5. Wählen Sie Ja aus, um mehrere Bilder hochzuladen. Sie können bis zu fünf Bilder hochladen.
6. Geben Sie einen Wert für Maximale Länge ein.
  Wenn Sie keinen Wert eingeben, wird die maximale Länge automatisch so festgelegt, dass sie innerhalb der maximalen Kontextlänge des ausgewählten Modells liegt, indem die Länge der generierten Antwort berücksichtigt wird.
7. Geben Sie eine Temperatur ein. Dieser Wert bezieht sich auf die Beliebigkeit der Antwort. Wenn sich die Temperatur dem Nullpunkt nähert, wird die Antwort spezifisch. Je höher der Wert, desto zufälliger ist die Antwort.
8. Geben Sie den Namen für die Sitzung ein, um die Sitzung auf die aktuelle Sitzung zu beschränken. Verwenden Sie denselben Namen wie bei der Authentifizierung.
9. Um die optionalen Parameter zu verwalten, klicken Sie auf Weitere Optionen anzeigen und wählen Sie Ja. Wenn Sie Ja wählen, können Sie weitere Parameter hinzufügen, wie z. B.: System-Eingabeaufforderung, Top P, Top K, Anweisungen hinzufügen, Sequenzen anhalten, oder geben Sie eine Anthropic-Version ein. Informationen zu diesen optionalen Parametern finden Sie unter Lernmodelle.
  
  Anmerkung: Claude 3-Modelle akzeptieren System-Eingabeaufforderungen. Im Gegensatz zu herkömmlichen Anweisungen bieten System-Eingabeaufforderungen eine strukturierte Möglichkeit, Claude 3 zu lenken. Das liegt daran, dass Claude 3 darauf trainiert ist, die Absicht hinter Ihrer Eingabeaufforderung zu verstehen und Antworten zu generieren, die dieses Ziel erfüllen, statt einfach nur eine Reihe von Befehlen abzuarbeiten.
10. Speichern Sie die Antwort in einer Variablen.
  In diesem Beispiel wird die Antwort in multiModalResponse gespeichert.
Klicken Sie auf Ausführen, um den bot zu starten.
Sie können den Wert des Feldes ablesen, indem Sie die Antwort einfach in einer Nachrichtenfeld-action ausgeben. In diesem Beispiel gibt multiModalResponse die Antwort aus.

Wenn neben der Eingabeaufforderung das folgende Bild als Eingabe verwendet wird, wird die in der nachstehenden Tabelle dargestellte Antwort generiert:


Eingabeaufforderung	Antwort
Bild erklären	Das Bild zeigt drei entzückende Hundewelpen, die gemeinsam auf einer Wiese herumlaufen. Sie scheinen einer Hütehunderasse anzugehören, möglicherweise Australian Shepherds oder eine ähnliche Rasse. Ihr Fell ist ein Gemisch aus schwarzen, weißen und hellbraunen Farben. Die Welpen haben Schlappohren und sind voller Energie. Die Aufnahme zeigt sie beim spielerischen Herumtollen auf der Wiese. Der Hintergrund ist leicht unscharf, so dass der Fokus auf den lebhaften und fröhlichen Welpen im Vordergrund liegt. Das Bild vermittelt ein Gefühl von Lebensfreude, Jugend und dem puren Spaß, den man mit verspielten jungen Hunden verbindet.

Zurück

Kein vorheriges Thema

Weiter

Kein nächstes Thema

Zurück

Kein vorheriges Thema

Weiter

Kein nächstes Thema