OpenAI: action Multimodal Chat AI

Die OpenAI: „MultiModal Chat AI“-action ermöglicht es Ihnen, OpenAI gpt-4o und die Vision-Fähigkeiten von OpenAI in Ihre Workflows zu integrieren. Das bedeutet, dass Ihre Automatisierungen jetzt Fragen zu Bildern verarbeiten und beantworten können und über textbasierte Interaktionen hinausgehen.

Vorbereitungen

  • Sie benötigen die Bot Creator-Rolle, um die „OpenAI MultiModal Chat AI“-action in einem Bot zu verwenden.
  • Vergewissern Sie sich, dass Sie über die erforderlichen Anmeldedaten zum Senden einer Anfrage verfügen und OpenAI: Aktion „Authentifizieren“ eingeschlossen haben, bevor Sie eine OpenAI-Aktion aufrufen.

Dieses Beispiel zeigt, wie man mehrere Bilder mit der „OpenAI MultiModal Chat AI“-action sendet und Fragen zu den Inhalten der Bilder stellt.

Prozedur

  1. Navigieren Sie im Automation Anywhere Control Room zum Bereich Aktionen, wählen Sie Generative KI > OpenAI und ziehen Sie OpenAI: MultiModal Chat AI auf den Bildschirm.
  2. Geben Sie die folgenden Felder ein oder wählen Sie sie aus:

    OpenAI MultiModal Chat AI

    1. Wählen Sie ein großes Sprachmodell (LLM), das Sie für Ihren multimodalen Chat verwenden möchten, aus der Dropdown-Liste Modell aus. Sie können die folgenden Modelle auswählen:
      • gpt-4o (Standard)
      • gpt-4-turbo
      • gpt-4-turbo-2024-04-09
      • GPT-4o-mini
      • GPT-4.1
      • GPT-4.1-mini
      • GPT-4.1-nano
      • o1
      • Eine Andere unterstützte Version, um ein unterstütztes Modell einzugeben. Zusätzlich zu den oben aufgeführten Modellen können Sie eine Vielzahl anderer unterstützter textbasierter Vorschaumodelle von OpenAI other supported versions erkunden.
    2. Geben Sie eine Chat-Nachricht ein, die das Modell verwenden soll, um eine Antwort zu erzeugen.
      Anmerkung: Die Chat-Aktionen behalten das Ergebnis der vorherigen Chat-Aktion innerhalb derselben Sitzung bei. Wenn Sie Chat-Aktionen nacheinander aufrufen, kann das Modell die nachfolgenden Nachrichten verstehen und sie mit der vorherigen Nachricht in Beziehung setzen. Der gesamte Chatverlauf wird jedoch nach Beendigung der Sitzung gelöscht.
    3. Ein Bild auswählen: Sie können entweder Bildlink auswählen und eine Bild-URL eingeben oder Bild hochladen auswählen, um ein Bild hochzuladen. In diesem Beispiel gilt Folgendes: Ein Bild einer violetten Blume ist an die erste Instanz der „OpenAI MultiModal Chat AI“-action angehängt, und ein Hundebild ist an die zweite Instanz derselben Aktion angehängt.
    4. Geben Sie die maximale Anzahl der zu generierenden Token ein. Wenn Sie keinen Wert eingeben, wird die maximale Anzahl der generierten Token automatisch so festgelegt, dass sie innerhalb der maximalen Kontextlänge des ausgewählten Modells liegt, indem die Länge der generierten Antwort berücksichtigt wird.
    5. Geben Sie eine Temperatur ein. Dieser Wert bezieht sich auf die Beliebigkeit der Antwort. Wenn die Temperatur sich dem Nullpunkt nähert, wird die Antwort gezielter und deterministischer. Je höher der Wert, desto zufälliger ist die Antwort.
    6. Geben Sie den Namen für die Sitzung ein, um die Sitzung auf die aktuelle Sitzung zu beschränken. Verwenden Sie denselben Namen wie bei der Authentifizierung. Sie können stattdessen eine Variable verwenden.
    7. Um die optionalen Parameter zu verwalten, wählen Sie Ja unter Weitere Optionen anzeigen, um weitere Parameter hinzuzufügen, z. B: Maximale Chat-Nachrichtenanzahl, Top P, Stopp, Anwesenheitsstrafe, Häufigkeitsstrafe, Nutzer, Logit-Bias, Antwortformat und Bildtreue. Informationen zu diesen optionalen Parametern finden Sie unter OpenAI create chat und OpenAI Vision.
      Anmerkung:
      • Maximale Anzahl an Chatnachrichten: Mit diesem Feld können Sie die Anzahl der Nachrichten begrenzen, die im Chatverlauf für die Aktion „Multimodal Chat AI“ gespeichert werden. Dies ist besonders nützlich, wenn Sie mit mehreren Bildern arbeiten, da jede Nachricht, die ein Bild enthält, die Größe der Nutzlast erheblich erhöhen kann. Durch Festlegen einer Grenze (zwischen 0–10) können Sie die Größe der Chatsitzung optimieren und sicherstellen, dass nachfolgende Anfragen reibungslos ablaufen. Ein Wert von 0 funktioniert genauso wie eine Prompt-Aktion, bei der kein Chatverlauf gespeichert wird. Im obigen Beispiel ist der Wert auf 3 gesetzt. Das bedeutet, dass der Chatverlauf die aktuelle Eingabe, die Antwort aus der vorherigen Interaktion und die Anfrage aus der vorherigen Interaktion beibehält.
      • Bildtreue: Dieses Feld ermöglicht es Ihnen, zu steuern, wie das Modell das Bild verarbeitet und sein textuelles Verständnis generiert. Weitere Informationen finden Sie unter OpenAI Vision.
    8. Speichern Sie die Antwort in einer Variablen. In diesem Beispiel wird die Antwort in OpenAI-Response gespeichert.
  3. Klicken Sie auf Ausführen, um den bot zu starten. Sie können den Wert des Feldes ablesen, indem Sie die Antwort einfach in einer Nachrichtenfeld-action ausgeben. In diesem Beispiel gibt OpenAI-Response die Antwort aus.
    Tipp: Um mehrere Chats im selben Bot zu verwalten, müssen Sie mehrere Sitzungen mit unterschiedlichen Namen oder Variablen erstellen.
Die Antwort auf die oben genannte Automatisierung lautet wie folgt:

OpenAI MultiModal Chat AI Response