Azure OpenAI: Aktion Multimodal Chat AI

Die Azure OpenAI: MultiModal Chat AI-Aktion ermöglicht es Ihnen, Azure OpenAI gpt-4o und gpt-4 Vision-Fähigkeiten in Ihre Arbeitsabläufe zu integrieren. Das bedeutet, dass Ihre Automatisierungen jetzt Fragen zu Bildern verarbeiten und beantworten können und über textbasierte Interaktionen hinausgehen.

Vorbereitungen

  • Sie benötigen die Bot Creator-Rolle zur Verwendung der Aktion „Azure OpenAI: MultiModal Chat AI-Aktion in einer Automatisierung.
  • Vergewissern Sie sich, dass Sie über die erforderlichen Anmeldeinformationen zum Senden einer Anfrage verfügen und Azure OpenAI: Aktion „Authentifizieren“ eingeschlossen haben, bevor Sie eine Microsoft Azure OpenAI-Aktion aufrufen.

In diesem Beispiel wird beschrieben, wie Sie mit Hilfe von Azure OpenAI eine Nachricht in natürlicher Sprache versenden: MultiModal Chat AI-Aktion und eine angemessene Antwort erhalten.

Prozedur

  1. Navigieren Sie im Automation Anywhere Control Room zum Bereich Aktionen, wählen Sie Generative KI > Microsoft Azure OpenAI und ziehen Sie Azure OpenAI: Multimodal Chat AI und platzieren Sie es auf dem Bildschirm.
  2. Geben Sie die folgenden Felder ein oder wählen Sie sie aus:

    Azure OpenAI MultiModal Chat AI

    1. Geben Sie die Bereitstellungs-ID von der Azure OpenAI ein. Der Bereitstellungs-ID ist mit dem großen Sprachmodell (LLM) verknüpft, das Sie für Ihre Eingabeaufforderung verwenden möchten, und kann aus dem Automation Anywhere Control Room kopiert werden.
    2. Geben Sie eine Chat-Nachricht ein, die das Modell verwenden soll, um eine Antwort zu erzeugen.
      Anmerkung: Die Chat-Aktionen behalten das Ergebnis der vorherigen Chat-Aktion innerhalb derselben Sitzung bei. Wenn Sie Chat-Aktionen nacheinander aufrufen, kann das Modell die nachfolgenden Nachrichten verstehen und sie mit der vorherigen Nachricht in Beziehung setzen. Der gesamte Chatverlauf wird jedoch nach Beendigung der Sitzung gelöscht.
    3. Ein Bild auswählen: Sie können entweder Bildlink auswählen und eine Bild-URL eingeben oder Bild hochladen auswählen, um ein Bild hochzuladen.
      Beispiel:

      Im bereitgestellten Beispiel wird ein Bild einer violetten Blume mit d eerrsten Instanz des Azure OpenAI in Verbindung gebracht: MultiModal Chat AI-Aktion. Die zweite Instanz verwendet ein Gepardenbild, während die dritte Instanz drei Hunde zeigt, die in einem Feld sitzen, umgeben von weißen Blumen (wie im Bild unten zu sehen).

      azure openai multimodal chatai dogs sample

    4. Geben Sie die maximale Anzahl der zu generierenden Token ein. Wenn Sie keinen Wert eingeben, wird die maximale Anzahl der generierten Token automatisch so festgelegt, dass sie innerhalb der maximalen Kontextlänge des ausgewählten Modells liegt, indem die Länge der generierten Antwort berücksichtigt wird.
    5. Geben Sie eine Temperatur ein. Dieser Wert bezieht sich auf die Beliebigkeit der Antwort. Wenn die Temperatur sich dem Nullpunkt nähert, wird die Antwort gezielter und deterministischer. Je höher der Wert, desto zufälliger ist die Antwort.
    6. Geben Sie den Namen für die Sitzung ein, um die Sitzung auf die aktuelle Sitzung zu beschränken. Verwenden Sie denselben Namen wie bei der Authentifizierung. Sie können stattdessen eine Variable verwenden.
    7. Um die optionalen Parameter zu verwalten, wählen Sie Ja unter Weitere Optionen anzeigen, um weitere Parameter hinzuzufügen, z. B: Maximale Chat-Nachrichtenanzahl, Top P, Stopp, Anwesenheitsstrafe, Häufigkeitsstrafe, Nutzer, Logit-Bias, Antwortformat und Bildtreue. Informationen zu diesen optionalen Parametern finden Sie unter Azure Open KI Chat-Vervollständigungen.
      Anmerkung:
      • Maximale Anzahl an Chatnachrichten:

        Diese Einstellung steuert, wie viele Nachrichten im Chatverlauf für die Multimodal Chat AI-Aktion gespeichert werden. Dies ist besonders wichtig, wenn man mit mehreren Bildern arbeitet, da jedes Bild die Nachrichtengröße erheblich erhöhen kann. Durch Festlegen einer Grenze (zwischen 0 und 10) können Sie die Größe der Chatsitzung optimieren und Leistungsprobleme verhindern.

        • 0: Kein Chatverlauf wird gespeichert, ähnlich wie bei einer Eingabeaufforderung.
        • 1-10: Die angegebene Anzahl von Nachrichten (einschließlich der aktuellen Eingabeaufforderung und der neuesten Antworten) wird beibehalten.

        Im obigen Beispiel ist der Wert auf 4 gesetzt. Das bedeutet, dass der Chatverlauf die aktuelle Eingabe und die Antworten aus den vorherigen 3 Interaktionen enthält.

      • Detailparameter: Dieses Feld ermöglicht es Ihnen, zu steuern, wie das Modell das Bild verarbeitet und sein textuelles Verständnis generiert. Weitere Informationen finden Sie unter Azure OpenAI Service REST API reference.
    8. Speichern Sie die Antwort in einer Variablen. In diesem Beispiel wird die Antwort in AzureOpenAI-MultiModalChat-Response gespeichert.
  3. Klicken Sie auf Ausführen, um die Automatisierung zu starten. Sie können den Wert des Feldes ablesen, indem Sie die Antwort einfach in einer Nachrichtenfeld-Aktion ausgeben. In diesem Beispiel gibt str_chatai-response die Antwort aus.
    Tipp: Um mehrere Chats im selben Bot zu verwalten, müssen Sie mehrere Sitzungen mit unterschiedlichen Namen oder Variablen erstellen.
Die Antwort auf die oben genannte Automatisierung lautet wie folgt:

Azure OpenAI MultiModal Chat KI Antwort