Azure OpenAI: MultiModal Chat AI 작업

Azure OpenAI: MultiModal Chat AI 작업Azure OpenAI gpt-4ogpt-4 비전 기능을 워크플로에 통합할 수 있게 해 줍니다. 이렇게 하면 자동화를 통해 이미지를 처리하고 관련 질문에 대한 해답을 찾을 수 있으며, 단순한 텍스트 기반 상호작용 이상의 성과를 거둘 수 있습니다.

전제 조건

  • 자동화에서 다음 작업을 사용하려면 Bot Creator 역할이 있어야 합니다. Azure OpenAI: MultiModal Chat AI 작업.
  • 요청을 보내는 데 필요한 자격증명을 보유하고 Microsoft Azure OpenAI 작업을 호출하기 전에 Azure OpenAI: 인증 작업을 포함했는지 확인하십시오.

이 예시에서는 Azure OpenAI: MultiModal Chat AI 작업을 사용하여 자연어 메시지를 보내고 적절한 답변을 얻는 방법을 보여줍니다.

프로시저

  1. Automation Anywhere Control Room에서 작업 창으로 이동하여 생성형 AI > Microsoft Azure OpenAI를 선택하고 Azure OpenAI: Multimodal Chat AI를 드래그하여 캔버스에 놓습니다.
  2. 다음 필드를 입력하거나 선택합니다.

    Azure OpenAI Multimodal Chat AI

    1. Azure OpenAI에서 배포 ID를 입력합니다. 배포 ID는 사용하려는 프롬프트의 LLM(대규모 언어 모델)과 연결되어 있으며 Automation Anywhere Control Room에서 복사할 수 있습니다.
    2. 모델이 응답을 생성하는 데 사용할 채팅 메시지를 입력합니다.
      주: 채팅 작업은 동일한 세션 내에서 이전 채팅 작업의 결과를 유지합니다. 채팅 작업을 연속적으로 호출하면 모델이 후속 메시지를 이해하고 이전 메시지와 연관시킬 수 있습니다. 그러나 세션이 종료되면 모든 채팅 기록이 삭제됩니다.
    3. 이미지를 선택합니다. 이미지 링크를 선택하고 이미지 URL을 입력하거나 이미지 업로드를 선택하여 이미지를 업로드할 수 있습니다.
      예:

      제공된 예시에서 보라색 꽃의 이미지는 Azure OpenAI: MultiModal Chat AI 작업의 첫 번째 예시와 연관되어 있습니다. 두 번째 예시는 치타 이미지를 사용하고, 세 번째 예시는 흰 꽃으로 둘러싸인 들판에 앉아 있는 세 마리의 강아지 이미지를 사용합니다(아래 그림에 표시된 대로).

      azure openai multimodal chatai 강아지 샘플

    4. 생성할 최대 토큰 수를 입력합니다. 기본적으로 값을 입력하지 않을 경우 생성된 응답의 길이를 고려하여 선택한 모델의 최대 컨텍스트 길이 이내로 유지되도록 생성되는 토큰의 최대 개수가 자동으로 설정됩니다.
    5. 온도를 입력합니다. 이 값은 응답의 무작위성을 나타냅니다. 온도가 0에 가까워질수록 반응이 더 집중적이고 결정적입니다. 값이 높을수록 응답이 무작위일 가능성이 높습니다.
    6. 세션을 현재 세션으로 제한하려면 세션의 이름을 입력합니다. 인증 작업에서 사용한 것과 동일한 이름을 사용합니다. 변수를 대신 사용할 수 있습니다.
    7. 선택적 매개변수를 관리하려면 더 많은 옵션 표시에서 를 선택하여 다음과 같은 매개변수를 추가합니다. 최대 채팅 메시지 수, Top P, 중지, Presence Penalty, Frequency Penalty, 사용자, Logit bias, 응답 형식, 및 이미지 정확도. 이러한 선택적 매개 변수에 대한 자세한 내용은 Azure Open AI 채팅 완료를 참조하십시오.
      주:
      • 최대 채팅 메시지 수:

        이 설정은 MultiModal Chat AI 작업의 채팅 기록에 저장되는 메시지 수를 제어합니다. 각 이미지는 메시지 크기를 상당히 증가시킬 수 있기 때문에 여러 이미지를 다룰 때 특히 중요합니다. 제한(0과 10 사이)을 설정하면 채팅 세션 크기를 최적화하고 성능 문제를 방지할 수 있습니다.

        • 0: 프롬프트 작업과 유사하게 채팅 기록이 유지되지 않습니다.
        • 1-10: 지정된 메시지 수(현재 프롬프트 및 가장 최근의 응답 포함)가 유지됩니다.

        위의 예에서 값은 4로 설정됩니다. 이는 채팅 기록이 현재 프롬프트와 이전 3번의 상호작용에서의 응답을 포함한다는 것을 의미합니다.

      • 세부 매개변수: 이 필드는 모델이 이미지를 처리하고 텍스트 이해를 생성하는 방식을 제어할 수 있게 해 줍니다. 자세한 내용은 Azure OpenAI Service REST API reference 항목을 참조하십시오.
    8. 응답을 변수에 저장합니다. 예제에서는 응답이 AzureOpenAI-MultiModalChat-Response에 저장됩니다.
  3. 실행을 클릭하여 자동화를 시작합니다. 메시지 상자 작업에 있는 응답을 인쇄하면 필드의 값을 읽을 수 있습니다. 이 예제에서는 str_chatai-response가 응답을 출력합니다.
    팁: 동일한 봇에서 여러 개의 채팅을 유지하려면, 서로 다른 이름이나 변수를 사용하여 여러 세션을 만들어야 합니다.
위 자동화의 응답은 다음과 같습니다.

Azure OpenAI MultiModal Chat AI 응답