OpenAI: 멀티모달 채팅 AI action

OpenAI: 멀티모달 채팅 AI action을 사용하면 OpenAI gpt-4o 및 OpenAI의 비전 기능을 워크플로에 통합할 수 있습니다. 이렇게 하면 자동화를 통해 이미지를 처리하고 관련 질문에 대한 해답을 찾을 수 있으며, 단순한 텍스트 기반 상호작용 이상의 성과를 거둘 수 있습니다.

전제 조건

  • 봇 제작자 역할이 있어야 OpenAI 멀티모달 채팅 AI action을 봇에서 사용할 수 있습니다.
  • 요청을 보내는 데 필요한 자격증명을 보유하고 OpenAI 작업을 호출하기 전에 OpenAI: 인증 작업을 포함했는지 확인하십시오.

이 예시는 OpenAI 멀티모달 채팅 AI action를 사용하여 여러 이미지를 전송하고 이미지에 있는 내용에 대해 질문하는 방법을 보여줍니다.

프로시저

  1. Automation Anywhere Control Room에서 작업 창으로 이동하여 생성형 AI > OpenAI를 선택하고 OpenAI: 멀티모달 채팅 AI를 드래그하여 캔버스에 놓습니다.
  2. 다음 필드를 입력하거나 선택합니다.

    오픈AI 멀티모달 채팅 AI

    1. 모델 드롭다운에서 멀티모달 채팅에 사용할 LLM(대규모 언어 모델)을 선택합니다. 다음 모델을 선택할 수 있습니다.
      • gpt-4o(기본값)
      • gpt-4-turbo
      • gpt-4-turbo-2024-04-09
      • GPT-4o-mini
      • GPT-4.1
      • GPT-4.1-mini
      • GPT-4.1-nano
      • o1
      • 지원되는 모델을 입력하는 기타 지원 버전 위에 나열된 모델 외에도 OpenAI other supported versions에서 지원되는 각종 텍스트 기반 미리보기 모델을 살펴볼 수 있습니다.
    2. 모델이 응답을 생성하는 데 사용할 채팅 메시지를 입력합니다.
      주: 채팅 작업은 동일한 세션 내에서 이전 채팅 작업의 결과를 유지합니다. 채팅 작업을 연속적으로 호출하면 모델이 후속 메시지를 이해하고 이전 메시지와 연관시킬 수 있습니다. 그러나 세션이 종료되면 모든 채팅 기록이 삭제됩니다.
    3. 이미지를 선택합니다. 이미지 링크를 선택하고 이미지 URL을 입력하거나 이미지 업로드를 선택하여 이미지를 업로드할 수 있습니다. 이러한 예에서 첫 번째 인스턴스의 OpenAI 멀티모달 채팅 AIaction에 보라색 꽃 이미지가 첨부되어 있으며, 동일한 작업의 두 번째 인스턴스에는 개 이미지가 첨부되어 있습니다.
    4. 생성할 최대 토큰 수를 입력합니다. 기본적으로 값을 입력하지 않을 경우 생성된 응답의 길이를 고려하여 선택한 모델의 최대 컨텍스트 길이 이내로 유지되도록 생성되는 토큰의 최대 개수가 자동으로 설정됩니다.
    5. 온도를 입력합니다. 이 값은 응답의 무작위성을 나타냅니다. 온도가 0에 가까워질수록 반응이 더 집중적이고 결정적입니다. 값이 높을수록 응답이 무작위일 가능성이 높습니다.
    6. 세션을 현재 세션으로 제한하려면 세션의 이름을 입력합니다. 인증 작업에서 사용한 것과 동일한 이름을 사용합니다. 변수를 대신 사용할 수 있습니다.
    7. 선택적 매개변수를 관리하려면 더 많은 옵션 표시에서 를 선택하여 다음과 같은 매개변수를 추가합니다. 최대 채팅 메시지 수, Top P, 중지, Presence Penalty, Frequency Penalty, 사용자, Logit bias, 응답 형식, 및 이미지 정확도. 이러한 선택 사항 매개변수에 대한 자세한 내용은 OpenAI create chatOpenAI Vision를 참조하십시오.
      주:
      • 최대 채팅 메시지 수: 이 필드는 멀티모달 채팅 AI 작업의 채팅 기록에 저장된 메시지 수를 제한할 수 있게 해줍니다. 여러 이미지를 다룰 때 특히 유용합니다. 이미지가 포함된 각 메시지는 페이로드 크기를 상당히 증가시킬 수 있습니다. 제한(0~10 사이)을 설정하면 채팅 세션 크기를 최적화하고 이후 요청이 원활하게 실행되도록 할 수 있습니다. 값이 0이면 채팅 기록이 유지되지 않는 프롬프트 작업과 동일하게 작동합니다. 위의 예에서 값은 3으로 설정됩니다. 이는 채팅 기록이 현재 프롬프트, 이전 상호작용의 응답, 그리고 이전 상호작용의 요청을 유지한다는 것을 의미합니다.
      • 이미지 충실도: 이 필드는 모델이 이미지를 처리하고 텍스트 이해를 생성하는 방식을 제어할 수 있게 해 줍니다. 자세한 내용은 OpenAI Vision 항목을 참조하십시오.
    8. 응답을 변수에 저장합니다. 예제에서는 응답이 OpenAI-Response에 저장됩니다.
  3. 실행을 클릭하여 bot을 시작합니다. 메시지 상자 action에 있는 응답을 인쇄하면 필드의 값을 읽을 수 있습니다. 이 예제에서는 OpenAI-Response가 응답을 인쇄합니다.
    팁: 동일한 봇에서 여러 개의 채팅을 유지하려면, 서로 다른 이름이나 변수를 사용하여 여러 세션을 만들어야 합니다.
위 자동화의 응답은 다음과 같습니다.

오픈AI 멀티모달 채팅 AI 응답