Invocar um modelo baseado em texto no SageMaker

Este tópico descreve como invocar o modelo de IA LLaMA 2 do Meta por meio do AWS SageMaker usando um exemplo.

A família Llama 2 de modelos de linguagem grandes (LLMs) é uma coleção de modelos de texto generativos pré-treinados e ajustados que variam em escala de 7 bilhões a 70 bilhões de parâmetros. Os LLMs ajustados, chamados Llama-2-chat, são otimizados para casos de uso de diálogo. Você pode usar a ação Invocar SageMaker Endpoint do Automation Anywhere para enviar um prompt e receber uma resposta desse modelo. Neste exemplo, um prompt é enviado ao modelo e uma resposta é exibida em uma caixa de mensagem.

Procedimento

  1. Na Control Room, clique em Endpoints do Discovery a configurar para obter a lista de endpoints. AWS invoca endpoint do SageMaker
    1. Insira as credenciais conforme descrito em AWS SageMaker: Ação de autenticação.
    2. Clique no menu suspenso Região para selecionar uma região da sua instância do AWS de onde você deseja obter os endpoints.Descubra os endpoints a serem configurados
    3. Clique em Conectar.
      Ele se conecta ao SageMaker e lista o Endpoint disponível na região selecionada.Lista do AWS SageMaker Endpoints em uma região
    4. Clique em um nome de Endpoint que corresponda ao modelo que você deseja usar e clique em Selecionar. Neste exemplo é usado um modelo baseado em texto. Um modelo pré-existente e pré-treinado é usado, e você pode visualizar os modelos já implantados navegando até Inferência > Endpoints. Se você quiser implantar um modelo de sua escolha, consulte AWS SageMaker Deploy models for inference. Para treinar os modelos implantados, consulte AWS SageMaker Build, Train, and Deploy models for inference. Para obter mais informações sobre os modelos, clique em um modelo.
    5. Clique em Selecionar.
      Ele preenche automaticamente o Nome do endpoint e a Região na tela principal.
  2. Clique no menu suspenso Tipo de conteúdo para selecionar o tipo de carga útil de conteúdo que você deseja inserir. Neste exemplo, selecione application/json como o tipo de carga útil.
  3. Insira o conteúdo em um formato JSON. Neste exemplo, o seguinte JSON é usado:
    {
       "inputs":[
          [
             {
                "role":"user",
                "content":"Tell me about Automation Anywhere"
             }
          ]
       ],
       "parameters":{
          "max_new_tokens":512,
          "top_p":0.9,
          "temperature":0.6
       }
    }
  4. Insira Padrão como o nome da sessão ou armazene a sessão em uma Variável.
  5. Para gerenciar os parâmetros opcionais, selecione Sim para Mostrar mais opções. Se você selecionar Sim, poderá adicionar outros parâmetros, como: Atributos personalizados (opcional) Habilitar explicação (opcional), ID de inferência (opcional), Nome do host do contêiner de destino (opcional), Modelo de destino (opcional) e Variante de destino (opcional). Para obter informações sobre esses parâmetros opcionais e detalhes sobre Invocar SageMaker Endpoint, consulte AWS SageMaker InvokeEndpoint.
  6. Neste exemplo, como o modelo selecionado exige a aceitação do EULA, você precisa definir Atributos personalizados (opcional) como accept_eula=true.
  7. Clique em Executar para iniciar o bot. Você pode ler o valor do campo imprimindo a resposta em uma ação de Caixa de mensagem. Neste exemplo, str-TextBasedModelResponse imprime a resposta.Resposta do AWS SageMaker