Obtenha insights sobre o desempenho da IA com uma compreensão mais profunda das métricas e dimensões de pontuação.

Cada avaliação retorna pontuações para a qualidade do desempenho. Ao usar Avaliar automaticamente, há uma variedade de métricas que o LLM utiliza para julgar e retornar pontuações.

Métricas

As avaliações são pontuadas a partir dos quatro principais tipos de tarefas dos recursos de IA. Cada tipo possui dimensões e métricas correspondentes para proporcionar pontuações para a avaliação. Uma avaliação é totalmente concluída quando cada dimensão é resolvida.

Tabela 1.
Métrica Métrica Tipo Definição
Sumarização Consistência factual LLM como juiz O alinhamento factual entre o resumo e a fonte resumida.
Integralidade LLM como juiz O resumo captura os pontos principais.
Bleu-2 Processamento de linguagem natural Essa métrica mede a precisão dos bigramas (sequências de duas palavras consecutivas) na saída do LLM que correspondem ao texto de referência.
Rouge-2 Processamento de linguagem natural Essa métrica mede a recuperação de bigramas (sequências de duas palavras consecutivas) do texto de referência que aparecem na saída do LLM.
Geração de texto Relevância da resposta LLM como juiz Qual é a relevância dos resultados do LLM em comparação com os dados fornecidos?
Alucinação LLM como juiz Se o LLM gera informações factualmente corretas, comparando o resultado real com o contexto apresentado.
Bleu-2 Processamento de linguagem natural Alinhamento da resposta com a verdade fundamental.
Rouge-2 Processamento de linguagem natural Qual é a relevância do resultado do LLM em comparação com a entrada fornecida?
Extração de texto Relevância da resposta LLM como juiz Qual é a relevância dos resultados do LLM em comparação com os dados fornecidos?
Alucinação LLM como juiz Se o LLM gera informações factualmente corretas, comparando o resultado real com o contexto apresentado.
Equivalência de verdade fundamental LLM como juiz Alinhamento da resposta com a verdade fundamental.
Classificação de texto Exatidão LLM como juiz O rótulo previsto está correto.
Correspondência exata Processamento de linguagem natural A métrica verifica se há uma correspondência exata entre a saída esperada e a saída real.
Correspondência quase exata Processamento de linguagem natural Essa métrica verifica se há uma correspondência exata entre o resultado esperado e o resultado real depois de normalizá-los com letras minúsculas, removendo pontuação e artigos e removendo espaços em branco extras.