Métricas para avaliações de IA
- Última atualização2025/11/24
Obtenha insights sobre o desempenho da IA com uma compreensão mais profunda das métricas e dimensões de pontuação.
Cada avaliação retorna pontuações para a qualidade do desempenho. Ao usar Avaliar automaticamente, há uma variedade de métricas que o LLM utiliza para julgar e retornar pontuações.
Métricas
As avaliações são pontuadas a partir dos quatro principais tipos de tarefas dos recursos de IA. Cada tipo possui dimensões e métricas correspondentes para proporcionar pontuações para a avaliação. Uma avaliação é totalmente concluída quando cada dimensão é resolvida.
| Métrica | Métrica | Tipo | Definição |
|---|---|---|---|
| Sumarização | Consistência factual | LLM como juiz | O alinhamento factual entre o resumo e a fonte resumida. |
| Integralidade | LLM como juiz | O resumo captura os pontos principais. | |
| Bleu-2 | Processamento de linguagem natural | Essa métrica mede a precisão dos bigramas (sequências de duas palavras consecutivas) na saída do LLM que correspondem ao texto de referência. | |
| Rouge-2 | Processamento de linguagem natural | Essa métrica mede a recuperação de bigramas (sequências de duas palavras consecutivas) do texto de referência que aparecem na saída do LLM. | |
| Geração de texto | Relevância da resposta | LLM como juiz | Qual é a relevância dos resultados do LLM em comparação com os dados fornecidos? |
| Alucinação | LLM como juiz | Se o LLM gera informações factualmente corretas, comparando o resultado real com o contexto apresentado. | |
| Bleu-2 | Processamento de linguagem natural | Alinhamento da resposta com a verdade fundamental. | |
| Rouge-2 | Processamento de linguagem natural | Qual é a relevância do resultado do LLM em comparação com a entrada fornecida? | |
| Extração de texto | Relevância da resposta | LLM como juiz | Qual é a relevância dos resultados do LLM em comparação com os dados fornecidos? |
| Alucinação | LLM como juiz | Se o LLM gera informações factualmente corretas, comparando o resultado real com o contexto apresentado. | |
| Equivalência de verdade fundamental | LLM como juiz | Alinhamento da resposta com a verdade fundamental. | |
| Classificação de texto | Exatidão | LLM como juiz | O rótulo previsto está correto. |
| Correspondência exata | Processamento de linguagem natural | A métrica verifica se há uma correspondência exata entre a saída esperada e a saída real. | |
| Correspondência quase exata | Processamento de linguagem natural | Essa métrica verifica se há uma correspondência exata entre o resultado esperado e o resultado real depois de normalizá-los com letras minúsculas, removendo pontuação e artigos e removendo espaços em branco extras. |