Automation 360

Métricas para avaliações de IA

Baixar como PDF

Contents (Conteúdo)

Métricas para avaliações de IA

Baixar como PDF

Versão:
Última atualização2025/11/24

Obtenha insights sobre o desempenho da IA com uma compreensão mais profunda das métricas e dimensões de pontuação.

Cada avaliação retorna pontuações para a qualidade do desempenho. Ao usar Avaliar automaticamente, há uma variedade de métricas que o LLM utiliza para julgar e retornar pontuações.

Métricas

As avaliações são pontuadas a partir dos quatro principais tipos de tarefas dos recursos de IA. Cada tipo possui dimensões e métricas correspondentes para proporcionar pontuações para a avaliação. Uma avaliação é totalmente concluída quando cada dimensão é resolvida.

Tabela 1.
Métrica	Métrica	Tipo	Definição
Sumarização	Consistência factual	LLM como juiz	O alinhamento factual entre o resumo e a fonte resumida.
	Integralidade	LLM como juiz	O resumo captura os pontos principais.
	Bleu-2	Processamento de linguagem natural	Essa métrica mede a precisão dos bigramas (sequências de duas palavras consecutivas) na saída do LLM que correspondem ao texto de referência.
	Rouge-2	Processamento de linguagem natural	Essa métrica mede a recuperação de bigramas (sequências de duas palavras consecutivas) do texto de referência que aparecem na saída do LLM.
Geração de texto	Relevância da resposta	LLM como juiz	Qual é a relevância dos resultados do LLM em comparação com os dados fornecidos?
	Alucinação	LLM como juiz	Se o LLM gera informações factualmente corretas, comparando o resultado real com o contexto apresentado.
	Bleu-2	Processamento de linguagem natural	Alinhamento da resposta com a verdade fundamental.
	Rouge-2	Processamento de linguagem natural	Qual é a relevância do resultado do LLM em comparação com a entrada fornecida?
Extração de texto	Relevância da resposta	LLM como juiz	Qual é a relevância dos resultados do LLM em comparação com os dados fornecidos?
	Alucinação	LLM como juiz	Se o LLM gera informações factualmente corretas, comparando o resultado real com o contexto apresentado.
	Equivalência de verdade fundamental	LLM como juiz	Alinhamento da resposta com a verdade fundamental.
Classificação de texto	Exatidão	LLM como juiz	O rótulo previsto está correto.
	Correspondência exata	Processamento de linguagem natural	A métrica verifica se há uma correspondência exata entre a saída esperada e a saída real.
	Correspondência quase exata	Processamento de linguagem natural	Essa métrica verifica se há uma correspondência exata entre o resultado esperado e o resultado real depois de normalizá-los com letras minúsculas, removendo pontuação e artigos e removendo espaços em branco extras.