Métricas para avaliações de IA
- Última atualização2026/04/16
Obtenha insights sobre o desempenho da IA com uma compreensão mais profunda das métricas e dimensões de pontuação.
Importante: Esse recurso não está disponível para o público geral e é restrito a clientes específicos. Entre em contato com a equipe de conta da Automation Anywhere para ver mais informações.
Cada avaliação retorna pontuações para a qualidade do desempenho. Ao usar Avaliar automaticamente, há uma variedade de métricas que o LLM utiliza para julgar e retornar pontuações.
Métricas
As avaliações são pontuadas a partir dos quatro principais tipos de tarefas dos recursos de IA. Cada tipo possui dimensões e métricas correspondentes para proporcionar pontuações para a avaliação. Uma avaliação é totalmente concluída quando cada dimensão é resolvida.
Nota: Os valores da pontuação associam números baixos a um desempenho baixo e números altos a um desempenho alto.
| Métrica | Métrica | Tipo | Definição | Intervalo de pontuação |
|---|---|---|---|---|
| Geração de resumos | Consistência factual | LLM como juiz | O alinhamento factual entre o resumo e a fonte resumida. | 0 - 1 |
| Integralidade | LLM como juiz | O resumo captura os pontos principais. | 0 - 1 | |
| Bleu-2 | Processamento de linguagem natural | Essa métrica mede a precisão dos bigramas (sequências de duas palavras consecutivas) na saída do LLM que correspondem ao texto de referência. | 0 - 1 | |
| Rouge-2 | Processamento de linguagem natural | Essa métrica mede a recuperação de bigramas (sequências de duas palavras consecutivas) do texto de referência que aparecem na saída do LLM. | 0 - 1 | |
| Geração de texto | Relevância da resposta | LLM como juiz | Qual é a relevância dos resultados do LLM em comparação com os dados fornecidos? | 0 - 1 |
| Alucinação | LLM como juiz | Se o LLM gera informações factualmente corretas, comparando o resultado real com o contexto apresentado. | 0 - 1 | |
| Bleu-2 | Processamento de linguagem natural | Alinhamento da resposta com a verdade fundamental. | 0 - 1 | |
| Rouge-2 | Processamento de linguagem natural | Qual é a relevância do resultado do LLM em comparação com a entrada fornecida? | 0 - 1 | |
| Extração de texto | Relevância da resposta | LLM como juiz | Qual é a relevância dos resultados do LLM em comparação com os dados fornecidos? | 0 - 1 |
| Alucinação | LLM como juiz | Se o LLM gera informações factualmente corretas, comparando o resultado real com o contexto apresentado. | 0 - 1 | |
| Equivalência de verdade fundamental | LLM como juiz | Alinhamento da resposta com a verdade fundamental. | 0 ou 1 | |
| Classificação de texto | Exatidão | LLM como juiz | O rótulo previsto está correto. | 0 ou 1 |
| Correspondência exata | Processamento de linguagem natural | A métrica verifica se há uma correspondência exata entre a saída esperada e a saída real. | 0 ou 1 | |
| Correspondência quase exata | Processamento de linguagem natural | Essa métrica verifica se há uma correspondência exata entre o resultado esperado e o resultado real depois de normalizá-los com letras minúsculas, removendo pontuação e artigos e removendo espaços em branco extras. | 0 ou 1 |