Avaliações de IA
- Última atualização2025/12/29
A AI Evaluations permite que o administrador acompanhe e avalie o resultado dos recursos de IA generativa.
Visão geral do AI Evaluations

A AI Evaluations é uma ferramenta projetada para avaliar as características e recursos dos sistemas de generative AI(genAI). Isso inclui métricas e metodologias para quantificar e qualificar aspectos como desempenho, robustez, imparcialidade, segurança, interpretabilidade e alinhamento com os objetivos pretendidos e princípios éticos. A AI Evaluations é projetada para desenvolvedores profissionais avaliarem e qualificarem as AI Skills durante a fase de design, garantindo que atendam aos padrões exigidos.
Com a crescente adoção da IA generativa, há uma necessidade urgente de ferramentas que avaliem a qualidade dos modelos antes da implantação e escalabilidade nas organizações. A AI Evaluations atende a essa demanda ao oferecer uma interface simples e intuitiva que agiliza o processo de avaliação. Ao realizar avaliações minuciosas, os usuários podem mitigar os riscos associados ao desempenho degradado do modelo e à qualidade comprometida, garantindo soluções de IA confiáveis.

Essas avaliações utilizam PNL (Natural Language Processing, processamento de linguagem natural) e LLMs (Large Language Models, grandes modelos de linguagem) para julgar e proporcionar pontuações, oferecendo insights sobre como melhorar sistemas de IA. O processo de avaliação adota uma abordagem sistemática, utilizando métricas de NLP e insights baseados em pesquisas para realizar avaliações detalhadas. Isso envolve comparar as saídas do modelo com os resultados esperados, monitorar possíveis desvios de desempenho e solicitar revisões quando necessário. O aprimoramento contínuo garante que os modelos de IA mantenham sua eficácia e estejam sempre otimizados para atender às necessidades dos usuários.
Página inicial de AI Evaluations
- Encontre avaliações concluídas na guia Avaliações.
- Clique no Nome da avaliação para exibir insights da sua avaliação concluída.
Conceitos-chave
Comparação de saída: Um recurso essencial da AI Evaluations é a capacidade de comparar a saída gerada por um modelo de linguagem com um resultado desejado e predefinido. Isso garante o alinhamento com os critérios e padrões especificados, otimizando a relevância e a precisão do conteúdo gerado. Um conjunto de dados ou um resultado esperado pode ser carregado ou inserido manualmente para ser usado nessas comparações.
Avaliação simultânea no desenvolvimento de habilidades de IA: À medida que as AI Skills evoluem, as avaliações podem ser realizadas simultaneamente ao desenvolvimento do modelo. Esse processo iterativo permite ajustes e melhorias em tempo real, promovendo o aprimoramento dinâmico dos recursos de IA.
Métricas e insights de pesquisa: O processo de avaliação é sustentado por padrões do setor para métricas de NLP e pesquisa abrangente de aprendizado de máquina. Essas métricas oferecem a estrutura que fornece insights importantes sobre os benefícios e o desempenho dos modelos de IA. Nos casos em que as variáveis estão incompletas, o sistema solicita uma revisão e uma nova execução da avaliação, garantindo rigor e precisão.
O cálculo dessas métricas de NLP depende dos resultados esperados que você fornece ao configurar a execução da avaliação. Nos casos em que os resultados esperados não estão disponíveis na avaliação, o LLM como juiz usa métricas predefinidas para fornecer pontuações.
- As avaliações podem ser Executadas automaticamente, usando o sistema para comparar o desempenho da fonte e do resultado. Consulte Execute uma avaliação de IA automaticamente.
- A opção de Executar manualmente está disponível para os usuários fazerem a comparação. Consulte Executar avaliações de IA manualmente.
Critérios de avaliação
Esses critérios foram pesquisados e selecionados com base na capacidade dos dados de oferecer suporte a soluções altamente funcionais. As pontuações nessas áreas ajudam os tomadores de decisão a identificar melhorias que afetam a qualidade e a eficácia das soluções de IA generativa.
| Princípio | Descrição | Casos de uso |
|---|---|---|
| Sumarização | Capacidade de oferecer alinhamento completo e factual entre o resultado e a fonte. | Análise, moderação de conteúdo |
| Geração de texto | Relevância e precisão do texto fornecido por IA em comparação com as informações de origem. | Feedback do cliente, documentos financeiros |
| Extração de texto | Valide se o texto está alinhado, usando dados de referência e comparando as entradas fornecidas. | Perguntas e respostas, extração de informações |
| Classificação de texto | Verifica as categorias dos assuntos entre o resultado e a fonte. | Pesquisa |
Logs de auditoria
O administrador pode exibir os detalhes da sessão e do evento de cada avaliação concluída na Governança de IA. Consulte AI Governance.
Permissões e acesso
O administrador pode habilitar a AI Evaluations selecionando permissões na página de funções para os respectivos usuários. Essas permissões são essenciais para gerenciar o acesso e as funcionalidades relacionadas a AI Evaluations.
Permissões:
-
Exibir AI Evaluations: Com essa permissão, os usuários podem exibir as pontuações e o raciocínio da AI Evaluations. O acesso é limitado a pastas e habilidades de IA às quais o usuário está atribuído (exemplo: público).
-
Gerenciar AI Evaluations: Essa permissão é necessária para os usuários executarem avaliações e gerenciarem conjuntos de dados.