A AI Evaluations permite que o administrador acompanhe e avalie o resultado dos recursos de IA generativa.

Visão geral do AI Evaluations


O gráfico descreve os benefícios que a AI Evaluations oferece.

Nota: Para obter os melhores resultados, certifique-se de que esteja usando o pacote AI Skill versão 9.0.0.

A AI Evaluations é uma ferramenta projetada para avaliar as características e recursos dos sistemas de generative AI(genAI). Isso inclui métricas e metodologias para quantificar e qualificar aspectos como desempenho, robustez, imparcialidade, segurança, interpretabilidade e alinhamento com os objetivos pretendidos e princípios éticos. A AI Evaluations é projetada para desenvolvedores profissionais avaliarem e qualificarem as AI Skills durante a fase de design, garantindo que atendam aos padrões exigidos.

Com a crescente adoção da IA generativa, há uma necessidade urgente de ferramentas que avaliem a qualidade dos modelos antes da implantação e escalabilidade nas organizações. A AI Evaluations atende a essa demanda ao oferecer uma interface simples e intuitiva que agiliza o processo de avaliação. Ao realizar avaliações minuciosas, os usuários podem mitigar os riscos associados ao desempenho degradado do modelo e à qualidade comprometida, garantindo soluções de IA confiáveis.

O diagrama a seguir ilustra como uma avaliação é realizada.
O diagrama demonstra várias operações realizadas em uma avaliação.

Essas avaliações utilizam PNL (Natural Language Processing, processamento de linguagem natural) e LLMs (Large Language Models, grandes modelos de linguagem) para julgar e proporcionar pontuações, oferecendo insights sobre como melhorar sistemas de IA. O processo de avaliação adota uma abordagem sistemática, utilizando métricas de NLP e insights baseados em pesquisas para realizar avaliações detalhadas. Isso envolve comparar as saídas do modelo com os resultados esperados, monitorar possíveis desvios de desempenho e solicitar revisões quando necessário. O aprimoramento contínuo garante que os modelos de IA mantenham sua eficácia e estejam sempre otimizados para atender às necessidades dos usuários.

Página inicial de AI Evaluations

As avaliações são totalmente integradas ao desenvolvimento. Uma interface centralizada e fácil de usar oferece acesso a pontuações, métricas e ferramentas de avaliação, reduzindo a necessidade de conhecimento especializado em aprendizado de máquina. Essa acessibilidade garante que os usuários possam realizar avaliações e otimizar modelos de IA de forma eficiente, conforme necessário.
  • Encontre avaliações concluídas na guia Avaliações.
  • Clique no Nome da avaliação para exibir insights da sua avaliação concluída.

Conceitos-chave

Comparação de saída: Um recurso essencial da AI Evaluations é a capacidade de comparar a saída gerada por um modelo de linguagem com um resultado desejado e predefinido. Isso garante o alinhamento com os critérios e padrões especificados, otimizando a relevância e a precisão do conteúdo gerado. Um conjunto de dados ou um resultado esperado pode ser carregado ou inserido manualmente para ser usado nessas comparações.

Avaliação simultânea no desenvolvimento de habilidades de IA: À medida que as AI Skills evoluem, as avaliações podem ser realizadas simultaneamente ao desenvolvimento do modelo. Esse processo iterativo permite ajustes e melhorias em tempo real, promovendo o aprimoramento dinâmico dos recursos de IA.

Métricas e insights de pesquisa: O processo de avaliação é sustentado por padrões do setor para métricas de NLP e pesquisa abrangente de aprendizado de máquina. Essas métricas oferecem a estrutura que fornece insights importantes sobre os benefícios e o desempenho dos modelos de IA. Nos casos em que as variáveis estão incompletas, o sistema solicita uma revisão e uma nova execução da avaliação, garantindo rigor e precisão.

O cálculo dessas métricas de NLP depende dos resultados esperados que você fornece ao configurar a execução da avaliação. Nos casos em que os resultados esperados não estão disponíveis na avaliação, o LLM como juiz usa métricas predefinidas para fornecer pontuações.

Avaliador e origem das métricas: O avaliador atua como o mecanismo para avaliar os resultados da IA, extraindo métricas de padrões do setor. Ao usar o LLM como juiz, esse mecanismo é baseado em pesquisa para garantir que as avaliações tenham uma abordagem humana e abrangente.

Critérios de avaliação

Esses critérios foram pesquisados e selecionados com base na capacidade dos dados de oferecer suporte a soluções altamente funcionais. As pontuações nessas áreas ajudam os tomadores de decisão a identificar melhorias que afetam a qualidade e a eficácia das soluções de IA generativa.

As avaliações concentram-se em quatro tipos principais de tarefas de capacidades de IA que são essenciais para casos de uso comuns. Cada caso de uso é categorizado conforme as tarefas e métricas predefinidas necessárias para fornecer pontuações e insights de desempenho. Para mais detalhes, consulte Métricas para avaliações de IA.
Tabela 1.
Princípio Descrição Casos de uso
Sumarização Capacidade de oferecer alinhamento completo e factual entre o resultado e a fonte. Análise, moderação de conteúdo
Geração de texto Relevância e precisão do texto fornecido por IA em comparação com as informações de origem. Feedback do cliente, documentos financeiros
Extração de texto Valide se o texto está alinhado, usando dados de referência e comparando as entradas fornecidas. Perguntas e respostas, extração de informações
Classificação de texto Verifica as categorias dos assuntos entre o resultado e a fonte. Pesquisa

Logs de auditoria

O administrador pode exibir os detalhes da sessão e do evento de cada avaliação concluída na Governança de IA. Consulte AI Governance.

Permissões e acesso

O administrador pode habilitar a AI Evaluations selecionando permissões na página de funções para os respectivos usuários. Essas permissões são essenciais para gerenciar o acesso e as funcionalidades relacionadas a AI Evaluations.

Permissões:

  • Exibir AI Evaluations: Com essa permissão, os usuários podem exibir as pontuações e o raciocínio da AI Evaluations. O acesso é limitado a pastas e habilidades de IA às quais o usuário está atribuído (exemplo: público).

  • Gerenciar AI Evaluations: Essa permissão é necessária para os usuários executarem avaliações e gerenciarem conjuntos de dados.