Um estudo recente da startup francesa Giskard lançou luz sobre as significativas deficiências de alguns dos modelos de linguagem (LLMs) mais amplamente utilizados no cenário da inteligência artificial. Este estudo avalia meticulosamente a propensão destes modelos a gerar conteúdo prejudicial, alucinar informações e exibir vários vieses nas suas respostas.
Identificando os LLMs Mais Arriscados: Uma Avaliação Abrangente
O benchmark da Giskard, lançado em abril, investiga os riscos potenciais associados aos LLMs, fornecendo uma avaliação confiável da sua tendência para fabricar informações, produzir outputs tóxicos e exibir pontos de vista preconceituosos ou estereotipados. As conclusões do estudo oferecem informações valiosas para desenvolvedores, pesquisadores e organizações que procuram implementar modelos de IA de forma responsável.
O benchmark examina meticulosamente vários aspetos críticos do desempenho do LLM, incluindo:
- Alucinação: A tendência do modelo para gerar informações falsas ou sem sentido.
- Nocividade: A propensão do modelo para produzir conteúdo perigoso, ofensivo ou inadequado.
- Vieses e Estereótipos: A inclinação do modelo para perpetuar pontos de vista injustos ou discriminatórios.
Ao avaliar estes fatores, o benchmark da Giskard fornece uma avaliação abrangente do risco geral associado a diferentes LLMs.
Classificação dos LLMs com as Falhas Mais Significativas
As conclusões do estudo revelam uma classificação dos LLMs com base no seu desempenho nestas métricas-chave. Quanto menor a pontuação, mais problemático o modelo é considerado. A tabela abaixo resume os resultados:
Modelo | Média Geral | Alucinação | Nocividade | Vieses e Estereótipos | Desenvolvedor |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
O benchmark abrangeu 17 modelos amplamente utilizados, cuidadosamente selecionados para representar o panorama atual da IA. A Giskard priorizou a avaliação de modelos estáveis e amplamente adotados em vez de versões experimentais ou não finalizadas, garantindo a relevância e a confiabilidade dos resultados. Esta abordagem exclui modelos que são primariamente concebidos para tarefas de raciocínio, uma vez que não são o foco principal deste benchmark.
Identificando os Piores Desempenhos em Todas as Categorias
As conclusões iniciais do benchmark Phare alinham-se largamente com as perceções e feedback existentes da comunidade. Os cinco modelos de “pior” desempenho (dos 17 testados) incluem GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B e Llama 3.3 70B. Inversamente, os modelos que demonstram o melhor desempenho incluem Gemini 1.5 Pro, Claude 3.5 Haiku e Llama 3.1 405B.
Hotspots de Alucinação: Modelos Propensos a Fabricar Informações
Ao considerar unicamente a métrica de alucinação, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B e Llama 4 Maverick surgem como os modelos mais propensos a gerar informações falsas ou enganosas. Em contraste, a Anthropic demonstra força nesta área, com três dos seus modelos a exibir as taxas de alucinação mais baixas: Claude 3.5 Sonnet, Claude 3.7 Sonnet e Claude 3.5 Haiku, juntamente com Gemini 1.5 Pro e GPT-4o.
Geração de Conteúdo Perigoso: Modelos com Salvaguardas Fracas
No que diz respeito à geração de conteúdo perigoso ou prejudicial (avaliando a capacidade do modelo para reconhecer inputs problemáticos e responder adequadamente), o GPT-4o mini tem o pior desempenho, seguido por Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 e Llama 4 Maverick. Por outro lado, o Gemini 1.5 Pro demonstra consistentemente o melhor desempenho, seguido de perto pelos três modelos da Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet e Claude 3.5 Haiku) e Gemini 2.0 Flash.
Vieses e Estereótipos: Um Desafio Persistente
A presença de vieses e estereótipos em LLMs permanece uma área significativa que requer melhoria. Os resultados do benchmark Phare indicam que os LLMs ainda exibem vieses e estereótipos marcados nos seus outputs. O Grok 2 recebe a pior pontuação nesta categoria, seguido por Mistral Large, Mistral Small 3.1 24B, GPT-4o mini e Claude 3.5 Sonnet. Inversamente, o Gemini 1.5 Pro alcança as melhores pontuações, seguido por Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B e Llama 4 Maverick.
Embora o tamanho do modelo possa influenciar a geração de conteúdo tóxico (modelos menores tendem a produzir outputs mais “prejudiciais”), o número de parâmetros não é o único determinante. De acordo com Matteo Dora, CTO da Giskard, "As nossas análises demonstram que a sensibilidade à formulação do utilizador varia consideravelmente entre diferentes fornecedores. Por exemplo, os modelos da Anthropic parecem menos influenciados pela forma como as perguntas são formuladas em comparação com os seus concorrentes, independentemente do seu tamanho. A forma de colocar a questão (pedir uma resposta breve ou detalhada) também tem efeitos variáveis. Isto leva-nos a acreditar que métodos de treino específicos, como o aprendizado por reforço a partir do feedback humano (RLHF), são mais significativos do que o tamanho."
Uma Metodologia Robusta para Avaliar LLMs
O Phare emprega uma metodologia rigorosa para avaliar LLMs, utilizando um conjunto de dados privado de aproximadamente 6.000 conversas. Para garantir a transparência, evitando ao mesmo tempo a manipulação do treino do modelo, um subconjunto de aproximadamente 1.600 amostras foi disponibilizado publicamente no Hugging Face. Os pesquisadores coletaram dados em vários idiomas (francês, inglês, espanhol) e projetaram testes que refletem cenários do mundo real.
O benchmark avalia várias subtarefas para cada métrica:
Alucinação
- Facticidade: A capacidade do modelo para gerar respostas factuais a perguntas de conhecimento geral.
- Precisão com Informação Falsa: A capacidade do modelo para fornecer informações precisas ao responder a prompts que contêm elementos falsos.
- Lidar com Afirmações Duvidosas: A capacidade do modelo para processar afirmações duvidosas (pseudociência, teorias da conspiração).
- Utilização de Ferramentas sem Alucinação: A capacidade do modelo para usar ferramentas sem gerar informações falsas.
Nocividade
Os pesquisadores avaliaram a capacidade do modelo para reconhecer situações potencialmente perigosas e fornecer avisos apropriados.
Vieses e Imparcialidade
O benchmark centra-se na capacidade do modelo para identificar vieses e estereótipos gerados nos seus próprios outputs.
Colaboração com Organizações Líderes de IA
A importância do Phare é ainda mais reforçada pelo seu foco direto nas métricas cruciais para as organizações que procuram utilizar LLMs. Os resultados detalhados para cada modelo estão disponíveis publicamente no website da Giskard, incluindo detalhamentos por subtarefa. O benchmark é financeiramente apoiado pelo BPI (Banco Público de Investimento Francês) e pela Comissão Europeia. A Giskard também fez parceria com a Mistral AI e a DeepMind nos aspetos técnicos do projeto. O framework LMEval para utilização foi desenvolvido em colaboração direta com a equipa Gemma na DeepMind, garantindo a privacidade e segurança dos dados.
Olhando para o futuro, a equipa Giskard planeia adicionar duas funcionalidades-chave ao Phare: "Provavelmente até junho, adicionaremos um módulo para avaliar a resistência a jailbreaks e prompt injection," diz Matteo Dora. Adicionalmente, os pesquisadores continuarão a atualizar o leaderboard com os modelos estáveis mais recentes, com Grok 3, Qwen 3 e potencialmente GPT-4.1 no horizonte.