Modelos de IA Problemáticos: Perigos e Viés

Um estudo recente da startup francesa Giskard lançou luz sobre as significativas deficiências de alguns dos modelos de linguagem (LLMs) mais amplamente utilizados no cenário da inteligência artificial. Este estudo avalia meticulosamente a propensão destes modelos a gerar conteúdo prejudicial, alucinar informações e exibir vários vieses nas suas respostas.

Identificando os LLMs Mais Arriscados: Uma Avaliação Abrangente

O benchmark da Giskard, lançado em abril, investiga os riscos potenciais associados aos LLMs, fornecendo uma avaliação confiável da sua tendência para fabricar informações, produzir outputs tóxicos e exibir pontos de vista preconceituosos ou estereotipados. As conclusões do estudo oferecem informações valiosas para desenvolvedores, pesquisadores e organizações que procuram implementar modelos de IA de forma responsável.

O benchmark examina meticulosamente vários aspetos críticos do desempenho do LLM, incluindo:

  • Alucinação: A tendência do modelo para gerar informações falsas ou sem sentido.
  • Nocividade: A propensão do modelo para produzir conteúdo perigoso, ofensivo ou inadequado.
  • Vieses e Estereótipos: A inclinação do modelo para perpetuar pontos de vista injustos ou discriminatórios.

Ao avaliar estes fatores, o benchmark da Giskard fornece uma avaliação abrangente do risco geral associado a diferentes LLMs.

Classificação dos LLMs com as Falhas Mais Significativas

As conclusões do estudo revelam uma classificação dos LLMs com base no seu desempenho nestas métricas-chave. Quanto menor a pontuação, mais problemático o modelo é considerado. A tabela abaixo resume os resultados:

Modelo Média Geral Alucinação Nocividade Vieses e Estereótipos Desenvolvedor
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

O benchmark abrangeu 17 modelos amplamente utilizados, cuidadosamente selecionados para representar o panorama atual da IA. A Giskard priorizou a avaliação de modelos estáveis e amplamente adotados em vez de versões experimentais ou não finalizadas, garantindo a relevância e a confiabilidade dos resultados. Esta abordagem exclui modelos que são primariamente concebidos para tarefas de raciocínio, uma vez que não são o foco principal deste benchmark.

Identificando os Piores Desempenhos em Todas as Categorias

As conclusões iniciais do benchmark Phare alinham-se largamente com as perceções e feedback existentes da comunidade. Os cinco modelos de “pior” desempenho (dos 17 testados) incluem GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B e Llama 3.3 70B. Inversamente, os modelos que demonstram o melhor desempenho incluem Gemini 1.5 Pro, Claude 3.5 Haiku e Llama 3.1 405B.

Hotspots de Alucinação: Modelos Propensos a Fabricar Informações

Ao considerar unicamente a métrica de alucinação, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B e Llama 4 Maverick surgem como os modelos mais propensos a gerar informações falsas ou enganosas. Em contraste, a Anthropic demonstra força nesta área, com três dos seus modelos a exibir as taxas de alucinação mais baixas: Claude 3.5 Sonnet, Claude 3.7 Sonnet e Claude 3.5 Haiku, juntamente com Gemini 1.5 Pro e GPT-4o.

Geração de Conteúdo Perigoso: Modelos com Salvaguardas Fracas

No que diz respeito à geração de conteúdo perigoso ou prejudicial (avaliando a capacidade do modelo para reconhecer inputs problemáticos e responder adequadamente), o GPT-4o mini tem o pior desempenho, seguido por Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 e Llama 4 Maverick. Por outro lado, o Gemini 1.5 Pro demonstra consistentemente o melhor desempenho, seguido de perto pelos três modelos da Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet e Claude 3.5 Haiku) e Gemini 2.0 Flash.

Vieses e Estereótipos: Um Desafio Persistente

A presença de vieses e estereótipos em LLMs permanece uma área significativa que requer melhoria. Os resultados do benchmark Phare indicam que os LLMs ainda exibem vieses e estereótipos marcados nos seus outputs. O Grok 2 recebe a pior pontuação nesta categoria, seguido por Mistral Large, Mistral Small 3.1 24B, GPT-4o mini e Claude 3.5 Sonnet. Inversamente, o Gemini 1.5 Pro alcança as melhores pontuações, seguido por Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B e Llama 4 Maverick.

Embora o tamanho do modelo possa influenciar a geração de conteúdo tóxico (modelos menores tendem a produzir outputs mais “prejudiciais”), o número de parâmetros não é o único determinante. De acordo com Matteo Dora, CTO da Giskard, "As nossas análises demonstram que a sensibilidade à formulação do utilizador varia consideravelmente entre diferentes fornecedores. Por exemplo, os modelos da Anthropic parecem menos influenciados pela forma como as perguntas são formuladas em comparação com os seus concorrentes, independentemente do seu tamanho. A forma de colocar a questão (pedir uma resposta breve ou detalhada) também tem efeitos variáveis. Isto leva-nos a acreditar que métodos de treino específicos, como o aprendizado por reforço a partir do feedback humano (RLHF), são mais significativos do que o tamanho."

Uma Metodologia Robusta para Avaliar LLMs

O Phare emprega uma metodologia rigorosa para avaliar LLMs, utilizando um conjunto de dados privado de aproximadamente 6.000 conversas. Para garantir a transparência, evitando ao mesmo tempo a manipulação do treino do modelo, um subconjunto de aproximadamente 1.600 amostras foi disponibilizado publicamente no Hugging Face. Os pesquisadores coletaram dados em vários idiomas (francês, inglês, espanhol) e projetaram testes que refletem cenários do mundo real.

O benchmark avalia várias subtarefas para cada métrica:

Alucinação

  • Facticidade: A capacidade do modelo para gerar respostas factuais a perguntas de conhecimento geral.
  • Precisão com Informação Falsa: A capacidade do modelo para fornecer informações precisas ao responder a prompts que contêm elementos falsos.
  • Lidar com Afirmações Duvidosas: A capacidade do modelo para processar afirmações duvidosas (pseudociência, teorias da conspiração).
  • Utilização de Ferramentas sem Alucinação: A capacidade do modelo para usar ferramentas sem gerar informações falsas.

Nocividade

Os pesquisadores avaliaram a capacidade do modelo para reconhecer situações potencialmente perigosas e fornecer avisos apropriados.

Vieses e Imparcialidade

O benchmark centra-se na capacidade do modelo para identificar vieses e estereótipos gerados nos seus próprios outputs.

Colaboração com Organizações Líderes de IA

A importância do Phare é ainda mais reforçada pelo seu foco direto nas métricas cruciais para as organizações que procuram utilizar LLMs. Os resultados detalhados para cada modelo estão disponíveis publicamente no website da Giskard, incluindo detalhamentos por subtarefa. O benchmark é financeiramente apoiado pelo BPI (Banco Público de Investimento Francês) e pela Comissão Europeia. A Giskard também fez parceria com a Mistral AI e a DeepMind nos aspetos técnicos do projeto. O framework LMEval para utilização foi desenvolvido em colaboração direta com a equipa Gemma na DeepMind, garantindo a privacidade e segurança dos dados.

Olhando para o futuro, a equipa Giskard planeia adicionar duas funcionalidades-chave ao Phare: "Provavelmente até junho, adicionaremos um módulo para avaliar a resistência a jailbreaks e prompt injection," diz Matteo Dora. Adicionalmente, os pesquisadores continuarão a atualizar o leaderboard com os modelos estáveis mais recentes, com Grok 3, Qwen 3 e potencialmente GPT-4.1 no horizonte.