Repensando os Benchmarks de IA

A busca por uma inteligência artificial (IA) superior é frequentemente impulsionada por pontuações de benchmark, mas será que essas pontuações são verdadeiramente indicativas de capacidades do mundo real? A comunidade de IA está a debater esta questão, uma vez que os benchmarks tradicionais enfrentam um escrutínio crescente.

O SWE-Bench, introduzido em novembro de 2024, ganhou rapidamente tração como uma ferramenta popular para avaliar a proeza de codificação de um modelo de IA. Utiliza mais de 2.000 desafios de programação autênticos extraídos de repositórios públicos do GitHub em mais de uma dezena de projetos baseados em Python. Uma pontuação SWE-Bench forte tornou-se um distintivo cobiçado, exibido de forma proeminente em grandes lançamentos de modelos dos principais desenvolvedores de IA, como OpenAI, Anthropic e Google. Além desses gigantes, as empresas de IA especializadas em ajuste fino competem constantemente pela supremacia na tabela de classificação do SWE-Bench.

No entanto, o fervor em torno desses benchmarks pode ser enganoso. John Yang, um pesquisador da Universidade de Princeton envolvido no desenvolvimento do SWE-Bench, observa que a intensa competição pelo primeiro lugar levou ao “gaming” do sistema. Isso levanta preocupações sobre se esses benchmarks refletem com precisão a genuína conquista da IA.

A questão não é necessariamente batota aberta, mas sim o desenvolvimento de estratégias especificamente adaptadas para explorar as limitações do benchmark. Por exemplo, o SWE-Bench inicial focava-se exclusivamente no código Python, incentivando os desenvolvedores a treinar os seus modelos exclusivamente em Python. Yang observou que esses modelos de alta pontuação muitas vezes vacilavam quando confrontados com diferentes linguagens de programação, expondo uma compreensão superficial que ele descreve como “dourada”.

"Parece bonito e brilhante à primeira vista, mas depois você tenta executá-lo em uma linguagem diferente e tudo simplesmente desmorona", explica Yang. "Nesse ponto, você não está projetando um agente de engenharia de software. Você está projetando para fazer um agente SWE-Bench, o que é muito menos interessante."

Este "problema do SWE-Bench" reflete um desafio mais amplo na avaliação da IA. Os benchmarks, outrora considerados indicadores fiáveis do progresso, estão cada vez mais desligados das capacidades do mundo real. Agravando o problema, surgiram preocupações sobre a transparência, erodindo ainda mais a confiança nessas métricas. Apesar dessas questões, os benchmarks continuam a desempenhar um papel fundamental no desenvolvimento de modelos, embora muitos especialistas questionem o seu valor inerente. O cofundador da OpenAI, Andrej Karpathy, chegou mesmo a denominar a situação atual como uma "crise de avaliação", lamentando a falta de métodos fidedignos para medir as capacidades da IA e a ausência de um caminho claro a seguir.

Vanessa Parli, diretora de pesquisa do Instituto para IA Centrada no Ser Humano da Universidade de Stanford, pergunta: "Historicamente, os benchmarks eram a forma como avaliávamos os sistemas de IA. É essa a forma como queremos avaliar os sistemas no futuro? E se não for, qual é a forma?"

Um crescente contingente de académicos e pesquisadores de IA defende uma abordagem mais focada, inspirando-se nas ciências sociais. Propõem dar prioridade à "validade", um conceito central para a ciência social quantitativa, que avalia o quão bem uma ferramenta de medição captura com precisão o constructo pretendido. Esta ênfase na validade poderia desafiar os benchmarks que avaliam conceitos vagamente definidos como "raciocínio" ou "conhecimento científico". Embora possa atenuar a busca pela inteligência geral artificial (AGI), proporcionaria uma base mais sólida para avaliar modelos individuais.

Abigail Jacobs, professora da Universidade de Michigan e uma voz líder no impulso à validade, afirma: "Levar a validade a sério significa pedir às pessoas na academia, na indústria ou onde quer que seja para mostrar que o seu sistema faz o que dizem que faz. Acho que aponta para uma fraqueza no mundo da IA se eles quiserem recuar em mostrar que podem apoiar a sua alegação."

Os Limites dos Testes Tradicionais

A confiança da indústria da IA nos benchmarks decorre dos seus sucessos passados, particularmente em desafios como o ImageNet.

O ImageNet, lançado em 2010, apresentou aos pesquisadores uma base de dados de mais de 3 milhões de imagens categorizadas em 1.000 classes diferentes. O desafio era agnóstico em relação ao método, permitindo que qualquer algoritmo bem-sucedido ganhasse credibilidade, independentemente da sua abordagem subjacente. A descoberta do AlexNet em 2012, que utilizou uma forma não convencional de treinamento de GPU, tornou-se uma pedra angular da IA moderna. Embora poucos pudessem ter previsto que as redes neurais convolucionais do AlexNet desbloqueariam o reconhecimento de imagens, a sua alta pontuação silenciou quaisquer dúvidas. (Notavelmente, um dos desenvolvedores do AlexNet passou a co-fundar a OpenAI.)

A eficácia do ImageNet decorreu do estreito alinhamento entre o desafio e as tarefas de reconhecimento de imagens do mundo real. Mesmo com debates sobre os métodos, o modelo com maior pontuação invariavelmente demonstrou um desempenho superior em aplicações práticas.

No entanto, nos anos que se seguiram, os pesquisadores de IA aplicaram esta mesma abordagem agnóstica em relação ao método a tarefas cada vez mais gerais. O SWE-Bench, por exemplo, é frequentemente usado como um proxy para uma capacidade de codificação mais ampla, enquanto outros benchmarks em estilo de exame são usados para avaliar a capacidade de raciocínio. Este âmbito amplo torna difícil definir rigorosamente o que um benchmark específico mede, dificultando a interpretação responsável das conclusões.

Onde as Coisas se Desfazem

Anka Reuel, uma estudante de doutoramento em Stanford, argumenta que o impulso para a generalidade está na raiz do problema da avaliação. "Passámos de modelos específicos de tarefas para modelos de propósito geral", diz Reuel. "Já não se trata de uma única tarefa, mas de um monte de tarefas, pelo que a avaliação torna-se mais difícil."

Tal como Jacobs, Reuel acredita que "a principal questão com os benchmarks é a validade, ainda mais do que a implementação prática", observando: "É aí que muitas coisas se desfazem." Para tarefas complexas como a codificação, é quase impossível abranger todos os cenários concebíveis num conjunto de problemas. Consequentemente, torna-se difícil discernir se a pontuação mais alta de um modelo reflete uma genuína habilidade de codificação ou simplesmente uma manipulação inteligente do conjunto de problemas. A intensa pressão para alcançar pontuações recorde incentiva ainda mais os atalhos.

Os desenvolvedores esperam que o sucesso em uma infinidade de benchmarks específicos se traduza em um modelo geralmente capaz. No entanto, a ascensão da IA agentic, onde um único sistema pode incorporar uma matriz complexa de modelos, torna difícil avaliar se as melhorias em tarefas específicas se generalizarão. "Há apenas muito mais botões que você pode girar", diz Sayash Kapoor, um cientista da computação em Princeton e um crítico de práticas negligentes na indústria de IA. "Quando se trata de agentes, eles meio que desistiram das melhores práticas de avaliação."

Num artigo publicado em julho passado, Kapoor destacou questões específicas sobre a forma como os modelos de IA abordaram o benchmark WebArena em 2024, que testa a capacidade de um agente de IA de navegar na web. O benchmark consiste em mais de 800 tarefas realizadas em sites clonados que imitam o Reddit, a Wikipédia e outros. Kapoor e a sua equipa descobriram que o modelo vencedor, o STeP, explorava a estrutura dos URLs do Reddit para aceder diretamente às páginas de perfil dos utilizadores, um requisito frequente nas tarefas do WebArena.

Embora não seja uma batota direta, Kapoor considera isso uma "séria deturpação de quão bem o agente funcionaria se tivesse visto as tarefas no WebArena pela primeira vez." Apesar disso, o agente web da OpenAI, o Operator, adotou desde então uma política semelhante.

Ilustrando ainda mais os problemas com os benchmarks de IA, Kapoor e uma equipa de pesquisadores publicaram recentemente um artigo revelando questões significativas no Chatbot Arena, um popular sistema de avaliação de crowdsourcing. As suas conclusões indicaram que a tabela de classificação estava a ser manipulada, com alguns dos principais modelos de base a envolverem-se em testes privados não divulgados e a libertarem seletivamente as suas pontuações.

Mesmo o ImageNet, o benchmark que deu início a tudo, está agora a enfrentar problemas de validade. Um estudo de 2023 realizado por pesquisadores da Universidade de Washington e da Google Research descobriu que os algoritmos vencedores do ImageNet mostraram "pouco ou nenhum progresso" quando aplicados a seis conjuntos de dados do mundo real, sugerindo que a validade externa do teste tinha atingido o seu limite.

Indo Menor

Para abordar o problema da validade, alguns pesquisadores propõem reconectar os benchmarks a tarefas específicas. Como Reuel coloca, os desenvolvedores de IA "têm que recorrer a esses benchmarks de alto nível que são quase insignificantes para os consumidores a jusante, porque os desenvolvedores de benchmark não podem mais antecipar a tarefa a jusante."

Em novembro de 2024, Reuel lançou o BetterBench, um projeto de classificação pública que avalia os benchmarks com base em vários critérios, incluindo a clareza da documentação do código e, crucialmente, a validade do benchmark na medição da sua capacidade declarada. O BetterBench desafia os designers a definir claramente o que os seus testes de benchmark e como ele se relaciona com as tarefas que compõem o benchmark.

"Você precisa ter uma análise estrutural das capacidades", diz Reuel. "Quais são as habilidades reais de que você se importa e como você as operacionaliza em algo que podemos medir?"

Os resultados são reveladores. O Arcade Learning Environment (ALE), estabelecido em 2013 para testar a capacidade dos modelos de aprender a jogar jogos Atari 2600, surge como um dos benchmarks com maior pontuação. Por outro lado, o benchmark Massive Multitask Language Understanding (MMLU), um teste amplamente utilizado para habilidades de linguagem geral, recebe uma das pontuações mais baixas devido a uma conexão mal definida entre as perguntas e a habilidade subjacente.

Embora o BetterBench ainda não tenha impactado significativamente a reputação de benchmarks específicos, conseguiu trazer a validade para a frente das discussões sobre como melhorar os benchmarks de IA. Reuel juntou-se a um novo grupo de pesquisa hospedado pela Hugging Face, a Universidade de Edimburgo e a EleutherAI, onde irá desenvolver ainda mais as suas ideias sobre validade e avaliação de modelos de IA.

Irene Solaiman, chefe de política global da Hugging Face, diz que o grupo se concentrará na construção de benchmarks válidos que vão além da medição de capacidades diretas. "Há tanta fome por um bom benchmark fora da prateleira que já funciona", diz Solaiman. "Muitas avaliações estão a tentar fazer demasiado."

A indústria em geral parece estar a convergir nesta visão. Num artigo publicado em março, pesquisadores da Google, Microsoft, Anthropic e outros delinearam uma nova estrutura para melhorar as avaliações, com a validade como a pedra angular.

"A ciência da avaliação da IA deve", argumentam os pesquisadores, "ir além das afirmações genéricas de ‘inteligência geral’ em direção a medidas de progresso mais específicas de tarefas e relevantes para o mundo real."

Medindo as Coisas "Esguichadas"

Para facilitar esta mudança, alguns pesquisadores estão a recorrer às ferramentas das ciências sociais. Um documento de posição de fevereiro argumentou que "avaliar os sistemas GenAI é um desafio de medição das ciências sociais", explorando especificamente como os sistemas de validade das ciências sociais podem ser aplicados ao benchmarking de IA.

Os autores, principalmente do ramo de pesquisa da Microsoft, mas também incluindo académicos de Stanford e da Universidade de Michigan, apontam para os padrões que os cientistas sociais usam para medir conceitos contestados como ideologia, democracia e viés da mídia. Aplicados aos benchmarks de IA, estes mesmos procedimentos poderiam fornecer uma forma de medir conceitos como "raciocínio" e "proficiência em matemática" sem recorrer a generalizações vagas.

A literatura de ciências sociais enfatiza a importância de definir rigorosamente o conceito que está a ser medido. Por exemplo, um teste concebido para medir o nível de democracia numa sociedade deve primeiro estabelecer uma definição clara de uma "sociedade democrática" e, em seguida, formular questões relevantes para essa definição.

Para aplicar isto a um benchmark como o SWE-Bench, os designers teriam de abandonar a abordagem tradicional de machine learning de recolher problemas de programação do GitHub e criar um esquema para validar as respostas. Em vez disso, eles definiriam primeiro o que o benchmark pretende medir (por exemplo, "capacidade de resolver problemas sinalizados em software"), dividi-lo em subcompetências (por exemplo, diferentes tipos de problemas ou estruturas de programa) e, em seguida, construiriam questões que cobrissem com precisão essas subcompetências.

Para pesquisadores como Jacobs, esta profunda mudança em relação à forma como os pesquisadores de IA normalmente abordam o benchmarking é precisamente o ponto. "Há um desajuste entre o que está a acontecer na indústria tecnológica e estas ferramentas das ciências sociais", diz ela. "Temos décadase décadas de pensamento sobre como queremos medir estas coisas esguichadas sobre os humanos."

Apesar do crescente impacto destas ideias na comunidade de pesquisa, a sua influência sobre a forma como as empresas de IA realmente usam os benchmarks tem sido lenta.

Os lançamentos recentes de modelos da OpenAI, Anthropic, Google e Meta continuam a depender fortemente de benchmarks de conhecimento de múltipla escolha como o MMLU, a própria abordagem que os pesquisadores de validade estão a tentar ultrapassar. Os lançamentos de modelos, na sua maioria, ainda se concentram em demonstrar aumentos na inteligência geral, e benchmarks amplos são usados para apoiar estas alegações.

Alguns observadores consideram isto satisfatório. O professor de Wharton, Ethan Mollick, sugere que os benchmarks, apesar de serem "más medidas das coisas, são também o que temos." Ele acrescenta: "Ao mesmo tempo, os modelos estão a melhorar. Muitos pecados são perdoados pelo progresso rápido."

Por enquanto, o foco de longa data da indústria na inteligência geral artificial parece estar a ofuscar uma abordagem mais focada, baseada na validade. Enquanto os modelos de IA continuarem a avançar na inteligência geral, as aplicações específicas parecem menos convincentes, mesmo que os profissionais estejam a usar ferramentas em que já não confiam totalmente.

"Esta é a corda bamba que estamos a percorrer", diz Solaiman da Hugging Face. "É demasiado fácil descartar o sistema, mas as avaliações são realmente úteis para compreender os nossos modelos, mesmo com estas limitações."