La quête d’une intelligence artificielle (IA) supérieure est souvent alimentée par les scores des benchmarks, mais ces scores sont-ils vraiment révélateurs des capacités du monde réel ? La communauté de l’IA est aux prises avec cette question alors que les benchmarks traditionnels sont de plus en plus examinés.
SWE-Bench, introduit en novembre 2024, a rapidement gagné du terrain en tant qu’outil populaire pour évaluer les prouesses de codage d’un modèle d’IA. Il exploite plus de 2 000 défis de programmation authentiques extraits de référentiels GitHub publics dans une douzaine de projets basés sur Python. Un bon score SWE-Bench est devenu un badge convoité, affiché bien en évidence dans les principales versions de modèles des principaux développeurs d’IA tels qu’OpenAI, Anthropic et Google. Au-delà de ces géants, les entreprises d’IA spécialisées dans le réglage fin se disputent constamment la suprématie du classement SWE-Bench.
Cependant, la ferveur entourant ces benchmarks peut être trompeuse. John Yang, chercheur à l’université de Princeton impliqué dans le développement de SWE-Bench, note que la concurrence intense pour la première place a conduit à un "jeu" du système. Cela soulève des inquiétudes quant à savoir si ces benchmarks reflètent fidèlement les véritables réalisations de l’IA.
Le problème n’est pas nécessairement une tricherie manifeste, mais plutôt le développement de stratégies spécifiquement conçues pour exploiter les limites du benchmark. Par exemple, le SWE-Bench initial se concentrait uniquement sur le code Python, incitant les développeurs à former leurs modèles exclusivement sur Python. Yang a observé que ces modèles à score élevé échouaient souvent lorsqu’ils étaient confrontés à différents langages de programmation, exposant une compréhension superficielle qu’il décrit comme "dorée".
"Cela a l’air joli et brillant à première vue, mais ensuite vous essayez de l’exécuter sur un langage différent et tout s’écroule", explique Yang. "À ce stade, vous ne concevez pas un agent d’ingénierie logicielle. Vous concevez pour créer un agent SWE-Bench, ce qui est beaucoup moins intéressant."
Ce "problème SWE-Bench" reflète un défi plus large dans l’évaluation de l’IA. Les benchmarks, autrefois considérés comme des indicateurs fiables de progrès, sont de plus en plus détachés des capacités du monde réel. Pour aggraver le problème, des préoccupations concernant la transparence ont fait surface, érodant davantage la confiance dans ces mesures. Malgré ces problèmes, les benchmarks continuent de jouer un rôle essentiel dans le développement de modèles, même si de nombreux experts remettent en question leur valeur intrinsèque. Andrej Karpathy, cofondateur d’OpenAI, a même qualifié la situation actuelle de "crise d’évaluation", déplorant le manque de méthodes fiables pour mesurer les capacités de l’IA et l’absence d’une voie claire à suivre.
Vanessa Parli, directrice de la recherche à l’Institut pour l’IA centrée sur l’humain de l’université de Stanford, demande : "Historiquement, les benchmarks étaient la façon dont nous évaluions les systèmes d’IA. Est-ce la façon dont nous voulons évaluer les systèmes à l’avenir ? Et si ce n’est pas le cas, quelle est la façon ?"
Un contingent croissant d’universitaires et de chercheurs en IA préconise une approche plus ciblée, s’inspirant des sciences sociales. Ils proposent de donner la priorité à la "validité", un concept central de la science sociale quantitative, qui évalue dans quelle mesure un outil de mesure capture avec précision la construction prévue. Cet accent mis sur la validité pourrait remettre en question les benchmarks qui évaluent des concepts vaguement définis tels que le "raisonnement" ou les "connaissances scientifiques". Bien que cela puisse tempérer la poursuite de l’intelligence artificielle générale (AGI), cela fournirait une base plus solide pour évaluer les modèles individuels.
Abigail Jacobs, professeure à l’université du Michigan et figure de proue de la promotion de la validité, affirme : "Prendre la validité au sérieux signifie demander aux gens du monde universitaire, de l’industrie ou d’ailleurs de montrer que leur système fait ce qu’ils disent qu’il fait. Je pense que cela révèle une faiblesse dans le monde de l’IA s’ils veulent reculer et ne pas montrer qu’ils peuvent étayer leur affirmation."
Les limites des tests traditionnels
La dépendance de l’industrie de l’IA aux benchmarks découle de leurs succès passés, en particulier dans des défis comme ImageNet.
ImageNet, lancé en 2010, a présenté aux chercheurs une base de données de plus de 3 millions d’images classées dans 1 000 classes différentes. Le défi était indépendant de la méthode, permettant à tout algorithme réussi de gagner en crédibilité quelle que soit son approche sous-jacente. La percée d’AlexNet en 2012, qui utilisait une forme non conventionnelle d’entraînement GPU, est devenue une pierre angulaire de l’IA moderne. Bien que peu auraient pu prédire que les réseaux neuronaux convolutionnels d’AlexNet débloqueraient la reconnaissance d’images, son score élevé a réduit au silence tous les doutes. (Notamment, l’un des développeurs d’AlexNet a ensuite cofondé OpenAI.)
L’efficacité d’ImageNet découlait de l’étroite adéquation entre le défi et les tâches de reconnaissance d’images du monde réel. Même avec des débats sur les méthodes, le modèle avec le score le plus élevé démontrait invariablement des performances supérieures dans les applications pratiques.
Cependant, au cours des années qui ont suivi, les chercheurs en IA ont appliqué cette même approche indépendante de la méthode à des tâches de plus en plus générales. SWE-Bench, par exemple, est souvent utilisé comme un proxy pour une capacité de codage plus large, tandis que d’autres benchmarks de type examen sont utilisés pour évaluer la capacité de raisonnement. Cette large portée rend difficile la définition rigoureuse de ce qu’un benchmark spécifique mesure, ce qui entrave l’interprétation responsable des résultats.
Où les choses se gâtent
Anka Reuel, doctorante à Stanford, soutient que la poussée vers la généralité est à la racine du problème d’évaluation. "Nous sommes passés de modèles spécifiques à une tâche à des modèles à usage général", explique Reuel. "Il ne s’agit plus d’une seule tâche, mais de tout un ensemble de tâches, de sorte que l’évaluation devient plus difficile."
Comme Jacobs, Reuel pense que "le principal problème avec les benchmarks est la validité, encore plus que la mise en œuvre pratique", notant : "C’est là que beaucoup de choses se gâtent." Pour des tâches complexes comme le codage, il est presque impossible d’englober tous les scénarios imaginables dans un ensemble de problèmes. Par conséquent, il devient difficile de discerner si le score plus élevé d’un modèle reflète une véritable compétence en codage ou simplement une manipulation intelligente de l’ensemble de problèmes. La forte pression pour atteindre des scores records incite davantage aux raccourcis.
Les développeurs espèrent qu’un succès dans une multitude de benchmarks spécifiques se traduira par un modèle généralement performant. Cependant, l’essor de l’IA agentique, où un seul système peut intégrer un ensemble complexe de modèles, rend difficile l’évaluation de la généralisation des améliorations apportées à des tâches spécifiques. "Il y a juste beaucoup plus de boutons que vous pouvez tourner", déclare Sayash Kapoor, informaticien à Princeton et critique des pratiques négligentes dans l’industrie de l’IA. "En ce qui concerne les agents, ils ont en quelque sorte renoncé aux meilleures pratiques en matière d’évaluation."
Dans un article publié en juillet dernier, Kapoor a souligné des problèmes spécifiques liés à la façon dont les modèles d’IA ont abordé le benchmark WebArena en 2024, qui teste la capacité d’un agent d’IA à naviguer sur le Web. Le benchmark se compose de plus de 800 tâches effectuées sur des sites Web clonés imitant Reddit, Wikipedia et autres. Kapoor et son équipe ont découvert que le modèle gagnant, STeP, exploitait la structure des URL Reddit pour accéder directement aux pages de profil des utilisateurs, une exigence fréquente dans les tâches WebArena.
Bien qu’il ne s’agisse pas d’une tricherie pure et simple, Kapoor considère cela comme une "grave déformation de la façon dont l’agent fonctionnerait s’il avait vu les tâches dans WebArena pour la première fois". Malgré cela, l’agent Web d’OpenAI, Operator, a depuis adopté une politique similaire.
Illustrant davantage les problèmes liés aux benchmarks d’IA, Kapoor et une équipe de chercheurs ont récemment publié un article révélant des problèmes importants dans Chatbot Arena, un système d’évaluation participatif populaire. Leurs conclusions ont indiqué que le classement était manipulé, certains des principaux modèles de base se livrant à des tests privés non divulgués et publiant sélectivement leurs scores.
Même ImageNet, le benchmark qui a tout déclenché, est maintenant confronté à des problèmes de validité. Une étude de 2023 menée par des chercheurs de l’université de Washington et de Google Research a révélé que les algorithmes gagnants d’ImageNet présentaient "peu ou pas de progrès" lorsqu’ils étaient appliqués à six ensembles de données du monde réel, ce qui suggère que la validité externe du test avait atteint sa limite.
Aller plus petit
Pour résoudre le problème de la validité, certains chercheurs proposent de reconnecter les benchmarks à des tâches spécifiques. Comme le dit Reuel, les développeurs d’IA "doivent recourir à ces benchmarks de haut niveau qui sont presque dénués de sens pour les consommateurs en aval, car les développeurs de benchmarks ne peuvent plus anticiper la tâche en aval."
En novembre 2024, Reuel a lancé BetterBench, un projet de classement public qui évalue les benchmarks en fonction de divers critères, notamment la clarté de la documentation du code et, surtout, la validité du benchmark dans la mesure de sa capacité déclarée. BetterBench met les concepteurs au défi de définir clairement ce que leur benchmark teste et comment il se rapporte aux tâches qui composent le benchmark.
"Vous devez avoir une ventilation structurelle des capacités", explique Reuel. "Quelles sont les compétences réelles qui vous intéressent et comment les opérationnaliser en quelque chose que nous pouvons mesurer ?"
Les résultats sont révélateurs. L’Arcade Learning Environment (ALE), créé en 2013 pour tester la capacité des modèles à apprendre à jouer à des jeux Atari 2600, apparaît comme l’un des benchmarks les mieux notés. Inversement, le benchmark Massive Multitask Language Understanding (MMLU), un test largement utilisé pour les compétences linguistiques générales, reçoit l’un des scores les plus bas en raison d’un lien mal défini entre les questions et la compétence sous-jacente.
Bien que BetterBench n’ait pas encore eu un impact significatif sur la réputation de benchmarks spécifiques, il a réussi à placer la validité au premier plan des discussions sur la façon d’améliorer les benchmarks d’IA. Reuel a rejoint un nouveau groupe de recherche hébergé par Hugging Face, l’université d’Édimbourg et EleutherAI, où elle développera davantage ses idées sur la validité et l’évaluation des modèles d’IA.
Irene Solaiman, responsable de la politique mondiale chez Hugging Face, affirme que le groupe se concentrera sur la création de benchmarks valides qui vont au-delà de la mesure des capacités simples. "Il y a juste tellement de désir pour un bon benchmark prêt à l’emploi qui fonctionne déjà", dit Solaiman. "Beaucoup d’évaluations essaient d’en faire trop."
L’ensemble de l’industrie semble converger vers ce point de vue. Dans un article publié en mars, des chercheurs de Google, Microsoft, Anthropic et autres ont présenté un nouveau cadre pour améliorer les évaluations, avec la validité comme pierre angulaire.
"La science de l’évaluation de l’IA doit", soutiennent les chercheurs, "aller au-delà des affirmations générales d’"intelligence générale" pour se concentrer sur des mesures de progrès plus spécifiques à une tâche et pertinentes pour le monde réel."
Mesurer les choses "molles"
Pour faciliter ce changement, certains chercheurs se tournent vers les outils des sciences sociales. Un document de position de février a soutenu que "l’évaluation des systèmes GenAI est un défi de mesure des sciences sociales", explorant spécifiquement comment les systèmes de validité des sciences sociales peuvent être appliqués au benchmarking de l’IA.
Les auteurs, principalement de la branche de recherche de Microsoft, mais comprenant également des universitaires de Stanford et de l’université du Michigan, soulignent les normes que les spécialistes des sciences sociales utilisent pour mesurer des concepts contestés comme l’idéologie, la démocratie et les préjugés médiatiques. Appliquées aux benchmarks d’IA, ces mêmes procédures pourraient fournir un moyen de mesurer des concepts comme le "raisonnement" et la "maîtrise des mathématiques" sans recourir à desgénéralisations vagues.
La littérature en sciences sociales souligne l’importance de définir rigoureusement le concept mesuré. Par exemple, un test conçu pour mesurer le niveau de démocratie dans une société doit d’abord établir une définition claire d’une "société démocratique", puis formuler des questions pertinentes à cette définition.
Pour appliquer cela à un benchmark comme SWE-Bench, les concepteurs devraient abandonner l’approche traditionnelle de l’apprentissage automatique consistant à collecter des problèmes de programmation sur GitHub et à créer un système pour valider les réponses. Au lieu de cela, ils définiraient d’abord ce que le benchmark vise à mesurer (par exemple, "capacité à résoudre les problèmes signalés dans les logiciels"), décomposeraient cela en sous-compétences (par exemple, différents types de problèmes ou de structures de programme), puis construiraient des questions qui couvrent avec précision ces sous-compétences.
Pour des chercheurs comme Jacobs, ce changement profond par rapport à la façon dont les chercheurs en IA abordent généralement le benchmarking est précisément le but. "Il y a un décalage entre ce qui se passe dans l’industrie technologique et ces outils des sciences sociales", dit-elle. "Nous avons des décennies et des décennies de réflexion sur la façon dont nous voulons mesurer ces choses molles concernant les humains."
Malgré l’impact croissant de ces idées dans la communauté de la recherche, leur influence sur la façon dont les entreprises d’IA utilisent réellement les benchmarks a été lente.
Les récentes versions de modèles d’OpenAI, Anthropic, Google et Meta continuent de s’appuyer fortement sur des benchmarks de connaissances à choix multiples comme MMLU, l’approche même que les chercheurs en validité tentent de dépasser. Les versions de modèles, pour la plupart, se concentrent toujours sur la démonstration d’augmentations de l’intelligence générale, et des benchmarks larges sont utilisés pour étayer ces affirmations.
Certains observateurs trouvent cela satisfaisant. Ethan Mollick, professeur à Wharton, suggère que les benchmarks, bien qu’étant de "mauvaises mesures des choses, sont aussi ce que nous avons". Il ajoute : "En même temps, les modèles s’améliorent. Beaucoup de péchés sont pardonnés par des progrès rapides."
Pour l’instant, l’accent mis depuis longtemps par l’industrie sur l’intelligence artificielle générale semble éclipser une approche plus ciblée et basée sur la validité. Tant que les modèles d’IA continuent de progresser en intelligence générale, les applications spécifiques semblent moins convaincantes, même si les praticiens utilisent des outils auxquels ils ne font plus entièrement confiance.
"C’est la corde raide sur laquelle nous marchons", déclare Solaiman de Hugging Face. "Il est trop facile de rejeter le système, mais les évaluations sont vraiment utiles pour comprendre nos modèles, même avec ces limitations."