De jacht op superieure kunstmatige intelligentie (AI) wordt vaak aangedreven door benchmarkscores, maar zijn deze scores werkelijk een indicatie van real-world capaciteiten? De AI-gemeenschap worstelt met deze vraag nu traditionele benchmarks steeds meer onder de loep worden genomen.
SWE-Bench, geïntroduceerd in november 2024, won snel aan populariteit als een tool voor het beoordelen van de codeervaardigheid van een AI-model. Het maakt gebruik van meer dan 2.000 authentieke programmeeruitdagingen, geëxtraheerd uit openbare GitHub-repositories in een dozijn Python-gebaseerde projecten. Een sterke SWE-Bench-score is een felbegeerde badge geworden, prominent weergegeven in belangrijke modelreleases van toonaangevende AI-ontwikkelaars zoals OpenAI, Anthropic en Google. Naast deze giganten strijden AI-bedrijven die gespecialiseerd zijn in finetuning voortdurend om de suprematie op het SWE-Bench-leaderboard.
De opwinding rond deze benchmarks kan echter misleidend zijn. John Yang, een onderzoeker aan Princeton University die betrokken is bij de ontwikkeling van SWE-Bench, merkt op dat de intense competitie om de eerste plaats heeft geleid tot “gaming” van het systeem. Dit roept bezorgdheid op over de vraag of deze benchmarks wel een accurate weerspiegeling zijn van echte AI-prestaties.
Het probleem is niet noodzakelijkerwijs openlijk valsspelen, maar eerder de ontwikkeling van strategieën die specifiek zijn afgestemd op het uitbuiten van de beperkingen van de benchmark. De initiële SWE-Bench was bijvoorbeeld uitsluitend gericht op Python-code, waardoor ontwikkelaars werden gestimuleerd om hun modellen uitsluitend op Python te trainen. Yang observeerde dat deze hoogscorende modellen vaak faalden wanneer ze werden geconfronteerd met verschillende programmeertalen, wat een oppervlakkig begrip blootlegde dat hij beschrijft als “verguld”.
"Het ziet er op het eerste gezicht mooi en glimmend uit, maar als je het op een andere taal probeert uit te voeren, valt het hele ding uit elkaar," legt Yang uit. "Op dat moment ben je geen software-engineeringagent aan het ontwerpen. Je bent aan het ontwerpen om een SWE-Bench-agent te maken, wat veel minder interessant is."
Dit "SWE-Bench-probleem" weerspiegelt een bredere uitdaging in AI-evaluatie. Benchmarks, die ooit als betrouwbare indicatoren van vooruitgang werden beschouwd, raken steeds meer losgekoppeld van real-world capaciteiten. Als complicerende factor zijn er zorgen over transparantie opgedoken, wat het vertrouwen in deze metrieken verder ondermijnt. Ondanks deze problemen blijven benchmarks een cruciale rol spelen in de modelontwikkeling, ook al betwijfelen veel experts hun inherente waarde. OpenAI mede-oprichter Andrej Karpathy heeft de huidige situatie zelfs een "evaluatiecrisis" genoemd, waarbij hij klaagt over het gebrek aan betrouwbare methoden voor het meten van AI-capaciteiten en het ontbreken van een duidelijk pad voorwaarts.
Vanessa Parli, directeur onderzoek bij Stanford University’s Institute for Human-Centered AI, vraagt: "Historisch gezien waren benchmarks de manier waarop we AI-systemen evalueerden. Is dat de manier waarop we systemen in de toekomst willen evalueren? En zo niet, wat is dan de manier?"
Een groeiende groep academici en AI-onderzoekers pleit voor een meer gerichte aanpak, waarbij inspiratie wordt gehaald uit de sociale wetenschappen. Ze stellen voor om prioriteit te geven aan "validiteit", een concept dat centraal staat in de kwantitatieve sociale wetenschappen, dat beoordeelt hoe goed een meetinstrument het beoogde construct accuraat vastlegt. Deze nadruk op validiteit zou benchmarks kunnen uitdagen die vaag gedefinieerde concepten evalueren, zoals "redeneren" of "wetenschappelijke kennis". Hoewel het de jacht op artificial general intelligence (AGI) kan temperen, zou het een stevigere basis bieden voor het evalueren van individuele modellen.
Abigail Jacobs, een professor aan de University of Michigan en een leidende stem in de roep om validiteit, stelt: "Validiteit serieus nemen betekent vragen aan mensen in de academische wereld, de industrie of waar dan ook om aan te tonen dat hun systeem doet wat ze zeggen dat het doet. Ik denk dat het wijst op een zwakte in de AI-wereld als ze niet willen aantonen dat ze hun bewering kunnen onderbouwen."
De Limieten van Traditioneel Testen
De afhankelijkheid van de AI-industrie van benchmarks komt voort uit hun eerdere successen, met name in uitdagingen zoals ImageNet.
ImageNet, gelanceerd in 2010, presenteerde onderzoekers een database van meer dan 3 miljoen afbeeldingen, gecategoriseerd in 1.000 verschillende klassen. De uitdaging was methode-agnostisch, waardoor elk succesvol algoritme geloofwaardigheid kon verwerven, ongeacht de onderliggende aanpak. De doorbraak van AlexNet in 2012, die een onconventionele vorm van GPU-training gebruikte, werd een hoeksteen van moderne AI. Hoewel weinigen hadden kunnen voorspellen dat AlexNet’s convolutionele neurale netwerken beeldherkenning zouden ontsluiten, maakte de hoge score alle twijfels teniet. (Opmerkelijk is dat een van de ontwikkelaars van AlexNet mede-oprichter werd van OpenAI.)
De effectiviteit van ImageNet vloeide voort uit de nauwe afstemming tussen de uitdaging en real-world beeldherkenningstaken. Zelfs met debatten over methoden demonstreerde het hoogst scorende model steevast superieure prestaties in praktische toepassingen.
In de jaren daarna hebben AI-onderzoekers deze methode-agnostische aanpak echter toegepast op steeds algemenere taken. SWE-Bench wordt bijvoorbeeld vaak gebruikt als een proxy voor een bredere codeervaardigheid, terwijl andere examengerichte benchmarks worden gebruikt om het redeneervermogen te meten. Deze brede reikwijdte maakt het moeilijk om rigoureus te definiëren wat een specifieke benchmark meet, wat een verantwoorde interpretatie van de bevindingen belemmert.
Waar Dingen Misgaan
Anka Reuel, een PhD-student aan Stanford, stelt dat de drang naar algemeenheid de oorzaak is van het evaluatieprobleem. "We zijn overgestapt van taakspecifieke modellen naar general-purpose modellen," zegt Reuel. "Het gaat niet meer om een enkele taak, maar om een heleboel taken, dus evaluatie wordt moeilijker."
Net als Jacobs is Reuel van mening dat "het belangrijkste probleem met benchmarks validiteit is, zelfs meer dan de praktische implementatie," en merkt op: "Dat is waar veel dingen misgaan." Voor complexe taken zoals coderen is het bijna onmogelijk om elk denkbaar scenario in een probleemset te omvatten. Bijgevolg wordt het moeilijk om te onderscheiden of de hogere score van een model een weerspiegeling is van echte codeervaardigheid of simpelweg slimme manipulatie van de probleemset. De intense druk om recordscores te behalen, stimuleert verder tot het nemen van shortcuts.
Ontwikkelaars hopen dat succes in een veelvoud van specifieke benchmarks zal resulteren in een algemeen capabel model. De opkomst van agentic AI, waarbij een enkel systeem een complexe reeks modellen kan integreren, maakt het echter moeilijk om te evalueren of verbeteringen op specifieke taken zullen generaliseren. "Er zijn gewoon veel meer knoppen waaraan je kunt draaien," zegt Sayash Kapoor, een computerwetenschapper aan Princeton en een criticus van slordige praktijken in de AI-industrie. "Als het op agents aankomt, hebben ze de best practices voor evaluatie min of meer opgegeven."
In een paper gepubliceerd afgelopen juli, benadrukte Kapoor specifieke problemen met de manier waarop AI-modellen de WebArena-benchmark benaderden in 2024, die het vermogen van een AI-agent om op het web te navigeren test. De benchmark bestaat uit meer dan 800 taken uitgevoerd op gekloonde websites die Reddit, Wikipedia en andere nabootsen. Kapoor en zijn team ontdekten dat het winnende model, STeP, de structuur van Reddit-URL’s exploiteerde om direct toegang te krijgen tot gebruikersprofielpagina’s, een frequente vereiste in WebArena-taken.
Hoewel het geen openlijk valsspelen is, beschouwt Kapoor dit als een "serieuze verkeerde voorstelling van hoe goed de agent zou werken als hij de taken in WebArena voor het eerst zou hebben gezien." Ondanks dit heeft OpenAI’s webagent, Operator, sindsdien een vergelijkbaar beleid aangenomen.
Kapoor en een team van onderzoekers publiceerden onlangs een paper die de problemen met AI-benchmarks verder illustreert, waarin significante problemen in Chatbot Arena, een populair crowdsourced evaluatiesysteem, werden onthuld. Hun bevindingen gaven aan dat het leaderboard werd gemanipuleerd, waarbij sommige top foundation-modellen zich bezighielden met niet-openbaar gemaakte private tests en selectief hun scores vrijgaven.
Zelfs ImageNet, de benchmark waarmee het allemaal begon, kampt nu met validiteitsproblemen. Een studie uit 2023 door onderzoekers aan de University of Washington en Google Research wees uit dat ImageNet-winnende algoritmen "weinig tot geen vooruitgang" vertoonden wanneer ze werden toegepast op zes real-world datasets, wat suggereert dat de externe validiteit van de test zijn limiet had bereikt.
Kleiner Gaan
Om het validiteitsprobleem aan te pakken, stellen sommige onderzoekers voor om benchmarks opnieuw te verbinden met specifieke taken. Zoals Reuel het verwoordt, moeten AI-ontwikkelaars "hun toevlucht nemen tot deze high-level benchmarks die bijna zinloos zijn voor downstream consumenten, omdat de benchmarkontwikkelaars de downstream taak niet meer kunnen anticiperen."
In november 2024 lanceerde Reuel BetterBench, een publiek rankingproject dat benchmarks evalueert op basis van verschillende criteria, waaronder de duidelijkheid van codedocumentatie en, cruciaal, de validiteit van de benchmark bij het meten van de aangegeven capaciteit. BetterBench daagt ontwerpers uit om duidelijk te definiëren wat hun benchmark test en hoe het zich verhoudt tot de taken die de benchmark omvatten.
"Je moet een structurele uitsplitsing van de capaciteiten hebben," zegt Reuel. "Wat zijn de feitelijke vaardigheden waar je om geeft, en hoe operationaliseer je ze in iets dat we kunnen meten?"
De resultaten zijn onthullend. De Arcade Learning Environment (ALE), opgericht in 2013 om het vermogen van modellen te testen om te leren hoe ze Atari 2600-games kunnen spelen, komt naar voren als een van de hoogst scorende benchmarks. Omgekeerd krijgt de Massive Multitask Language Understanding (MMLU) benchmark, een veelgebruikte test voor algemene taalvaardigheden, een van de laagste scores vanwege een slecht gedefinieerde verbinding tussen de vragen en de onderliggende vaardigheid.
Hoewel BetterBench nog geen significante invloed heeft gehad op de reputaties van specifieke benchmarks, heeft het met succes validiteit in de voorhoede van discussies gebracht over hoe AI-benchmarks kunnen worden verbeterd. Reuel is toegetreden tot een nieuwe onderzoeksgroep die wordt gehost door Hugging Face, de Universiteit van Edinburgh en EleutherAI, waar ze haar ideeën over validiteit en AI-modelevaluatie verder zal ontwikkelen.
Irene Solaiman, Hugging Face’s hoofd van het wereldwijde beleid, zegt dat de groep zich zal richten op het bouwen van valide benchmarks die verder gaan dan het meten van eenvoudige capaciteiten. "Er is gewoon zoveel honger naar een goede benchmark van de plank die al werkt," zegt Solaiman. "Veel evaluaties proberen te veel te doen."
De bredere industrie lijkt het eens te worden over dit standpunt. In een paper gepubliceerd in maart, schetsten onderzoekers van Google, Microsoft, Anthropic en anderen een nieuw kader voor het verbeteren van evaluaties, met validiteit als hoeksteen.
"AI-evaluatiewetenschap moet verder gaan dan grofkorrelige beweringen van ‘algemene intelligentie’ en zich richten op meer taakspecifieke en real-world relevante metingen van vooruitgang," beargumenteren de onderzoekers.
Het Meten van de "Zachte" Dingen
Om deze verschuiving te vergemakkelijken, wenden sommige onderzoekers zich tot de tools van de sociale wetenschappen. Een positiepaper uit februari stelde dat "het evalueren van GenAI-systemen een meetuitdaging van de sociale wetenschappen is," en onderzocht specifiek hoe sociale wetenschappelijke validiteitssystemen kunnen worden toegepast op AI-benchmarking.
De auteurs, voornamelijk van de onderzoeksafdeling van Microsoft, maar ook academici van Stanford en de Universiteit van Michigan, wijzen op de standaarden die sociale wetenschappers gebruiken om omstreden concepten zoals ideologie, democratie en mediabias te meten. Toegepast op AI-benchmarks zouden dezelfde procedures een manier kunnen bieden om concepten als "redeneren" en "wiskundige vaardigheid" te meten zonder hun toevlucht te nemen tot vage generalisaties.
Sociale wetenschappelijke literatuur benadrukt het belang van het rigoureus definiëren van het concept dat wordt gemeten. Een test die is ontworpen om het niveau van democratie in een samenleving te meten, moet bijvoorbeeld eerst een duidelijke definitie van een "democratische samenleving" vaststellen en vervolgens vragen formuleren die relevant zijn voor die definitie.
Om dit toe te passen op een benchmark zoals SWE-Bench, zouden ontwerpers de traditionele machine learning-aanpak moeten loslaten van het verzamelen van programmeerproblemen van GitHub en het creëren van een schema om antwoorden te valideren. In plaats daarvan zouden ze eerst definiëren wat de benchmark wil meten (bijvoorbeeld "vermogen om gemarkeerde problemen in software op te lossen"), dat opsplitsen in subvaardigheden (bijvoorbeeld verschillende soorten problemen of programmastructuren) en vervolgens vragen construeren die die subvaardigheden nauwkeurig dekken.
Voor onderzoekers zoals Jacobs is deze ingrijpende verschuiving ten opzichte van hoe AI-onderzoekers benchmarking doorgaans benaderen precies het punt. "Er is een mismatch tussen wat er in de tech-industrie gebeurt en deze tools uit de sociale wetenschappen," zegt ze. "We hebben decennia en decennia nagedacht over hoe we deze zachte dingen over mensen willen meten."
Ondanks de groeiende impact van deze ideeën in de onderzoeksgemeenschap, is hun invloed op hoe AI-bedrijven daadwerkelijk benchmarks gebruiken traag geweest.
Recente modelreleases van OpenAI, Anthropic, Google en Meta blijven sterk vertrouwen op multiple-choice kennisbenchmarks zoals MMLU, de aanpak die validiteitsonderzoekers juist proberen te overstijgen. Modelreleases richten zich, voor het grootste deel, nog steeds op het aantonen van toename in algemene intelligentie, en brede benchmarks worden gebruikt om deze beweringen te ondersteunen.
Sommige waarnemers vinden dit bevredigend. Wharton professor Ethan Mollick suggereert dat benchmarks, ondanks dat ze "slechte maatstaven voor dingen zijn, ook zijn wat we hebben." Hij voegt eraan toe: "Tegelijkertijd worden de modellen beter. Veel zonden worden vergeven door snelle vooruitgang."
Voorlopig lijkt de langdurige focus van de industrie op artificial general intelligence een meer gerichte, op validiteit gebaseerde aanpak te overschaduwen. Zolang AI-modellen blijven vorderen in algemene intelligentie, lijken specifieke toepassingen minder dwingend, zelfs als beoefenaars tools gebruiken die ze niet langer volledig vertrouwen.
"Dit is het koord waarover we lopen," zegt Solaiman van Hugging Face. "Het is te gemakkelijk om het systeem eruit te gooien, maar evaluaties zijn echt nuttig om onze modellen te begrijpen, zelfs met deze beperkingen."