Die Suche nach überlegener künstlicher Intelligenz (KI) wird oft durch Benchmark-Ergebnisse befeuert, aber sind diese Ergebnisse wirklich ein Indikator für reale Fähigkeiten? Die KI-Community ringt mit dieser Frage, da traditionelle Benchmarks zunehmend unter die Lupe genommen werden.
SWE-Bench, eingeführt im November 2024, gewann schnell an Bedeutung als beliebtes Werkzeug zur Beurteilung der Programmierfähigkeiten eines KI-Modells. Es nutzt über 2.000 authentische Programmieraufgaben, die aus öffentlichen GitHub-Repositories aus einem Dutzend Python-basierter Projekte extrahiert wurden. Ein starkes SWE-Bench-Ergebnis ist zu einem begehrten Abzeichen geworden, das prominent in wichtigen Modellversionen von führenden KI-Entwicklern wie OpenAI, Anthropic und Google präsentiert wird. Jenseits dieser Giganten wetteifern KI-Firmen, die sich auf Feinabstimmung spezialisiert haben, ständig um die Vorherrschaft auf der SWE-Bench-Bestenliste.
Allerdings könnte die Begeisterung für diese Benchmarks irreführend sein. John Yang, ein Forscher an der Princeton University, der an der Entwicklung von SWE-Bench beteiligt ist, stellt fest, dass der intensive Wettbewerb um den Spitzenplatz zu einem “Gaming” des Systems geführt hat. Dies wirft Bedenken auf, ob diese Benchmarks tatsächlich echte KI-Leistungen widerspiegeln.
Das Problem ist nicht unbedingt offenes Betrügen, sondern eher die Entwicklung von Strategien, die speziell auf die Ausnutzung der Einschränkungen des Benchmarks zugeschnitten sind. Beispielsweise konzentrierte sich das ursprüngliche SWE-Bench ausschließlich auf Python-Code und incentivierte Entwickler, ihre Modelle ausschließlich mit Python zu trainieren. Yang beobachtete, dass diese hochbewerteten Modelle oft versagten, wenn sie mit anderen Programmiersprachen konfrontiert wurden, was ein oberflächliches Verständnis offenbart, das er als “vergoldet” bezeichnet.
"Es sieht auf den ersten Blick schön und glänzend aus, aber wenn man versucht, es in einer anderen Sprache auszuführen, fällt das Ganze irgendwie auseinander", erklärt Yang. "An diesem Punkt entwirft man keinen Software-Engineering-Agenten mehr. Man entwirft einen SWE-Bench-Agenten, was viel weniger interessant ist."
Dieses "SWE-Bench-Problem" spiegelt eine breitere Herausforderung bei der KI-Evaluierung wider. Benchmarks, die einst als zuverlässige Indikatoren für Fortschritt galten, entfernen sich zunehmend von realen Fähigkeiten. Erschwerend kommt hinzu, dass Bedenken hinsichtlich der Transparenz aufgetaucht sind, die das Vertrauen in diese Metriken weiter untergraben. Trotz dieser Probleme spielen Benchmarks weiterhin eine zentrale Rolle bei der Modellentwicklung, auch wenn viele Experten ihren inhärenten Wert in Frage stellen. OpenAI-Mitbegründer Andrej Karpathy hat die aktuelle Situation sogar als "Evaluierungskrise" bezeichnet und beklagt das Fehlen vertrauenswürdiger Methoden zur Messung von KI-Fähigkeiten und das Fehlen eines klaren Weges nach vorn.
Vanessa Parli, Forschungsdirektorin am Institute for Human-Centered AI der Stanford University, fragt: "Historisch gesehen waren Benchmarks die Art und Weise, wie wir KI-Systeme evaluiert haben. Ist das die Art und Weise, wie wir Systeme in Zukunft evaluieren wollen? Und wenn nicht, was ist dann der Weg?"
Ein wachsender Teil von Akademikern und KI-Forschern plädiert für einen stärker fokussierten Ansatz, der sich an den Sozialwissenschaften orientiert. Sie schlagen vor, der "Validität" Priorität einzuräumen, einem Konzept, das für die quantitative Sozialwissenschaft von zentraler Bedeutung ist und das beurteilt, wie gut ein Messinstrument das beabsichtigte Konstrukt erfasst. Diese Betonung der Validität könnte Benchmarks in Frage stellen, die vage definierte Konzepte wie "Argumentation" oder "wissenschaftliches Wissen" bewerten. Während dies das Streben nach künstlicher allgemeiner Intelligenz (AGI) mildern könnte, würde es eine solidere Grundlage für die Bewertung einzelner Modelle bieten.
Abigail Jacobs, Professorin an der University of Michigan und eine führende Stimme im Drängen auf Validität, betont: "Validität ernst zu nehmen bedeutet, Leute in der Wissenschaft, Industrie oder wo auch immer aufzufordern, zu zeigen, dass ihr System das tut, was sie sagen, dass es tut. Ich denke, es weist auf eine Schwäche in der KI-Welt hin, wenn sie sich davor scheuen wollen, zu zeigen, dass sie ihre Behauptung untermauern können."
Die Grenzen traditioneller Tests
Die Abhängigkeit der KI-Industrie von Benchmarks beruht auf ihren vergangenen Erfolgen, insbesondere bei Herausforderungen wie ImageNet.
ImageNet, gestartet im Jahr 2010, präsentierte Forschern eine Datenbank mit über 3 Millionen Bildern, die in 1.000 verschiedene Klassen kategorisiert sind. Die Herausforderung war methodenagnostisch und ermöglichte es jedem erfolgreichen Algorithmus, unabhängig von seinem zugrunde liegenden Ansatz, Glaubwürdigkeit zu erlangen. Der Durchbruch von AlexNet im Jahr 2012, der eine unkonventionelle Form des GPU-Trainings nutzte, wurde zu einem Eckpfeiler der modernen KI. Während nur wenige vorhergesagt hätten, dass AlexNets Convolutional Neural Networks die Bilderkennung ermöglichen würden, beseitigte sein hohes Ergebnis alle Zweifel. (Bemerkenswerterweise wurde einer der Entwickler von AlexNet Mitbegründer von OpenAI.)
Die Wirksamkeit von ImageNet beruhte auf der engen Übereinstimmung zwischen der Herausforderung und realen Bilderkennungsaufgaben. Selbst bei Debatten über Methoden zeigte das am höchsten bewertete Modell ausnahmslos eine überlegene Leistung in praktischen Anwendungen.
In den Jahren seither haben KI-Forscher diesen gleichen methodenagnostischen Ansatz jedoch auf zunehmend allgemeine Aufgaben angewendet. SWE-Bench wird beispielsweise oft als Proxy für breitere Programmierfähigkeiten verwendet, während andere prüfungsähnliche Benchmarks verwendet werden, um die Argumentationsfähigkeit zu messen. Dieser breite Umfang erschwert es, rigoros zu definieren, was ein bestimmter Benchmark misst, was eine verantwortungsvolle Interpretation der Ergebnisse behindert.
Wo Dinge auseinanderbrechen
Anka Reuel, eine Doktorandin in Stanford, argumentiert, dass das Streben nach Allgemeingültigkeit die Wurzel des Evaluierungsproblems ist. "Wir haben uns von aufgabenspezifischen Modellen zu Allzweckmodellen bewegt", sagt Reuel. "Es geht nicht mehr um eine einzelne Aufgabe, sondern um eine ganze Reihe von Aufgaben, so dass die Evaluierung schwieriger wird."
Wie Jacobs glaubt Reuel, dass "das Hauptproblem bei Benchmarks die Validität ist, noch mehr als die praktische Umsetzung", und stellt fest: "Dort brechen viele Dinge auseinander." Für komplexe Aufgaben wie das Programmieren ist es nahezu unmöglich, jedes erdenkliche Szenario in einem Aufgabenblock zu erfassen. Folglich wird es schwierig zu erkennen, ob die höhere Punktzahl eines Modells echtes Programmiergeschick widerspiegelt oder einfach nur eine clevere Manipulation des Aufgabenblocks. Der intensive Druck, Rekordwerte zu erzielen, fördert zudem Abkürzungen.
Entwickler hoffen, dass der Erfolg über eine Vielzahl spezifischer Benchmarks zu einem allgemein fähigen Modell führt. Das Aufkommen von agentischer KI, bei der ein einzelnes System eine komplexe Anordnung von Modellen integrieren kann, erschwert jedoch die Bewertung, ob Verbesserungen bei bestimmten Aufgaben generalisieren werden. "Es gibt einfach viel mehr Knöpfe, an denen man drehen kann", sagt Sayash Kapoor, ein Informatiker in Princeton und ein Kritiker schlampiger Praktiken in der KI-Industrie. "Wenn es um Agenten geht, haben sie die Best Practices für die Evaluierung sozusagen aufgegeben."
In einem im vergangenen Juli veröffentlichten Artikel hob Kapoor spezifische Probleme damit hervor, wie KI-Modelle sich dem WebArena-Benchmark im Jahr 2024 näherten, der die Fähigkeit eines KI-Agenten testet, im Web zu navigieren. Der Benchmark besteht aus über 800 Aufgaben, die auf geklonten Websites durchgeführt werden, die Reddit, Wikipedia und andere nachahmen. Kapoor und sein Team entdeckten, dass das Gewinner-Modell, STeP, die Struktur von Reddit-URLs ausnutzte, um direkt auf Benutzerprofilseiten zuzugreifen, eine häufige Anforderung in WebArena-Aufgaben.
Obwohl es sich nicht um offenes Betrügen handelt, betrachtet Kapoor dies als eine "ernsthafte Falschdarstellung, wie gut der Agent funktionieren würde, wenn er die Aufgaben in WebArena zum ersten Mal gesehen hätte." Trotzdem hat OpenAIs Webagent, Operator, seitdem eine ähnliche Richtlinie übernommen.
Um die Probleme mit KI-Benchmarks weiter zu veranschaulichen, veröffentlichten Kapoor und ein Team von Forschern kürzlich einen Artikel, der signifikante Probleme in Chatbot Arena aufdeckte, einem beliebten Crowdsourcing-Evaluierungssystem. Ihre Ergebnisse deuteten darauf hin, dass die Bestenliste manipuliert wurde, wobei einige Top-Foundation-Modelle nicht offengelegte private Tests durchführten und ihre Ergebnisse selektiv veröffentlichten.
Sogar ImageNet, der Benchmark, mit dem alles begann, ist nun mit Validitätsproblemen konfrontiert. Eine Studie von 2023 von Forschern der University of Washington und von Google Research ergab, dass ImageNet-Gewinneralgorithmen "wenig bis gar keinen Fortschritt" zeigten, wenn sie auf sechs reale Datensätze angewendet wurden, was darauf hindeutet, dass die externe Validität des Tests ihre Grenze erreicht hatte.
Kleiner werden
Um das Validitätsproblem anzugehen, schlagen einige Forscher vor, Benchmarks wieder mit spezifischen Aufgaben zu verbinden. Wie Reuel es formuliert, müssen KI-Entwickler "auf diese High-Level-Benchmarks zurückgreifen, die für nachgelagerte Verbraucher fast bedeutungslos sind, weil die Benchmark-Entwickler die nachgelagerte Aufgabe nicht mehr antizipieren können."
Im November 2024 startete Reuel BetterBench, ein öffentliches Ranking-Projekt, das Benchmarks anhand verschiedener Kriterien bewertet, darunter die Klarheit der Code-Dokumentation und, entscheidend, die Validität des Benchmarks bei der Messung seiner angegebenen Fähigkeit. BetterBench fordert Designer heraus, klar zu definieren, was ihr Benchmark testet und wie er sich auf die Aufgaben bezieht, aus denen der Benchmark besteht.
"Man braucht eine strukturelle Aufschlüsselung der Fähigkeiten", sagt Reuel. "Was sind die eigentlichen Fähigkeiten, die Ihnen wichtig sind, und wie operationalisieren Sie sie in etwas, das wir messen können?"
Die Ergebnisse sind aufschlussreich. Die Arcade Learning Environment (ALE), die 2013 gegründet wurde, um die Fähigkeit von Modellen zu testen, das Spielen von Atari 2600-Spielen zu erlernen, erweist sich als einer der am höchsten bewerteten Benchmarks. Umgekehrt erhält der Massive Multitask Language Understanding (MMLU) Benchmark, ein weit verbreiteter Test für allgemeine Sprachkenntnisse, eine der niedrigsten Bewertungen aufgrund einer schlecht definierten Verbindung zwischen den Fragen und den zugrunde liegenden Fähigkeiten.
Obwohl BetterBench die Reputation bestimmter Benchmarks noch nicht wesentlich beeinflusst hat, hat es erfolgreich die Validität in den Vordergrund von Diskussionen darüber gerückt, wie KI-Benchmarks verbessert werden können. Reuel ist einer neuen Forschungsgruppe beigetreten, die von Hugging Face, der University of Edinburgh und EleutherAI gehostet wird, wo sie ihre Ideen zur Validität und KI-Modellbewertung weiterentwickeln wird.
Irene Solaiman, Hugging Faces Leiterin der globalen Politik, sagt, die Gruppe werde sich darauf konzentrieren, valide Benchmarks zu entwickeln, die über die Messung einfacher Fähigkeiten hinausgehen. "Es gibt einfach so viel Hunger nach einem guten Benchmark von der Stange, der bereits funktioniert", sagt Solaiman. "Viele Evaluierungen versuchen, zu viel zu tun."
Die breitere Industrie scheint sich dieser Ansicht anzunähern. In einem im März veröffentlichten Artikel skizzierten Forscher von Google, Microsoft, Anthropic und anderen ein neues Rahmenwerk zur Verbesserung von Evaluierungen, wobei die Validität den Eckpfeiler bildet.
"Die KI-Evaluierungswissenschaft muss", argumentieren die Forscher, "über grobkörnige Behauptungen von ‘allgemeiner Intelligenz’ hinausgehen und sich stärker auf aufgabenspezifische und realitätsnahe Messungen des Fortschritts konzentrieren."
Die "weichen" Dinge messen
Um diesen Wandel zu erleichtern, wenden sich einige Forscher den Werkzeugen der Sozialwissenschaft zu. In einem Positionspapier vom Februar wurde argumentiert, dass "die Bewertung von GenAI-Systemen eine sozialwissenschaftliche Messherausforderung darstellt", wobei insbesondere untersucht wird, wie sozialwissenschaftliche Validitätssysteme auf KI-Benchmarking angewendet werden können.
Die Autoren, hauptsächlich aus dem Forschungszweig von Microsoft, aber auch Akademiker aus Stanford und der University of Michigan, verweisen auf die Standards, die Sozialwissenschaftler verwenden, um umstrittene Konzepte wie Ideologie, Demokratie und Medienvoreingenommenheit zu messen. Auf KI-Benchmarks angewendet, könnten dieselben Verfahren eine Möglichkeit bieten, Konzepte wie "Argumentation" und "mathematische Fähigkeiten" zu messen, ohne auf vage Verallgemeinerungen zurückzugreifen.
Die sozialwissenschaftliche Literatur betont die Bedeutung einer rigorosen Definition des zu messenden Konzepts. Beispielsweise muss ein Test, der das Maß an Demokratie in einer Gesellschaft messen soll, zunächst eine klare Definition einer "demokratischen Gesellschaft" erstellen und dann Fragen formulieren, die für diese Definition relevant sind.
Um dies auf einen Benchmark wie SWE-Bench anzuwenden, müssten die Designer den traditionellen maschinellen Lernansatz des Sammelns von Programmierproblemen von GitHub und des Erstellens eines Schemas zur Validierung von Antworten aufgeben. Stattdessen würden sie zunächst definieren, was der Benchmark messen soll (z. B. "Fähigkeit, markierte Probleme in Software zu beheben"), dies in Teilfähigkeiten aufschlüsseln (z. B. verschiedene Arten von Problemen oder Programmstrukturen) und dann Fragen erstellen, die diese Teilfähigkeiten genau abdecken.
Für Forscher wie Jacobs ist diese tiefgreifende Abkehr von der Art und Weise, wie KI-Forscher typischerweise an Benchmarking herangehen, genau der Punkt. "Es gibt eine Diskrepanz zwischen dem, was in der Technologieindustrie passiert, und diesen Werkzeugen aus der Sozialwissenschaft", sagt sie. "Wir haben Jahrzehnte und Jahrzehnte darüber nachgedacht, wie wir diese weichen Dinge über Menschen messen wollen."
Trotz der wachsenden Auswirkungen dieser Ideen in der Forschungsgemeinschaft ist ihr Einfluss darauf, wie KI-Unternehmen Benchmarks tatsächlich nutzen, langsam.
Jüngste Modellversionen von OpenAI, Anthropic, Google und Meta stützen sich weiterhin stark auf Multiple-Choice-Wissensbenchmarks wie MMLU, genau der Ansatz, den Validitätsforscher zu überwinden versuchen. Modellversionen konzentrieren sich größtenteils immer noch darauf, Zuwächse in der allgemeinen Intelligenz zu demonstrieren, und breite Benchmarks werden verwendet, um diese Behauptungen zu untermauern.
Einige Beobachter finden dies zufriedenstellend. Wharton-Professor Ethan Mollick schlägt vor, dass Benchmarks, obwohl sie "schlechte Maßstäbe für Dinge sind, auch das sind, was wir haben." Er fügt hinzu: "Gleichzeitig werden die Modelle besser. Viele Sünden werden durch schnellen Fortschritt vergeben."
Vorerst scheint der langjährige Fokus der Industrie auf künstliche allgemeine Intelligenz einen stärker fokussierten, validitätsbasierten Ansatz zu überschatten. Solange KI-Modelle in der allgemeinen Intelligenz weiter voranschreiten, scheinen spezifische Anwendungen weniger zwingend, selbst wenn Praktiker Werkzeuge verwenden, denen sie nicht mehr vollständig vertrauen.
"Das ist der Drahtseilakt, auf dem wir uns befinden", sagt Solaiman von Hugging Face. "Es ist zu einfach, das System wegzuwerfen, aber Evaluierungen sind wirklich hilfreich, um unsere Modelle zu verstehen, selbst mit diesen Einschränkungen."