Przemyślenia o benchmarkach AI

Społeczność sztucznej inteligencji (AI) często kieruje się wynikami benchmarków w dążeniu do doskonalszej AI, ale czy te wyniki naprawdę wskazują na rzeczywiste możliwości? Społeczność AI zmaga się z tym pytaniem, ponieważ tradycyjne benchmarki poddawane są coraz większej kontroli.

SWE-Bench, wprowadzony w listopadzie 2024 roku, szybko zyskał popularność jako narzędzie do oceny umiejętności kodowania modeli AI. Wykorzystuje ponad 2000 autentycznych wyzwań programistycznych wyekstrahowanych z publicznych repozytoriów GitHub w kilkunastu projektach opartych na Pythonie. Wysoki wynik SWE-Bench stał się pożądaną odznaką, widoczną w głównych wydaniach modeli od wiodących twórców AI, takich jak OpenAI, Anthropic i Google. Oprócz tych gigantów, firmy AI specjalizujące się w dostrajaniu nieustannie walczą o supremację w rankingu SWE-Bench.

Jednakże, zapał otaczający te benchmarki może być mylący. John Yang, badacz z Princeton University zaangażowany w rozwój SWE-Bench, zauważa, że intensywna konkurencja o czołowe miejsce doprowadziła do “ogrywania” systemu. Budzi to obawy o to, czy te benchmarki dokładnie odzwierciedlają autentyczne osiągnięcia AI.

Problem niekoniecznie polega na jawnym oszustwie, ale raczej na rozwoju strategii specjalnie dostosowanych do wykorzystywania ograniczeń benchmarku. Na przykład, początkowy SWE-Bench skupiał się wyłącznie na kodzie Pythona, zachęcając programistów do trenowania swoich modeli wyłącznie na Pythonie. Yang zaobserwował, że te wysoko punktowane modele często zawodziły w konfrontacji z różnymi językami programowania, ujawniając powierzchowne zrozumienie, które opisuje jako “pozłacane”.

"Wygląda ładnie i błyszcząco na pierwszy rzut oka, ale kiedy próbujesz uruchomić go w innym języku, wszystko się rozpada", wyjaśnia Yang. "W tym momencie nie projektujesz agenta inżynierii oprogramowania. Projektujesz agenta SWE-Bench, co jest znacznie mniej interesujące".

Ten “problem SWE-Bench” odzwierciedla szersze wyzwanie w ocenie AI. Benchmarki, uważane kiedyś za wiarygodne wskaźniki postępu, są coraz bardziej oderwane od rzeczywistych możliwości. Problem pogłębiają obawy dotyczące przejrzystości, które dodatkowo podważają zaufanie do tych metryk. Pomimo tych problemów, benchmarki nadal odgrywają kluczową rolę w rozwoju modeli, mimo że wielu ekspertów kwestionuje ich nieodłączną wartość. Współzałożyciel OpenAI, Andrej Karpathy, określił obecną sytuację nawet jako “kryzys ewaluacji”, ubolewając nad brakiem zaufanych metod pomiaru możliwości AI i brakiem jasnej drogi naprzód.

Vanessa Parli, dyrektor ds. badań w Stanford University’s Institute for Human-Centered AI, pyta: "Historycznie benchmarki były sposobem, w jaki ocenialiśmy systemy AI. Czy w ten sposób chcemy oceniać systemy w przyszłości? A jeśli nie, to jaki jest sposób?"

Rosnący kontyngent naukowców i badaczy AI opowiada się za bardziej skoncentrowanym podejściem, czerpiąc inspirację z nauk społecznych. Proponują priorytetowe traktowanie “trafności” (validity), koncepcji centralnej dla ilościowych nauk społecznych, która ocenia, jak dobrze narzędzie pomiarowe dokładnie rejestruje zamierzony konstrukt. To nacisk na trafność mógłby zakwestionować benchmarki, które oceniają niejasno zdefiniowane koncepcje, takie jak “rozumowanie” lub “wiedza naukowa”. Chociaż może to złagodzić pogoń za sztuczną inteligencją ogólną (AGI), zapewniłoby to solidniejszą podstawę do oceny poszczególnych modeli.

Abigail Jacobs, profesor na University of Michigan i czołowy głos w dążeniu do trafności, twierdzi: "Poważne traktowanie trafności oznacza poproszenie osób z akademii, przemysłu lub skądkolwiek, aby pokazały, że ich system robi to, co mówią, że robi. Myślę, że wskazuje to na słabość w świecie AI, jeśli chcą wycofać się z pokazywania, że mogą poprzeć swoje twierdzenie."

Ograniczenia Tradycyjnego Testowania

Poleganie przemysłu AI na benchmarkach wynika z ich wcześniejszych sukcesów, szczególnie w wyzwaniach takich jak ImageNet.

ImageNet, uruchomiony w 2010 roku, przedstawił badaczom bazę danych zawierającą ponad 3 miliony obrazów skategoryzowanych na 1000 różnych klas. Wyzwanie było agnostyczne metodologicznie, pozwalając każdemu udanemu algorytmowi zdobyć wiarygodność niezależnie od jego podstawowego podejścia. Przełom AlexNet w 2012 roku, który wykorzystywał niekonwencjonalną formę treningu GPU, stał się kamieniem węgielnym współczesnej AI. Chociaż niewielu mogło przewidzieć, że konwolucyjne sieci neuronowe AlexNet odblokują rozpoznawanie obrazów, jego wysoki wynik uciszył wszelkie wątpliwości. (Warto zauważyć, że jeden z twórców AlexNet został później współzałożycielem OpenAI).

Skuteczność ImageNet wynikała z bliskiego dopasowania między wyzwaniem a rzeczywistymi zadaniami rozpoznawania obrazów. Nawet przy debatach o metodach, najwyżej punktowany model niezmiennie wykazywał lepszą wydajność w praktycznych zastosowaniach.

Jednak w latach, które minęły od tego czasu, badacze AI zastosowali to samo agnostyczne metodologicznie podejście do coraz bardziej ogólnych zadań. SWE-Bench, na przykład, jest często używany jako substytut szerszych umiejętności kodowania, podczas gdy inne benchmarki w stylu egzaminacyjnym są używane do oceny zdolności rozumowania. Ten szeroki zakres utrudnia rygorystyczne zdefiniowanie, co mierzy konkretny benchmark, utrudniając odpowiedzialną interpretację wyników.

Gdzie Rzeczy Się Psują

Anka Reuel, doktorantka na Stanford, argumentuje, że dążenie do ogólności leży u podstaw problemu oceny. "Przeszliśmy od modeli specyficznych dla zadań do modeli ogólnego przeznaczenia", mówi Reuel. "Nie chodzi już o jedno zadanie, ale o całą masę zadań, więc ocena staje się trudniejsza."

Podobnie jak Jacobs, Reuel uważa, że "głównym problemem z benchmarkami jest trafność, nawet bardziej niż praktyczna implementacja", zauważając: "To tam wiele rzeczy się psuje." W przypadku złożonych zadań, takich jak kodowanie, prawie niemożliwe jest objęcie każdego możliwego scenariusza w zestawie problemów. W konsekwencji trudno jest rozpoznać, czy wyższy wynik modelu odzwierciedla autentyczne umiejętności kodowania, czy po prostu sprytną manipulację zestawem problemów. Intensywna presja na osiągnięcie rekordowych wyników dodatkowo zachęca do pójścia na skróty.

Programiści mają nadzieję, że sukces w wielu konkretnych benchmarkach przełoży się na ogólnie zdolny model. Jednak rozwój AI agentowej, gdzie pojedynczy system może zawierać złożony zestaw modeli, utrudnia ocenę, czy poprawa w konkretnych zadaniach będzie się generalizować. "Jest po prostu wiele więcej pokręteł, którymi można kręcić", mówi Sayash Kapoor, informatyk z Princeton i krytyk niechlujnych praktyk w przemyśle AI. "Jeśli chodzi o agentów, zrezygnowali oni z najlepszych praktyk w zakresie oceny."

W artykule opublikowanym w lipcu ubiegłego roku Kapoor zwrócił uwagę na konkretne problemy z tym, jak modele AI podchodziły do benchmarku WebArena w 2024 roku, który testuje zdolność agenta AI do poruszania się po sieci. Benchmark składa się z ponad 800 zadań wykonywanych na sklonowanych stronach internetowych naśladujących Reddit, Wikipedię i inne. Kapoor i jego zespół odkryli, że zwycięski model, STeP, wykorzystał strukturę adresów URL Reddita, aby bezpośrednio uzyskiwać dostęp do stron profili użytkowników, co jest częstym wymogiem w zadaniach WebArena.

Chociaż nie jest to jawne oszustwo, Kapoor uważa to za "poważne przekłamanie tego, jak dobrze agent by działał, gdyby widział zadania w WebArena po raz pierwszy." Pomimo tego, agent internetowy OpenAI, Operator, od tego czasu przyjął podobną politykę.

Dodatkowo ilustrując problemy z benchmarkami AI, Kapoor i zespół badaczy opublikowali niedawno artykuł ujawniający istotne problemy w Chatbot Arena, popularnym systemie oceny opartym na crowdsourcingu. Ich ustalenia wskazywały, że leaderboard był manipulowany, a niektóre najlepsze modele bazowe angażowały się w nieujawnione prywatne testy i selektywnie publikowały swoje wyniki.

Nawet ImageNet, benchmark, od którego wszystko się zaczęło, stoi teraz w obliczu problemów z trafnością. Badanie z 2023 roku przeprowadzone przez badaczy z University of Washington i Google Research wykazało, że algorytmy, które wygrały ImageNet, wykazały "niewielki lub żaden postęp" po zastosowaniu do sześciu rzeczywistych zestawów danych, co sugeruje, że zewnętrzna trafność testu osiągnęła swój limit.

Kierunek Mniejsze

Aby rozwiązać problem trafności, niektórzy badacze proponują ponowne połączenie benchmarków z konkretnymi zadaniami. Jak ujął to Reuel, twórcy AI "muszą uciekać się do tych wysokopoziomowych benchmarków, które są prawie bez znaczenia dla konsumentów końcowych, ponieważ twórcy benchmarków nie mogą już przewidzieć zadania końcowego."

W listopadzie 2024 roku Reuel uruchomiła BetterBench, publiczny projekt rankingowy, który ocenia benchmarki na podstawie różnych kryteriów, w tym przejrzystości dokumentacji kodu i, co najważniejsze, trafności benchmarku w pomiarze deklarowanych możliwości. BetterBench rzuca wyzwanie projektantom, aby jasno zdefiniowali, co testuje ich benchmark i jak odnosi się to do zadań, które składają się na benchmark.

"Musisz mieć strukturalny podział możliwości", mówi Reuel. "Jakie są rzeczywiste umiejętności, na których ci zależy, i jak przekształcić je w coś, co możemy zmierzyć?"

Wyniki są odkrywcze. Arcade Learning Environment (ALE), utworzone w 2013 roku w celu testowania zdolności modeli do uczenia się gry w gry Atari 2600, okazuje się jednym z najwyżej punktowanych benchmarków. I odwrotnie, Massive Multitask Language Understanding (MMLU) benchmark, szeroko stosowany test umiejętności językowych ogólnych, otrzymuje jeden z najniższych wyników z powodu słabo zdefiniowanego związku między pytaniami a podstawową umiejętnością.

Chociaż BetterBench nie wpłynął jeszcze znacząco na reputację konkretnych benchmarków, z powodzeniem wprowadził trafność na pierwszy plan dyskusji o tym, jak ulepszyć benchmarki AI. Reuel dołączyła do nowej grupy badawczej prowadzonej przez Hugging Face, University of Edinburgh i EleutherAI, gdzie będzie dalej rozwijać swoje pomysły na temat trafności i oceny modeli AI.

Irene Solaiman, szefowa globalnej polityki w Hugging Face, mówi, że grupa skupi się na budowaniu trafnych benchmarków, które wykraczają poza pomiar prostych możliwości. "Jest po prostu tak duży głód dobrego benchmarku z półki, który już działa", mówi Solaiman. "Wiele ocen próbuje zrobić zbyt wiele."

Wydaje się, że szerszy przemysł zmierza do tego poglądu. W artykule opublikowanym w marcu badacze z Google, Microsoft, Anthropic i innych firm przedstawili nowe ramy poprawy ocen, w których trafność jest kamieniem węgielnym.

"Nauka o ocenie AI musi", argumentują badacze, "wyjść poza ogólne twierdzenia o ‘ogólnej inteligencji’ w kierunku bardziej specyficznych dla zadań i rzeczywistych miar postępu."

Mierzenie Rzeczy “Miękkich”

Aby ułatwić to przesunięcie, niektórzy badacze zwracają się ku narzędziom nauk społecznych. W lutowym dokumencie stanowiska argumentowano, że "ocena systemów GenAI jest wyzwaniem pomiarowym nauk społecznych", w szczególności badając, w jaki sposób systemy trafności nauk społecznych można zastosować do benchmarkingu AI.

Autorzy, głównie z oddziału badawczego Microsoftu, ale także z udziałem naukowców ze Stanford i University of Michigan, wskazują na standardy, których naukowcy społeczni używają do pomiaru spornych koncepcji, takich jak ideologia, demokracja i stronniczość mediów. Zastosowane do benchmarków AI, te same procedury mogłyby zapewnić sposób pomiaru koncepcji takich jak “rozumowanie” i “biegłość w matematyce” bez uciekania się do mglistych uogólnień.

Literatura nauk społecznych podkreśla znaczenie rygorystycznego zdefiniowania mierzonej koncepcji. Na przykład, test zaprojektowany do pomiaru poziomu demokracji w społeczeństwie musi najpierw ustalić jasną definicję “demokratycznego społeczeństwa”, a następnie sformułować pytania istotne dla tej definicji.

Aby zastosować to do benchmarku takiego jak SWE-Bench, projektanci musieliby porzucić tradycyjne podejście uczenia maszynowego polegające na zbieraniu problemów programistycznych z GitHub i tworzeniu schematu walidacji odpowiedzi. Zamiast tego najpierw zdefiniowaliby, co benchmark ma na celu zmierzyć (np. “zdolność do rozwiązywania oznaczonych problemów w oprogramowaniu”), podzieliliby to na podumiejętności (np. różne rodzaje problemów lub struktur programów), a następnie skonstruowali pytania, które dokładnie obejmują te podumiejętności.

Dla badaczy takich jak Jacobs to głębokie odejście od sposobu, w jaki badacze AI zwykle podchodzą do benchmarkingu, jest właśnie sednem sprawy. "Istnieje niedopasowanie między tym, co dzieje się w branży technologicznej, a tymi narzędziami z nauk społecznych", mówi. "Mamy dziesiątki lat myślenia o tym, jak chcemy mierzyć te miękkie rzeczy o ludziach."

Pomimo rosnącego wpływu tych idei w społeczności badawczej, ich wpływ na to, jak firmy AI faktycznie wykorzystują benchmarki, jest powolny.

Niedawne wydania modeli od OpenAI, Anthropic, Google i Meta nadal w dużym stopniu polegają na benchmarkach wiedzy wielokrotnego wyboru, takich jak MMLU, czyli na podejściu, które badacze trafności próbują porzucić. Wydania modeli, w większości, nadal koncentrują się na wykazywaniu wzrostu inteligencji ogólnej, a szerokie benchmarki są wykorzystywane do poparcia tych twierdzeń.

Niektórzy obserwatorzy uważają to za zadowalające. Profesor Wharton, Ethan Mollick, sugeruje, że benchmarki, pomimo bycia "złymi miarami rzeczy, są również tym, co mamy." Dodaje: "Jednocześnie modele stają się lepsze. Wiele grzechów zostaje odpuszczonych przez szybki postęp."

Na razie długotrwałe skupienie się przemysłu na sztucznej inteligencji ogólnej wydaje się przyćmiewać bardziej skoncentrowane, oparte na trafności podejście. Dopóki modele AI będą postępować w inteligencji ogólnej, konkretne zastosowania wydają się mniej przekonujące, nawet jeśli praktycy używają narzędzi, którym już w pełni nie ufają.

"To jest lina, po której chodzimy", mówi Solaiman z Hugging Face. "Zbyt łatwo jest wyrzucić system, ale oceny są naprawdę pomocne w zrozumieniu naszych modeli, nawet z tymi ograniczeniami."