Преосмисляне на AI бенчмарковете

Преследването на превъзходен изкуствен интелект (AI) често се подхранва от резултатите от бенчмарковете, но дали тези резултати наистина са показателни за реалните възможности? AI общността се бори с този въпрос, тъй като традиционните бенчмаркове са изправени пред нарастващ контрол.

SWE-Bench, въведен през ноември 2024 г., бързо набра популярност като популярен инструмент за оценка на уменията на AI модела за кодиране. Той използва над 2000 автентични предизвикателства за програмиране, извлечени от публични GitHub хранилища в дузина проекти, базирани на Python. Силният резултат в SWE-Bench се превърна в желан знак, видно изложен в големи версии на модели от водещи AI разработчици като OpenAI, Anthropic и Google. Отвъд тези гиганти, AI фирми, специализирани в фината настройка, постоянно се борят за надмощие в класацията на SWE-Bench.

Обаче, усърдието около тези бенчмаркове може да бъде подвеждащо. Джон Янг, изследовател в Принстънския университет, участвал в разработването на SWE-Bench, отбелязва, че интензивната конкуренция за първото място е довела до “играене” на системата. Това поражда опасения относно това дали тези бенчмаркове отразяват точно истинските постижения на AI.

Проблемът не е непременно в явното мамят, а по-скоро в разработването на стратегии, специално пригодени да експлоатират ограниченията на бенчмарка. Например, първоначалният SWE-Bench се фокусираше единствено върху Python код, като стимулираше разработчиците да обучават своите модели изключително върху Python. Янг наблюдава, че тези високи резултати често се провалят, когато се сблъскат с различни езици за програмиране, разкривайки повърхностно разбиране, което той описва като “позлатено”.

“На пръв поглед изглежда хубаво и лъскаво, но след това се опитвате да го стартирате на друг език и цялото нещо просто се разпада”, обяснява Янг. “В този момент не проектирате агент за софтуерно инженерство. Проектирате да направите SWE-Bench агент, което е много по-малко интересно.”

Този “SWE-Bench проблем” отразява по-широко предизвикателство в AI оценката. Бенчмарковете, някога смятани за надеждни показатели за напредък, все повече се отделят от реалните възможности. Усложнявайки проблема, се появиха опасения относно прозрачността, допълнително подкопавайки доверието в тези показатели. Въпреки тези проблеми, бенчмарковете продължават да играят ключова роля в разработването на модели, въпреки че много експерти поставят под въпрос тяхната присъща стойност. Съоснователят на OpenAI Андрей Карпати дори нарече настоящата ситуация “криза на оценяването”, оплаквайки се от липсата на надеждни методи за измерване на възможностите на AI и липсата на ясен път напред.

Ванеса Парли, директор на изследванията в Института за AI, ориентиран към човека в Станфордския университет, пита: “Исторически, бенчмарковете бяха начинът, по който оценявахме AI системите. Това ли е начинът, по който искаме да оценяваме системите занапред? И ако не е, какъв е начинът?”

Нарастваща група учени и AI изследователи се застъпват за по-целенасочен подход, черпейки вдъхновение от социалните науки. Те предлагат да се даде приоритет на “валидността”, концепция, която е централна за количествената социална наука, която оценява колко добре инструментът за измерване точно улавя предвидения конструкт. Този акцент върху валидността може да оспори бенчмарковете, които оценяват неясно определени концепции като “разсъждение” или “научни знания”. Въпреки че може да смекчи стремежа към изкуствен общ интелект (AGI), той ще осигури по-солидна основа за оценка на отделните модели.

Абигейл Джейкъбс, професор в Мичиганския университет и водещ глас в стремежа към валидност, твърди: “Приемането на валидността сериозно означава да се поиска от хората в академичните среди, индустрията или където и да е да покажат, че тяхната система прави това, което казват, че прави. Мисля, че това сочи към слабост в AI света, ако те искат да се отдръпнат от това да покажат, че могат да подкрепят твърдението си.”

Ограниченията на традиционното тестване

Разчитането на индустрията за AI на бенчмаркове произтича от техните минали успехи, особено в предизвикателства като ImageNet.

ImageNet, стартиран през 2010 г., представи на изследователите база данни с над 3 милиона изображения, категоризирани в 1000 различни класа. Предизвикателството беше агностично по отношение на метода, позволявайки на всеки успешен алгоритъм да придобие доверие, независимо от неговия основен подход. Пробивът на AlexNet през 2012 г., който използва неконвенционална форма на GPU обучение, се превърна в крайъгълен камък на съвременния AI. Докато малцина биха могли да предвидят, че конволюционните невронни мрежи на AlexNet ще отключат разпознаването на изображения, високият му резултат заглуши всякакви съмнения. (Забележително е, че един от разработчиците на AlexNet продължи да съосновава OpenAI.)

Ефективността на ImageNet произтича от близкото съответствие между предизвикателството и реалните задачи за разпознаване на изображения. Дори и с дебати за методите, моделът с най-висок резултат неизменно демонстрира превъзходна производителност в практически приложения.

Обаче, през годините след това, AI изследователите са приложили същия агностичен подход към все по-общи задачи. SWE-Bench, например, често се използва като прокси за по-широка способност за кодиране, докато други бенчмаркове в стил изпит се използват за оценка на способността за разсъждение. Този широк обхват затруднява стриктното определяне на това какво измерва конкретен бенчмарк, възпрепятствайки отговорното тълкуване на резултатите.

Къде нещата се разпадат

Анка Ройел, докторант в Станфорд, твърди, че стремежът към общност е в основата на проблема с оценката. “Преминахме от модели, специфични за задачата, към модели с общо предназначение”, казва Ройел. “Вече не става въпрос за една задача, а за цяла купчина задачи, така че оценката става по-трудна.”

Подобно на Джейкъбс, Ройел вярва, че “основният проблем с бенчмарковете е валидността, дори повече от практическото изпълнение”, отбелязвайки: “Там много неща се разпадат.” За сложни задачи като кодиране, е почти невъзможно да се обхване всеки възможен сценарий в набор от проблеми. Следователно става трудно да се прецени дали по-високият резултат на модела отразява истински умения за кодиране или просто хитро манипулиране на набора от проблеми. Интензивният натиск за постигане на рекордни резултати допълнително стимулира преките пътища.

Разработчиците се надяват, че успехът в множество специфични бенчмаркове ще се превърне в общо способен модел. Обаче, възходът на агентния AI, където една единствена система може да включва сложен набор от модели, затруднява оценката дали подобренията в специфични задачи ще се обобщят. “Има просто много повече копчета, които можете да завъртите”, казва Саяш Капур, компютърен учен в Принстън и критик на небрежните практики в AI индустрията. “Що се отнася до агентите, те донякъде са се отказали от най-добрите практики за оценка.”

В статия, публикувана миналия юли, Капур подчерта специфични проблеми с това как AI моделите са подходили към бенчмарка WebArena през 2024 г., който тества способността на AI агент да навигира в мрежата. Бенчмаркът се състои от над 800 задачи, изпълнени на клонирани уебсайтове, имитиращи Reddit, Wikipedia и други. Капур и неговият екип откриха, че печелившият модел, STeP, е експлоатирал структурата на Reddit URL адресите, за да получи директен достъп до потребителски профилни страници, често изискване в WebArena задачите.

Въпреки че не е открито мамят, Капур смята това за “сериозно погрешно представяне на това колко добре би работил агентът, ако беше видял задачите в WebArena за първи път.” Въпреки това, уеб агентът на OpenAI, Operator, оттогава е приел подобна политика.

По-нататък илюстрирайки проблемите с AI бенчмарковете, Капур и екип от изследователи наскоро публикуваха статия, разкриваща значителни проблеми в Chatbot Arena, популярна система за оценка, базирана на краудсорсинг. Техните открития показват, че класацията е била манипулирана, като някои от най-добрите базови модели са участвали в неразкрити частни тестове и селективно са освобождавали своите резултати.

Дори ImageNet, бенчмаркът, който започна всичко, сега е изправен пред проблеми с валидността. Проучване от 2023 г. на изследователи от Вашингтонския университет и Google Research установи, че алгоритмите, спечелили ImageNet, показват “малък или никакъв напредък”, когато са приложени към шест реални набора от данни, което предполага, че външната валидност на теста е достигнала своя предел.

Ставайки по-малък

За да се справи с проблема с валидността, някои изследователи предлагат да се свържат отново бенчмарковете със специфични задачи. Както се изразява Ройел, AI разработчиците “трябва да прибягнат до тези бенчмаркове от високо ниво, които са почти безсмислени за потребителите надолу по веригата, защото разработчиците на бенчмаркове не могат повече да предвидят задачата надолу по веригата.”

През ноември 2024 г. Ройел стартира BetterBench, публичен проект за класиране, който оценява бенчмарковете въз основа на различни критерии, включително яснотата на кодовата документация и, най-важното, валидността на бенчмарка при измерване на неговата заявена способност. BetterBench предизвиква дизайнерите да определят ясно какво тества техният бенчмарк и как това се отнася до задачите, които съставляват бенчмарка.

“Трябва да имате структурно разбиване на възможностите”, казва Ройел. “Какви са действителните умения, за които ви е грижа, и как ги превръщате в нещо, което можем да измерим?”

Резултатите са показателни. Arcade Learning Environment (ALE), създаден през 2013 г., за да тества способността на моделите да се научат да играят Atari 2600 игри, се очертава като един от бенчмарковете с най-висок резултат. Обратно, бенчмаркът Massive Multitask Language Understanding (MMLU), широко използван тест за общи езикови умения, получава един от най-ниските резултати поради лошо дефинирана връзка между въпросите и основното умение.

Въпреки че BetterBench все още не е оказал значително влияние върху репутацията на специфични бенчмаркове, той успешно изведе валидността на преден план в дискусиите за това как да се подобрят AI бенчмарковете. Ройел се присъедини към нова изследователска група, хоствана от Hugging Face, Университета в Единбург и EleutherAI, където ще развие допълнително своите идеи за валидността и оценката на AI моделите.

Ирен Солейман, ръководител на глобалната политика на Hugging Face, казва, че групата ще се фокусира върху изграждането на валидни бенчмаркове, които надхвърлят измерването на ясни възможности. “Има просто толкова голям глад за добър бенчмарк от рафта, който вече работи”, казва Солейман. “Много оценки се опитват да направят твърде много.”

По-широката индустрия изглежда се сближава по тази гледна точка. В статия, публикувана през март, изследователи от Google, Microsoft, Anthropic и други очертаха нова рамка за подобряване на оценките, с валидността като крайъгълен камък.

“Науката за оценяване на AI трябва”, твърдят изследователите, “да премине отвъд грубите твърдения за "общ интелект" към по-специфични за задачата и реално приложими мерки за напредък.”

Измерване на “меките” неща

За да се улесни тази промяна, някои изследователи се обръщат към инструментите на социалните науки. Статия с позиция от февруари твърди, че “оценяването на GenAI системите е предизвикателство за социално-научно измерване”, специално изследвайки как системите за валидност на социалните науки могат да бъдат приложени към AI бенчмарковете.

Авторите, предимно от изследователския клон на Microsoft, но също така включват и учени от Станфорд и Мичиганския университет, посочват стандартите, които социалните учени използват за измерване на оспорвани концепции като идеология, демокрация и медийна пристрастност. Приложени към AI бенчмарковете, тези същите процедури биха могли да осигурят начин за измерване на концепции като “разсъждение” и “математическа компетентност”, без да се прибягва до мъгляви обобщения.

Социално-научната литература подчертава важността на стриктното определяне на концепцията, която се измерва. Например, тест, предназначен да измери нивото на демокрация в едно общество, първо трябва да установи ясна дефиниция на “демократично общество” и след това да формулира въпроси, свързани с тази дефиниция.

За да се приложи това към бенчмарк като SWE-Bench, дизайнерите ще трябва да изоставят традиционния подход на машинно обучение за събиране на проблеми с програмирането от GitHub и създаване на схема за валидиране на отговори. Вместо това, те първо биха дефинирали какво има за цел да измери бенчмаркът (напр. “способност за разрешаване на сигнализирани проблеми в софтуера”), разбиват това на под-умения (напр. различни видове проблеми или програмни структури) и след това конструират въпроси, които точно покриват тези под-умения.

За изследователи като Джейкъбс, тази дълбока промяна от това как AI изследователите обикновено подхождат към бенчмаркинга е точно смисълът. “Има несъответствие между това, което се случва в технологичната индустрия, и тези инструменти от социалните науки”, казва тя. “Имаме десетилетия и десетилетия на мислене за това как искаме да измерим тези меки неща за хората.”

Въпреки нарастващото влияние на тези идеи в изследователската общност, тяхното влияние върху това как AI компаниите действително използват бенчмарковете е бавно.

Неотдавнашни версии на модели от OpenAI, Anthropic, Google и Meta продължават да разчитат в голяма степен на бенчмаркове за знания с множество възможности за избор като MMLU, същият подход, който изследователите на валидността се опитват да надминат. Версиите на моделите, в по-голямата си част, все още се фокусират върху демонстриране на увеличения в общия интелект и се използват широки бенчмаркове, за да подкрепят тези твърдения.

Някои наблюдатели намират това за задоволително. Професорът от Wharton Итън Молик предполага, че бенчмарковете, въпреки че са “лоши мерки за неща, също са това, което имаме”. Той добавя: “В същото време моделите стават по-добри. Много грехове са простени от бързия напредък.”

Засега дългогодишният фокус на индустрията върху изкуствения общ интелект изглежда засенчва по-целенасочен, базиран на валидността подход. Докато AI моделите продължават да напредват в общия интелект, специфичните приложения изглеждат по-малко завладяващи, дори ако практикуващите използват инструменти, на които вече не се доверяват напълно.

“Това е въжето, по което ходим”, казва Солейман от Hugging Face. “Твърде лесно е да изхвърлим системата, но оценките са наистина полезни за разбирането на нашите модели, дори и с тези ограничения.”