В погоне за превосходным искусственным интеллектом (AI) часто опираются на результаты бенчмарков, но действительно ли эти результаты свидетельствуют о реальных возможностях? AI-сообщество сталкивается с этим вопросом, поскольку традиционные бенчмарки подвергаются все более пристальному вниманию.
SWE-Bench, представленный в ноябре 2024 года, быстро завоевал популярность в качестве инструмента для оценки мастерства AI-модели в программировании. Он использует более 2000 подлинных задач программирования, извлеченных из общедоступных репозиториев GitHub по дюжине проектов на основе Python. Высокий балл SWE-Bench стал желанным значком, занимающим видное место в крупных выпусках моделей от ведущих разработчиков AI, таких как OpenAI, Anthropic и Google. Помимо этих гигантов, AI-фирмы, специализирующиеся на тонкой настройке, постоянно борются за превосходство в таблице лидеров SWE-Bench.
Однако ажиотаж вокруг этих бенчмарков может вводить в заблуждение. Джон Янг, исследователь из Принстонского университета, участвовавший в разработке SWE-Bench, отмечает, что интенсивная конкуренция за первое место привела к «играм» в системе. Это вызывает опасения относительно того, насколько точно эти бенчмарки отражают подлинные достижения AI.
Проблема заключается не обязательно в откровенном мошенничестве, а скорее в разработке стратегий, специально предназначенных для эксплуатации ограничений бенчмарка. Например, первоначальный SWE-Bench был сосредоточен исключительно на коде Python, стимулируя разработчиков обучать свои модели исключительно на Python. Янг заметил, что эти высоко оцениваемые модели часто спотыкались при столкновении с другими языками программирования, выявляя поверхностное понимание, которое он описывает как «позолоченное».
«На первый взгляд это выглядит красиво и блестяще, но потом вы пытаетесь запустить это на другом языке, и все просто разваливается», — объясняет Янг. «В этот момент вы разрабатываете не агента по разработке программного обеспечения. Вы разрабатываете агента SWE-Bench, что гораздо менее интересно».
Эта «проблема SWE-Bench» отражает более широкую проблему в оценке AI. Бенчмарки, когда-то считавшиеся надежными показателями прогресса, все больше отрываются от реальных возможностей. Усугубляют проблему опасения по поводу прозрачности, что еще больше подрывает доверие к этим показателям. Несмотря на эти проблемы, бенчмарки продолжают играть ключевую роль в разработке моделей, даже несмотря на то, что многие эксперты сомневаются в их неотъемлемой ценности. Соучредитель OpenAI Андрей Карпатый даже назвал нынешнюю ситуацию «кризисом оценки», сетуя на отсутствие надежных методов измерения возможностей AI и отсутствие четкого пути вперед.
Ванесса Парли, директор по исследованиям в Институте AI, ориентированного на человека, Стэнфордского университета, спрашивает: «Исторически сложилось так, что бенчмарки были способом оценки AI-систем. Хотим ли мы и дальше оценивать системы таким образом? И если нет, то какой способ?»
Растущий контингент ученых и исследователей AI выступает за более целенаправленный подход, черпая вдохновение в социальных науках. Они предлагают уделять приоритетное внимание «валидности», концепции, лежащей в основе количественной социальной науки, которая оценивает, насколько хорошо инструмент измерения точно отражает предполагаемый конструкт. Этот акцент на валидности может бросить вызов бенчмаркам, которые оценивают смутно определенные концепции, такие как «рассуждение» или «научные знания». Хотя это может смягчить стремление к искусственному общему интеллекту (AGI), это обеспечит более прочную основу для оценки отдельных моделей.
Абигейл Джейкобс, профессор Мичиганского университета и ведущий голос в продвижении валидности, утверждает: «Серьезное отношение к валидности означает, что нужно просить людей в академических кругах, промышленности или где бы то ни было показать, что их система делает то, что они говорят, что она делает. Я думаю, что это указывает на слабость в мире AI, если они хотят отказаться от демонстрации того, что они могут подтвердить свое утверждение».
Ограничения Традиционного Тестирования
Зависимость AI-индустрии от бенчмарков проистекает из их прошлых успехов, особенно в таких задачах, как ImageNet.
ImageNet, запущенный в 2010 году, представил исследователям базу данных, содержащую более 3 миллионов изображений, классифицированных по 1000 различным классам. Задача была агностической к методу, позволяя любому успешному алгоритму получить доверие независимо от его основного подхода. Прорыв AlexNet в 2012 году, в котором использовалась нетрадиционная форма обучения на GPU, стал краеугольным камнем современного AI. Хотя мало кто мог предсказать, что сверточные нейронные сети AlexNet откроют распознавание изображений, его высокий балл развеял любые сомнения. (Примечательно, что один из разработчиков AlexNet впоследствии стал соучредителем OpenAI.)
Эффективность ImageNet проистекала из тесного соответствия между задачей и реальными задачами распознавания изображений. Даже при наличии споров о методах, модель с самым высоким баллом неизменно демонстрировала превосходную производительность в практических приложениях.
Однако в последующие годы AI-исследователи применили этот же метод-агностический подход к все более общим задачам. SWE-Bench, например, часто используется как прокси для более широких возможностей кодирования, а другие бенчмарки в стиле экзаменов используются для оценки способности к рассуждению. Этот широкий охват затрудняет строгую оценку того, что измеряет конкретный бенчмарк, что затрудняет ответственную интерпретацию результатов.
Где Все Ломается
Анка Ройел, докторант Стэнфордского университета, утверждает, что стремление к общности лежит в основе проблемы оценки. «Мы перешли от моделей, ориентированных на конкретные задачи, к моделям общего назначения», — говорит Ройел. «Речь идет не о какой-то одной задаче, а о целой куче задач, поэтому оценка становится сложнее».
Как и Джейкобс, Ройел считает, что «главная проблема с бенчмарками — это валидность, даже больше, чем практическая реализация», отмечая: «Именно здесь многое ломается». Для сложных задач, таких как кодирование, практически невозможно охватить все возможные сценарии в наборе задач. Следовательно, становится трудно определить, отражает ли более высокий балл модели подлинные навыки кодирования или просто ловкую манипуляцию набором задач. Сильное давление, направленное на достижение рекордных баллов, еще больше стимулирует к поиску обходных путей.
Разработчики надеются, что успех во множестве конкретных бенчмарков приведет к созданию в целом способной модели. Однако рост агентного AI, когда единая система может включать в себя сложный набор моделей, затрудняет оценку того, будут ли улучшения в конкретных задачах обобщаться. «Есть просто гораздо больше ручек, которые можно повернуть», — говорит Саяш Капур, ученый-компьютерщик из Принстона и критик небрежной практики в AI-индустрии. «Когда дело доходит до агентов, они как бы отказались от лучших практик оценки».
В статье, опубликованной в июле прошлого года, Капур выделил конкретные проблемы с тем, как AI-модели подходили к бенчмарку WebArena в 2024 году, который проверяет способность AI-агента перемещаться по Интернету. Бенчмарк состоит из более чем 800 задач, выполняемых на клонированных веб-сайтах, имитирующих Reddit, Wikipedia и другие. Капур и его команда обнаружили, что выигрышная модель STeP использовала структуру URL-адресов Reddit для прямого доступа к страницам профилей пользователей, что является частым требованием в задачах WebArena.
Хотя это и не является откровенным мошенничеством, Капур считает это «серьезным искажением того, насколько хорошо агент работал бы, если бы он увидел задачи в WebArena впервые». Несмотря на это, веб-агент OpenAI, Operator, с тех пор принял аналогичную политику.
В дальнейшем иллюстрируя проблемы с AI-бенчмарками, Капур и группа исследователей недавно опубликовали статью, в которой раскрываются серьезные проблемы в Chatbot Arena, популярной системе оценки, основанной на краудсорсинге. Их результаты показали, что таблицей лидеров манипулируют, причем некоторые ведущие базовые модели участвуют в необъявленном частном тестировании и выборочно публикуют свои результаты.
Даже ImageNet, бенчмарк, с которого все началось, сейчас сталкивается с проблемами валидности. Исследование 2023 года, проведенное исследователями из Вашингтонского университета и Google Research, показало, что алгоритмы, победившие в ImageNet, продемонстрировали «незначительный или нулевой прогресс» при применении к шести реальным наборам данных, что свидетельствует о том, что внешняя валидность теста достигла своего предела.
Уменьшение Масштаба
Чтобы решить проблему валидности, некоторые исследователи предлагают повторно связать бенчмарки с конкретными задачами. Как выразилась Ройел, AI-разработчикам «приходится прибегать к этим высокоуровневым бенчмаркам, которые почти бессмысленны для конечных потребителей, потому что разработчики бенчмарков больше не могут предвидеть последующую задачу».
В ноябре 2024 года Ройел запустила BetterBench, общедоступный проект рейтинга, который оценивает бенчмарки на основе различных критериев, включая ясность документации по коду и, что очень важно, валидность бенчмарка при измерении заявленной им возможности. BetterBench призывает разработчиков четко определить, что тестирует их бенчмарк и как он связан с задачами, составляющими бенчмарк.
«Вам нужно иметь структурное разбиение возможностей», — говорит Ройел. «Какие фактические навыки вас волнуют и как вы операционализируете их во что-то, что мы можем измерить?»
Результаты оказываются весьма показательными. Arcade Learning Environment (ALE), созданная в 2013 году для проверки способности моделей учиться играть в игры Atari 2600, оказывается одним из самых высоко оцениваемых бенчмарков. И наоборот, бенчмарк Massive Multitask Language Understanding (MMLU), широко используемый тест для общих языковых навыков, получает один из самых низких баллов из-за плохо определенной связи между вопросами и основным навыком.
Хотя BetterBench еще не оказал существенного влияния на репутацию конкретных бенчмарков, он успешно вывел валидность на передний план дискуссий о том, как улучшить AI-бенчмарки. Ройел присоединилась к новой исследовательской группе, размещенной Hugging Face, Эдинбургским университетом и EleutherAI, где она будет и дальше развивать свои идеи о валидности и оценке AI-моделей.
Ирен Солейман, руководитель глобальной политики Hugging Face, говорит, что группа сосредоточится на создании валидных бенчмарков, которые выходят за рамки измерения простых возможностей. «Просто такой большой голод по хорошему, готовому бенчмарку, который уже работает», — говорит Солейман. «Многие оценки пытаются сделать слишком много».
Похоже, что более широкая отрасль сходится на этой точке зрения. В статье, опубликованной в марте, исследователи из Google, Microsoft, Anthropic и других компаний изложили новую структуру для улучшения оценок, в которой валидность является краеугольным камнем.
«Наука об оценке AI должна», — утверждают исследователи, — «выйти за рамки общих заявлений об «общем интеллекте» в сторону более ориентированных на конкретные задачи и актуальных для реального мира показателей прогресса».
Измерение «Растяжимых» Вещей
Чтобы облегчить этот сдвиг, некоторые исследователи обращаются к инструментам социальных наук. В февральском документе с изложением позиции утверждалось, что «оценка систем GenAI — это проблема измерения в социальных науках», в частности, изучалось, как системы валидности социальных наук могут быть применены к AI-бенчмаркингу.
Авторы, в основном из исследовательского подразделения Microsoft, но также и ученые из Стэнфорда и Мичиганского университета, указывают на стандарты, которые социальные ученые используют для измерения спорных концепций, таких как идеология, демократия и предвзятость СМИ. При применении к AI-бенчмаркам эти же процедуры могут предоставить способ измерения таких концепций, как «рассуждение» и «математическое мастерство», не прибегая к туманным обобщениям.
В литературе по социальным наукам подчеркивается важность строгого определения измеряемой концепции. Например, тест, предназначенный для измерения уровня демократии в обществе, должен сначала установить четкое определение «демократического общества», а затем сформулировать вопросы, имеющие отношение к этому определению.
Чтобы применить это к бенчмарку, подобному SWE-Bench, разработчикам необходимо было бы отказаться от традиционного подхода машинного обучения к сбору задач программирования с GitHub и созданию схемы для проверки ответов. Вместо этого они сначала определили бы, что бенчмарк стремится измерить (например, «способность решать отмеченные проблемы в программном обеспечении»), разбили бы это на поднавыки (например, различные типы проблем или структуры программ) и затем составили бы вопросы, которые точно охватывают эти поднавыки.
Для таких исследователей, как Джейкобс, этот глубокий сдвиг по сравнению с тем, как AI-исследователи обычно подходят к бенчмаркингу, является именно тем, что нужно. «Существует несоответствие между тем, что происходит в технической индустрии, и этими инструментами из социальных наук», — говорит она. «У нас есть десятилетия и десятилетия размышлений о том, как мы хотим измерить эти растяжимые вещи о людях».
Несмотря на растущее влияние этих идей в исследовательском сообществе, их влияние на то, как AI-компании фактически используют бенчмарки, было медленным.
В последних выпусках моделей от OpenAI, Anthropic, Google и Meta по-прежнему в значительной степени полагаются на бенчмарки знаний с множественным выбором, такие как MMLU, то есть на тот самый подход, от которого исследователи в области валидности пытаются уйти. Выпуски моделей, по большей части, по-прежнему сосредоточены на демонстрации увеличения общего интеллекта, и для подтверждения этих утверждений используются широкие бенчмарки.
Некоторые наблюдатели находят это удовлетворительным. Профессор Уортона Итан Моллик предполагает, что бенчмарки, несмотря на то, что они являются «плохими мерами вещей, — это также то, что у нас есть». Он добавляет: «В то же время модели становятся лучше. Многие грехи прощаются быстрым прогрессом».
На данный момент давний акцент отрасли на искусственном общем интеллекте, по-видимому, затмевает более целенаправленный, основанный на валидности подход. Пока AI-модели продолжают совершенствоваться в области общего интеллекта, конкретные приложения кажутся менее убедительными, даже если практики используют инструменты, которым они больше не полностью доверяют.
«Это тот натянутый канат, по которому мы ходим», — говорит Солейман из Hugging Face. «Слишком легко выбросить систему, но оценки действительно помогают в понимании наших моделей, даже с этими ограничениями».