Разбор спора
Недавно сотрудник OpenAI выдвинул обвинение против xAI, предприятия Илона Маска в области искусственного интеллекта. В чем суть? В том, что xAI представила вводящие в заблуждение результаты тестов своей последней модели ИИ, Grok 3. Это вызвало дебаты, в ходе которых один из соучредителей xAI, Игорь Бабушкин, решительно отстаивал позицию компании.
Реальность ситуации, как это часто бывает, лежит в более тонкой золотой середине.
В сообщении в блоге xAI продемонстрировала график, отображающий производительность Grok 3 на AIME 2025. Это набор сложных математических задач, взятых из недавнего пригласительного математического экзамена. Хотя некоторые эксперты выразили сомнения в обоснованности AIME в качестве окончательного теста ИИ, он, наряду с более старыми версиями теста, остается широко используемым инструментом для оценки математических способностей модели.
Расшифровка графика xAI
На графике, представленном xAI, были показаны две вариации Grok 3 – Grok 3 Reasoning Beta и Grok 3 mini Reasoning – которые, по-видимому, превосходили самую эффективную доступную модель OpenAI, o3-mini-high, на AIME 2025. Однако сотрудники OpenAI быстро отреагировали в социальных сетях, отметив вопиющее упущение: график xAI не включал оценку o3-mini-high на AIME 2025 при «cons@64».
Что такое “cons@64”? Это аббревиатура от “consensus@64”, метода, который, по сути, дает модели 64 попытки решить каждую задачу в тесте. Ответы, сгенерированные наиболее часто, затем выбираются в качестве окончательных ответов. Как и следовало ожидать, cons@64 часто значительно повышает баллы модели в тестах. Исключение его из графика сравнения может создать иллюзию, что одна модель превосходит другую, хотя на самом деле это может быть не так.
Претензия на звание «самого умного ИИ в мире»
Если рассматривать оценки AIME 2025 при “@1” – указывающем на первый балл, полученный моделями в тесте, – то и Grok 3 Reasoning Beta, и Grok 3 mini Reasoning не дотягивают до балла o3-mini-high. Более того, Grok 3 Reasoning Beta лишь незначительно отстает от модели OpenAI o1, установленной на «средние» вычисления. Несмотря на эти результаты, xAI активно продвигает Grok 3 как «самый умный ИИ в мире».
Бабушкин, выступая в социальных сетях, возразил, что OpenAI в прошлом публиковала аналогичные вводящие в заблуждение графики тестов. Однако эти графики использовались для сравнения производительности собственных моделей OpenAI. Более беспристрастный наблюдатель в дебатах создал более «точный» график, демонстрирующий производительность почти каждой модели при cons@64.
Отсутствующий показатель: вычислительные затраты
Исследователь ИИ Натан Ламберт подчеркнул критический момент: самый важный показатель остается окутанным тайной. Это вычислительные (и финансовые) затраты, понесенные каждой моделью для достижения наилучшего результата. Это подчеркивает фундаментальную проблему большинства тестов ИИ – они очень мало говорят об ограничениях модели или, если уж на то пошло, о ее сильных сторонах.
Дебаты по поводу тестов Grok 3 подчеркивают более широкую проблему в сообществе ИИ: необходимость большей прозрачности и стандартизации в том, как оцениваются и сравниваются модели ИИ.
Более глубокое погружение в тестирование ИИ
Споры вокруг представления xAI производительности Grok 3 поднимают несколько важных вопросов о самой природе тестирования ИИ. Что представляет собой хороший тест? Как следует представлять результаты, чтобы избежать неверных толкований? И каковы ограничения использования исключительно баллов тестов для оценки возможностей моделей ИИ?
Цель тестов:
Тесты, теоретически, служат стандартизированным способом измерения и сравнения производительности различных моделей ИИ в решении конкретных задач. Они обеспечивают общий критерий, позволяющий исследователям и разработчикам отслеживать прогресс, выявлять сильные и слабые стороны и, в конечном итоге, стимулировать инновации. Однако эффективность теста зависит от нескольких факторов:
- Релевантность: Отражает ли тест точно реальные задачи и проблемы?
- Полнота: Охватывает ли тест широкий спектр возможностей, относящихся к предполагаемому использованию модели ИИ?
- Объективность: Разработан и администрируется ли тест таким образом, чтобы минимизировать предвзятость и обеспечить справедливое сравнение?
- Воспроизводимость: Могут ли результаты теста быть последовательно воспроизведены независимыми исследователями?
Проблемы тестирования ИИ:
Несмотря на свою предполагаемую цель, тесты ИИ часто сопряжены с проблемами:
- Переобучение: Модели могут быть специально обучены для достижения высоких результатов в определенных тестах, не обязательно приобретая подлинный интеллект или обобщаемые способности. Это явление, известное как «переобучение», может привести к завышенным баллам, которые не отражают реальную производительность.
- Отсутствие стандартизации: Распространение различных тестов, каждый со своей собственной методологией и системой подсчета баллов, затрудняет сравнение результатов между моделями и исследовательскими лабораториями.
- Манипулирование системой: Как показывает спор с xAI, у компаний есть соблазн выборочно представлять результаты тестов таким образом, чтобы это было выгодно их собственным моделям, потенциально вводя общественность в заблуждение и препятствуя объективной оценке.
- Ограниченная область применения: Тесты часто фокусируются на узких, четко определенных задачах, не охватывая всей сложности и нюансов человеческого интеллекта. Они могут неадекватно оценивать такие аспекты, как креативность, здравый смысл или способность адаптироваться к новым ситуациям.
Необходимость прозрачности и целостной оценки
Инцидент с Grok 3 подчеркивает острую необходимость в большей прозрачности и более целостном подходе к оценке моделей ИИ. Простое использование одного балла теста, особенно представленного без полного контекста, может ввести в заблуждение.
Выход за рамки тестов:
Хотя тесты могут быть полезным инструментом, они не должны быть единственным определяющим фактором возможностей модели ИИ. Более полная оценка должна учитывать:
- Реальная производительность: Как модель работает в практических приложениях и сценариях?
- Качественный анализ: Экспертная оценка результатов работы модели, оценивающая такие факторы, как связность, креативность и способность к рассуждению.
- Этические соображения: Проявляет ли модель предвзятость или генерирует вредоносный контент?
- Объяснимость: Можно ли понять и интерпретировать процесс принятия решений моделью?
- Надежность: Насколько хорошо модель справляется с зашумленными или неожиданными входными данными?
Содействие прозрачности:
Лаборатории ИИ должны стремиться к большей прозрачности в своей практике тестирования. Это включает в себя:
- Четкое определение методологии: Предоставление подробной информации о настройке теста, включая конкретный используемый набор данных, метрики оценки и любые этапы предварительной обработки.
- Сообщение полных результатов: Представление всех соответствующих баллов, в том числе полученных с использованием различных конфигураций или методов (например, cons@64).
- Раскрытие вычислительных затрат: Раскрытие вычислительных ресурсов, необходимых для достижения заявленных результатов.
- Открытый исходный код тестов: Предоставление наборов данных тестов и инструментов оценки в открытом доступе для облегчения независимой проверки и сравнения.
Стремление к искусственному интеллекту – это сложная и быстро развивающаяся область. Тесты, хотя и несовершенны, играют определенную роль в измерении прогресса. Однако крайне важно признать их ограничения и стремиться к более тонкому и прозрачному подходу к оценке моделей ИИ. Конечной целью должно быть создание систем ИИ, которые не только мощны, но и надежны, этичны и полезны для общества. Внимание должно сместиться с простой погони за более высокими баллами тестов на создание ИИ, который действительно понимает и взаимодействует с миром осмысленным образом.