xAI солгала о тестах Grok 3

Разбор спора

Недавно сотрудник OpenAI выдвинул обвинение против xAI, предприятия Илона Маска в области искусственного интеллекта. В чем суть? В том, что xAI представила вводящие в заблуждение результаты тестов своей последней модели ИИ, Grok 3. Это вызвало дебаты, в ходе которых один из соучредителей xAI, Игорь Бабушкин, решительно отстаивал позицию компании.

Реальность ситуации, как это часто бывает, лежит в более тонкой золотой середине.

В сообщении в блоге xAI продемонстрировала график, отображающий производительность Grok 3 на AIME 2025. Это набор сложных математических задач, взятых из недавнего пригласительного математического экзамена. Хотя некоторые эксперты выразили сомнения в обоснованности AIME в качестве окончательного теста ИИ, он, наряду с более старыми версиями теста, остается широко используемым инструментом для оценки математических способностей модели.

Расшифровка графика xAI

На графике, представленном xAI, были показаны две вариации Grok 3 – Grok 3 Reasoning Beta и Grok 3 mini Reasoning – которые, по-видимому, превосходили самую эффективную доступную модель OpenAI, o3-mini-high, на AIME 2025. Однако сотрудники OpenAI быстро отреагировали в социальных сетях, отметив вопиющее упущение: график xAI не включал оценку o3-mini-high на AIME 2025 при «cons@64».

Что такое “cons@64”? Это аббревиатура от “consensus@64”, метода, который, по сути, дает модели 64 попытки решить каждую задачу в тесте. Ответы, сгенерированные наиболее часто, затем выбираются в качестве окончательных ответов. Как и следовало ожидать, cons@64 часто значительно повышает баллы модели в тестах. Исключение его из графика сравнения может создать иллюзию, что одна модель превосходит другую, хотя на самом деле это может быть не так.

Претензия на звание «самого умного ИИ в мире»

Если рассматривать оценки AIME 2025 при “@1” – указывающем на первый балл, полученный моделями в тесте, – то и Grok 3 Reasoning Beta, и Grok 3 mini Reasoning не дотягивают до балла o3-mini-high. Более того, Grok 3 Reasoning Beta лишь незначительно отстает от модели OpenAI o1, установленной на «средние» вычисления. Несмотря на эти результаты, xAI активно продвигает Grok 3 как «самый умный ИИ в мире».

Бабушкин, выступая в социальных сетях, возразил, что OpenAI в прошлом публиковала аналогичные вводящие в заблуждение графики тестов. Однако эти графики использовались для сравнения производительности собственных моделей OpenAI. Более беспристрастный наблюдатель в дебатах создал более «точный» график, демонстрирующий производительность почти каждой модели при cons@64.

Отсутствующий показатель: вычислительные затраты

Исследователь ИИ Натан Ламберт подчеркнул критический момент: самый важный показатель остается окутанным тайной. Это вычислительные (и финансовые) затраты, понесенные каждой моделью для достижения наилучшего результата. Это подчеркивает фундаментальную проблему большинства тестов ИИ – они очень мало говорят об ограничениях модели или, если уж на то пошло, о ее сильных сторонах.

Дебаты по поводу тестов Grok 3 подчеркивают более широкую проблему в сообществе ИИ: необходимость большей прозрачности и стандартизации в том, как оцениваются и сравниваются модели ИИ.

Более глубокое погружение в тестирование ИИ

Споры вокруг представления xAI производительности Grok 3 поднимают несколько важных вопросов о самой природе тестирования ИИ. Что представляет собой хороший тест? Как следует представлять результаты, чтобы избежать неверных толкований? И каковы ограничения использования исключительно баллов тестов для оценки возможностей моделей ИИ?

Цель тестов:

Тесты, теоретически, служат стандартизированным способом измерения и сравнения производительности различных моделей ИИ в решении конкретных задач. Они обеспечивают общий критерий, позволяющий исследователям и разработчикам отслеживать прогресс, выявлять сильные и слабые стороны и, в конечном итоге, стимулировать инновации. Однако эффективность теста зависит от нескольких факторов:

  • Релевантность: Отражает ли тест точно реальные задачи и проблемы?
  • Полнота: Охватывает ли тест широкий спектр возможностей, относящихся к предполагаемому использованию модели ИИ?
  • Объективность: Разработан и администрируется ли тест таким образом, чтобы минимизировать предвзятость и обеспечить справедливое сравнение?
  • Воспроизводимость: Могут ли результаты теста быть последовательно воспроизведены независимыми исследователями?

Проблемы тестирования ИИ:

Несмотря на свою предполагаемую цель, тесты ИИ часто сопряжены с проблемами:

  • Переобучение: Модели могут быть специально обучены для достижения высоких результатов в определенных тестах, не обязательно приобретая подлинный интеллект или обобщаемые способности. Это явление, известное как «переобучение», может привести к завышенным баллам, которые не отражают реальную производительность.
  • Отсутствие стандартизации: Распространение различных тестов, каждый со своей собственной методологией и системой подсчета баллов, затрудняет сравнение результатов между моделями и исследовательскими лабораториями.
  • Манипулирование системой: Как показывает спор с xAI, у компаний есть соблазн выборочно представлять результаты тестов таким образом, чтобы это было выгодно их собственным моделям, потенциально вводя общественность в заблуждение и препятствуя объективной оценке.
  • Ограниченная область применения: Тесты часто фокусируются на узких, четко определенных задачах, не охватывая всей сложности и нюансов человеческого интеллекта. Они могут неадекватно оценивать такие аспекты, как креативность, здравый смысл или способность адаптироваться к новым ситуациям.

Необходимость прозрачности и целостной оценки

Инцидент с Grok 3 подчеркивает острую необходимость в большей прозрачности и более целостном подходе к оценке моделей ИИ. Простое использование одного балла теста, особенно представленного без полного контекста, может ввести в заблуждение.

Выход за рамки тестов:

Хотя тесты могут быть полезным инструментом, они не должны быть единственным определяющим фактором возможностей модели ИИ. Более полная оценка должна учитывать:

  • Реальная производительность: Как модель работает в практических приложениях и сценариях?
  • Качественный анализ: Экспертная оценка результатов работы модели, оценивающая такие факторы, как связность, креативность и способность к рассуждению.
  • Этические соображения: Проявляет ли модель предвзятость или генерирует вредоносный контент?
  • Объяснимость: Можно ли понять и интерпретировать процесс принятия решений моделью?
  • Надежность: Насколько хорошо модель справляется с зашумленными или неожиданными входными данными?

Содействие прозрачности:

Лаборатории ИИ должны стремиться к большей прозрачности в своей практике тестирования. Это включает в себя:

  • Четкое определение методологии: Предоставление подробной информации о настройке теста, включая конкретный используемый набор данных, метрики оценки и любые этапы предварительной обработки.
  • Сообщение полных результатов: Представление всех соответствующих баллов, в том числе полученных с использованием различных конфигураций или методов (например, cons@64).
  • Раскрытие вычислительных затрат: Раскрытие вычислительных ресурсов, необходимых для достижения заявленных результатов.
  • Открытый исходный код тестов: Предоставление наборов данных тестов и инструментов оценки в открытом доступе для облегчения независимой проверки и сравнения.

Стремление к искусственному интеллекту – это сложная и быстро развивающаяся область. Тесты, хотя и несовершенны, играют определенную роль в измерении прогресса. Однако крайне важно признать их ограничения и стремиться к более тонкому и прозрачному подходу к оценке моделей ИИ. Конечной целью должно быть создание систем ИИ, которые не только мощны, но и надежны, этичны и полезны для общества. Внимание должно сместиться с простой погони за более высокими баллами тестов на создание ИИ, который действительно понимает и взаимодействует с миром осмысленным образом.