Насколько обучение с подкреплением, подкрепленное дополнительной проверкой, может повысить возможности больших языковых моделей (LLM)? Команда Qwen из Alibaba стремится выяснить это с помощью своего последнего творения, QwQ.
QwQ, модель «рассуждений», может похвастаться относительно компактными 32 миллиардами параметров. Тем не менее, Alibaba утверждает, что она превосходит DeepSeek R1 с его массивными 671 миллиардами параметров в определенных тестах, связанных с математикой, кодированием и вызовом функций.
Команда Qwen, подобно подходу, использованному с R1, применила обучение с подкреплением для уточнения цепочки рассуждений QwQ. Этот метод улучшает анализ проблем и возможности разбивки. Обучение с подкреплением традиционно усиливает пошаговое рассуждение, вознаграждая модели за правильные ответы, тем самым способствуя более точным ответам. Однако QwQ делает еще один шаг вперед, включая верификатор точности и сервер выполнения кода. Это гарантирует, что вознаграждения предоставляются исключительно за точные математические решения и функциональный код.
Команда Qwen утверждает, что этот подход приводит к созданию модели, которая превосходит свой размер, достигая производительности, сравнимой и иногда даже превосходящей гораздо более крупные модели.
Однако тесты AI могут быть обманчивыми. Итак, давайте рассмотрим, как эти утверждения переводятся в реальные сценарии, а затем мы расскажем вам, как запустить QwQ самостоятельно.
Оценка производительности
Мы подвергли QwQ серии тестовых запросов, охватывающих общие знания, пространственное мышление, решение проблем, математику и другие запросы, которые, как известно, бросают вызов даже самым продвинутым LLM.
Из-за значительных требований к памяти полной модели мы провели наши тесты в двух конфигурациях, чтобы удовлетворить пользователей с различной емкостью ОЗУ. Первоначально мы оценили полную модель, используя демонстрацию QwQ на Hugging Face. Впоследствии мы протестировали 4-битную квантованную версию на 24-гигабайтном графическом процессоре (Nvidia 3090 или AMD Radeon RX 7900XTX), чтобы оценить влияние квантования на точность.
Для большинства вопросов общего знания QwQ продемонстрировала производительность, аналогичную R1 DeepSeek с 671 миллиардом параметров и другим моделям рассуждений, таким как o3-mini от OpenAI, ненадолго останавливаясь, чтобы сформулировать свои мысли, прежде чем предоставить ответ.
Сильные стороны модели, что, возможно, неудивительно, становятся очевидными при решении более сложных логических, кодовых или математических задач. Давайте углубимся в эти области, прежде чем рассматривать некоторые из ее ограничений.
Мастерство пространственного мышления
Мы начали с относительно нового теста пространственного мышления, разработанного Homebrew Research в рамках их проекта AlphaMaze.
Тест представляет модели лабиринт в текстовом формате, как показано ниже. Задача модели - пройти от начала «O» к цели «T».