Qwen-32B от Alibaba: компактный прорыв

Alibaba представляет Qwen-32B: компактный и мощный, бросающий вызов более крупным моделям

Неожиданным ночным анонсом Alibaba открыла исходный код своей новейшей модели рассуждений, Qwen-32B (QwQ-32B). Обладая 32 миллиардами параметров, эта модель демонстрирует производительность наравне со значительно большей, полноценной моделью DeepSeek-R1 с 67,1 миллиардами параметров.

Команда Qwen в своем объявлении подчеркнула свои исследования в области масштабирования методов обучения с подкреплением (RL). Они заявили: ‘Мы изучали методы расширения RL, достигнув некоторых впечатляющих результатов на основе нашего Qwen2.5-32B. Мы обнаружили, что обучение RL может постоянно улучшать производительность, особенно в математических задачах и задачах кодирования. Мы заметили, что продолжающееся масштабирование RL может помочь моделям среднего размера достичь производительности, сравнимой с гигантскими моделями MoE. Мы приглашаем всех пообщаться с нашей новой моделью и предоставить нам обратную связь!’

QwQ-32B теперь доступен на Hugging Face и ModelScope под лицензией Apache 2.0 с открытым исходным кодом. Пользователи также могут напрямую взаимодействовать с моделью через Qwen Chat. Популярный инструмент локального развертывания, Ollama, уже интегрировал поддержку, доступную с помощью команды: ollama run qwq.

Вместе с выпуском команда Qwen опубликовала сообщение в блоге под названием ‘QwQ-32B: Использование возможностей обучения с подкреплением’, в котором подробно описываются новаторские достижения.

В сообщении блога подчеркивается огромный потенциал крупномасштабного обучения с подкреплением (RL) для преодоления традиционных методов предварительного обучения и постобработки в повышении производительности модели. Недавние исследования, такие как интеграция DeepSeek-R1 данных холодного старта и многоэтапного обучения, демонстрируют способность RL значительно повышать возможности рассуждений, обеспечивая более глубокое мышление и решение сложных задач.

Исследование команды Qwen было сосредоточено на использовании крупномасштабного RL для повышения интеллекта больших языковых моделей, кульминацией чего стало создание QwQ-32B. Эта модель с 32 миллиардами параметров удивительным образом конкурирует по производительности с моделью DeepSeek-R1 с 67,1 миллиардами параметров (с 37 миллиардами активированных). Команда подчеркнула: ‘Это достижение подчеркивает эффективность применения обучения с подкреплением к надежным, предварительно обученным базовым моделям’.

QwQ-32B также включает в себя возможности, связанные с агентами, что позволяет ему критически оценивать свои действия при использовании инструментов и адаптировать свой процесс рассуждений на основе обратной связи от окружающей среды. ‘Мы надеемся, что наши усилия продемонстрируют, что объединение мощных базовых моделей с крупномасштабным обучением с подкреплением может быть жизнеспособным путем к общему искусственному интеллекту (AGI)’, - заявила команда.

Производительность модели: сравнительный анализ QwQ-32B

QwQ-32B прошел тщательную оценку по ряду тестов, охватывающих математические рассуждения, программирование и общие возможности. Результаты демонстрируют производительность QwQ-32B по сравнению с другими ведущими моделями, включая DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini и оригинальный DeepSeek-R1.

Результаты поразительны. QwQ-32B демонстрирует исключительную производительность, даже немного превосходя DeepSeek-R1-67B в тестах LiveBench, IFEval и BFCL. Это подчеркивает эффективность и мощность подхода обучения с подкреплением, принятого командой Qwen.

Глубокое погружение в обучение с подкреплением

Разработка QwQ-32B использовала крупномасштабное обучение с подкреплением, построенное на основе холодного старта. Начальная фаза была сосредоточена исключительно на обучении RL для математических задач и задач программирования. В отличие от традиционных подходов, основанных на моделях вознаграждения, команда Qwen предоставляла обратную связь для математических задач, проверяя правильность сгенерированных ответов. Для задач кодирования обратная связь была получена от сервера выполнения кода, оценивающего, успешно ли сгенерированный код прошел тестовые примеры.

По мере прохождения обучения через несколько итераций QwQ-32B демонстрировал последовательное улучшение производительности в обеих областях. Этот итерационный процесс уточнения, управляемый прямой обратной связью о точности решения, оказался очень эффективным.

После начальной фазы RL, сфокусированной на математике и программировании, была введена последующая фаза RL для улучшения общих возможностей. На этом этапе использовались общие модели вознаграждения и валидаторы на основе правил для обучения. Результаты показали, что даже небольшое количество шагов в общем RL может повысить общие возможности, не оказывая существенного влияния на производительность в ранее обученных математических задачах и задачах программирования. Это демонстрирует адаптивность и надежность модели.

Будущие направления: расширяя горизонты ИИ

Команда Qwen также поделилась своими будущими планами, заявив: ‘Это первый шаг Qwen в использовании крупномасштабного обучения с подкреплением (RL) для улучшения возможностей рассуждений. На этом пути мы не только увидели огромный потенциал масштабирования RL, но и осознали неиспользованные возможности в предварительно обученных языковых моделях. Поскольку мы работаем над разработкой следующего поколения Qwen, мы считаем, что объединение еще более мощных базовых моделей с RL, поддерживаемое масштабируемыми вычислительными ресурсами, приблизит нас к достижению общего искусственного интеллекта (AGI). Кроме того, мы активно изучаем интеграцию агентов с RL, чтобы обеспечить долгосрочное рассуждение, стремясь раскрыть еще больший интеллект за счет увеличения времени рассуждения’. Это стремление к постоянному совершенствованию и исследованиям подчеркивает приверженность команды расширению границ ИИ.

Реакция сообщества: QwQ-32B получает широкое признание

Выпуск QwQ-32B был встречен с большим энтузиазмом и положительными отзывами. Сообщество ИИ, включая многих пользователей Qwen, с нетерпением ожидало представления этой новой модели.

Недавний ажиотаж вокруг DeepSeek подчеркнул предпочтение сообществом полноценной модели из-за ограничений дистиллированной версии. Однако полноценная модель с 67,1B параметрами представляла проблемы развертывания, особенно для периферийных устройств с ограниченными ресурсами. Qwen-32B, с его значительно уменьшенным размером, решает эту проблему, открывая возможности для более широкого развертывания.

Один пользователь прокомментировал: ‘Вероятно, это все еще нецелесообразно на мобильных телефонах, но Mac с достаточным объемом оперативной памяти могут справиться с этим’. Это мнение отражает оптимизм в отношении возможности запуска QwQ-32B на устройствах с ограниченными ресурсами.

Другой пользователь напрямую обратился к Binyuan Hui, ученому из лаборатории Tongyi Alibaba, призывая к разработке еще меньших моделей. Это подчеркивает спрос на все более компактные и эффективные модели ИИ.

Пользователи также поделились своим опытом, высоко оценив скорость и отзывчивость модели. Один пользователь продемонстрировал демонстрацию, подчеркнув возможности быстрой обработки QwQ-32B.

Авни Ханнун (Awni Hannun), исследователь машинного обучения в Apple, подтвердил успешное выполнение QwQ-32B на M4 Max, отметив его впечатляющую скорость. Это подтверждение от известного исследователя еще больше укрепляет заявления о производительности модели.

Команда Qwen также предоставила предварительную версию QwQ-32B в своем официальном чат-интерфейсе, Qwen Chat, призывая пользователей тестировать и предоставлять обратную связь. Этот интерактивный подход способствует вовлечению сообщества и позволяет проводить реальную оценку возможностей модели.

Быстрое внедрение QwQ-32B сообществом и его интеграция в популярные инструменты, такие как Ollama, демонстрируют значимость и влияние модели. Сочетание высокой производительности, меньшего размера модели и инновационного использования обучения с подкреплением позиционирует QwQ-32B как крупное достижение в области больших языковых моделей. Открытый исходный код модели еще больше способствует сотрудничеству и инновациям в сообществе ИИ, прокладывая путь для будущих прорывов. Акцент на практическом развертывании и реальных приложениях подчеркивает потенциал QwQ-32B оказать существенное влияние за пределами исследовательских установок, предоставляя передовые возможности ИИ более широкому кругу пользователей и устройств. Продолжающиеся исследования и разработки команды Qwen обещают еще более захватывающие достижения в стремлении к AGI.