Сила Reinforcement Learning
Традиционные подходы к разработке моделей ИИ в значительной степени полагались на предварительное обучение и методы постобработки. Однако команда Qwen вышла за рамки этих традиционных методов, интегрировав возможности агента непосредственно в модель рассуждений. Эта интеграция позволяет QwQ-32B заниматься критическим мышлением, использовать внешние инструменты и динамически адаптировать свой процесс рассуждений на основе обратной связи из своей среды. Это представляет собой значительный шаг вперед в создании более адаптивных и интеллектуальных систем ИИ.
Команда Qwen подчеркивает, что масштабирование RL может привести к повышению производительности, которое превосходит возможности традиционных методов. Недавние исследования уже продемонстрировали способность RL значительно повышать способность моделей ИИ к рассуждению, и QwQ-32B служит убедительным примером этого потенциала в действии.
Преодоление разрыва между размером и производительностью
Одним из наиболее поразительных аспектов QwQ-32B является его производительность по отношению к его размеру. DeepSeek-R1, модель, с которой конкурирует QwQ-32B, может похвастаться ошеломляющими 671 миллиардами параметров (с 37 миллиардами активированных). QwQ-32B, с сравнительно скромными 32 миллиардами параметров, достигает сопоставимой производительности, что подчеркивает замечательный прирост эффективности, достигнутый благодаря стратегической реализации RL. Это достижение бросает вызов давнему предположению о том, что размер модели является основным определяющим фактором производительности, предполагая, что сложные методы обучения могут преодолеть разрыв между размером и возможностями.
Бенчмаркинг совершенства
Чтобы тщательно оценить возможности QwQ-32B, команда Qwen подвергла модель комплексному набору тестов. Эти тесты, включая AIME24, LiveCodeBench, LiveBench, IFEval и BFCL, специально разработаны для оценки различных аспектов производительности ИИ, включая математические рассуждения, навыки программирования и общие способности к решению проблем. Результаты этих оценок рисуют убедительную картину сильных сторон QwQ-32B.
Вот более подробный взгляд на производительность QwQ-32B в каждом тесте:
AIME24: Этот тест фокусируется на математических рассуждениях. QwQ-32B набрал 79,5 балла, лишь немного уступив DeepSeek-R1-671B с его 79,8 баллами. Примечательно, что обе модели значительно превзошли OpenAl-o1-mini, который набрал 63,6 балла, а также дистиллированные модели.
LiveCodeBench: Этот тест оценивает навыки программирования. QwQ-32B набрал 63,4 балла, что близко к результату DeepSeek-R1-671B (65,9 балла). Опять же, обе модели превзошли производительность дистиллированных моделей и OpenAl-o1-mini (53,8 балла).
LiveBench: Разработанный для оценки общих способностей к решению проблем, LiveBench показал, что QwQ-32B набрал 73,1 балла, превзойдя результат DeepSeek-R1-671B (71,6 балла). Этот результат еще больше укрепляет позиции QwQ-32B как сильного претендента на выполнение общих задач ИИ.
IFEval: Этот тест фокусируется на следовании инструкциям и соответствии человеческим предпочтениям. QwQ-32B набрал впечатляющие 83,9 балла, что почти идентично результату DeepSeek-R1-671B (83,3 балла). Обе модели значительно превзошли OpenAl-o1-mini (59,1 балла) и дистиллированные модели.
BFCL: Этот тест проверяет способность модели справляться со сложными сценариями реального мира. QwQ-32B набрал 66,4 балла, превзойдя результат DeepSeek-R1-671B (62,8 балла). Этот результат демонстрирует потенциал QwQ-32B для практического применения, выходящего за рамки чисто академических тестов.
Эти результаты последовательно демонстрируют способность QwQ-32B конкурировать и в некоторых случаях превосходить гораздо более крупные модели. Это подчеркивает эффективность подхода команды Qwen и преобразующий потенциал RL в разработке ИИ.
Инновационный подход команды Qwen
Успех QwQ-32B можно объяснить инновационным многоэтапным процессом RL команды Qwen. Этот процесс начинается с контрольной точки ‘холодного старта’, что означает, что модель начинает с предварительно обученной основы, но затем значительно совершенствуется с помощью RL. Процесс обучения основан на вознаграждениях, основанных на результатах, что стимулирует модель улучшать свою производительность в конкретных задачах.
Начальный этап обучения фокусируется на масштабировании RL для задач по математике и программированию. Это включает в себя использование верификаторов точности и серверов выполнения кода для обеспечения обратной связи и управления обучением модели. Модель учится генерировать правильные математические решения и писать функциональный код, получая вознаграждения за успешные результаты.
Второй этап расширяет сферу обучения RL, охватывая общие возможности. Этот этап включает в себя вознаграждения от общих моделей вознаграждения и верификаторов, основанных на правилах, расширяя понимание моделью различных задач и инструкций. Этот этап имеет решающее значение для разработки всесторонне развитой модели ИИ, которая может справляться с широким спектром задач.
Команда Qwen обнаружила, что этот второй этап обучения RL, даже с относительно небольшим количеством шагов, может значительно повысить производительность модели по различным общим возможностям. К ним относятся следование инструкциям, соответствие человеческим предпочтениям и общая производительность агента. Важно отметить, что это улучшение общих возможностей не происходит за счет производительности в математике и программировании, что демонстрирует эффективность многоэтапного подхода.
Открытый вес и доступность
В целях содействия сотрудничеству и дальнейшим исследованиям команда Qwen сделала QwQ-32B открытым. Это означает, что параметры модели общедоступны, что позволяет исследователям и разработчикам получать доступ, изучать и развивать работу команды Qwen. Модель доступна на Hugging Face и ModelScope под лицензией Apache 2.0, разрешительной лицензией, которая поощряет широкое использование и модификацию. Кроме того, QwQ-32B доступен через Qwen Chat, предоставляя удобный интерфейс для взаимодействия с моделью.
Шаг к AGI
Разработка QwQ-32B представляет собой значительный шаг вперед в стремлении к Artificial General Intelligence (AGI). Команда Qwen рассматривает эту модель как начальное исследование масштабирования RL для улучшения способностей к рассуждению,и они планируют продолжить изучение интеграции агентов с RL для рассуждений на большие промежутки времени. Это включает в себя разработку систем ИИ, которые могут планировать и выполнять сложные задачи в течение длительных периодов времени, что является решающей способностью для достижения AGI.
Команда уверена, что объединение более сильных базовых моделей с RL, подкрепленное масштабируемыми вычислительными ресурсами, станет ключевым фактором в разработке AGI. QwQ-32B служит мощной демонстрацией этого потенциала, демонстрируя замечательный прирост производительности, который может быть достигнут благодаря стратегической реализации RL. Текущие исследования и разработки команды Qwen, а также открытый исходный код QwQ-32B обещают ускорить прогресс в области ИИ и приблизить нас к реализации действительно интеллектуальных машин. Акцент больше не делается исключительно на создании более крупных моделей, а на создании более интеллектуальных и адаптивных систем с помощью инновационных методов обучения.