Бросая вызов гигантам: компактный претендент
QwQ, несмотря на то, что имеет всего 32 миллиарда параметров по сравнению с заявленными 671 миллиардом у DeepSeek R1, позиционируется как модель ‘рассуждения’. Alibaba утверждает, что эта относительно небольшая модель может превзойти R1 в определенных тестах, особенно в таких областях, как математика, кодирование и вызов функций. Это амбициозное заявление требует более пристального изучения внутренней работы и реальной производительности QwQ.
Обучение с подкреплением: ключ к мастерству QwQ
Как и в случае с DeepSeek R1, команда Qwen использовала обучение с подкреплением (RL) для улучшения способностей QwQ к рассуждению по цепочке мыслей. Этот метод улучшает способность модели анализировать и разбивать сложные проблемы шаг за шагом. Традиционный подход в RL заключается в вознаграждении модели за правильные ответы, тем самым подкрепляя точные ответы.
Однако команда Qwen применила более тонкий подход к QwQ. Они интегрировали верификатор точности и сервер выполнения кода. Это важное дополнение гарантирует, что вознаграждения предоставляются только за математически обоснованные решения и функциональный код. Внедряя этот строгий процесс проверки, команда стремится создать модель, которая демонстрирует более высокую степень точности и надежности.
Заявления о производительности: проверка реальностью
Усилия команды Qwen, по их утверждению, привели к созданию модели, которая значительно превосходит свой весовой класс. Они утверждают, что QwQ достигает уровней производительности, сравнимых, а в некоторых случаях даже превосходящих, гораздо более крупные модели.
Однако мир тестов AI может быть сложным. Крайне важно выйти за рамки представленных цифр и изучить, как эти утверждения претворяются в практические, реальные сценарии.
Практическое тестирование: испытание QwQ
Чтобы оценить возможности QwQ, была разработана серия тестовых подсказок, охватывающих широкий спектр областей. Они включали общие знания, пространственное мышление, решение проблем, математику и другие задачи, которые, как известно, создают трудности даже для самых продвинутых больших языковых моделей (LLM).
Из-за значительных требований к памяти полной модели тестирование выполнялось в двух конфигурациях. Во-первых, полная модель была оценена с использованием демонстрации QwQ на Hugging Face. Это позволило оценить ее полный потенциал. Во-вторых, 4-битная квантованная версия была протестирована на 24-гигабайтном графическом процессоре (в частности, Nvidia 3090 или AMD Radeon RX 7900XTX). Эта конфигурация была направлена на то, чтобы оценить влияние квантования на точность модели, сделав ее более доступной для пользователей с менее мощным оборудованием.
Общие знания: держится достойно
В ответ на большинство вопросов общего характера QwQ продемонстрировала производительность, сравнимую с 671-миллиардным параметром R1 DeepSeek и другими моделями рассуждения, такими как o3-mini от OpenAI. Модели обычно требовалось несколько секунд, чтобы сформулировать свои мысли, прежде чем дать ответ на запрос. Такое поведение характерно для моделей рассуждения, которые отдают приоритет тщательному обдумыванию, а не немедленным ответам.
Превосходство в сложностях: логика, кодирование и математика
Там, где QwQ действительно начинает выделяться, так это в решении более сложных задач, связанных с логикой, кодированием или математикой. Давайте углубимся в эти области, выделив ее сильные стороны и указав на некоторые области, где она не справляется.
Пространственное мышление: навигация по лабиринту
Относительно новый тест пространственного мышления, разработанный Homebrew Research в рамках их проекта AlphaMaze, был использован для оценки QwQ.
И локально размещенный экземпляр QwQ, и полноразмерная модель последовательно успешно решали эти головоломки. Однако для каждого запуска требовалось несколько минут. Это указывает на то, что, хотя QwQ может эффективно справляться с пространственным мышлением, она не обязательно самая быстрая в этом.
Напротив, R1 DeepSeek и его 32-миллиардный дистиллят демонстрировали различное поведение. Обе модели успешно решили первый лабиринт. Однако R1 столкнулся с трудностями во втором, в то время как 32-миллиардный дистиллят достиг 90% успеха во втором лабиринте. Эта изменчивость не является совершенно неожиданной, учитывая, что R1 и дистиллят используют разные базовые модели.
Хотя QwQ продемонстрировала превосходную производительность по сравнению с DeepSeek в этом конкретном тесте, было замечено некоторое необычное поведение с 4-битной моделью. Первоначально ей требовалось почти вдвое больше токенов ‘мысли’, чтобы завершить тест. Первоначально это предполагало потенциальные потери из-за квантования. Однако дальнейшее исследование показало, что квантованная модель в своем начальном состоянии демонстрировала неоптимальную производительность. Настройка гиперпараметров и повторный запуск тестов решили эту проблему, продемонстрировав важность правильной конфигурации.
Однократное кодирование: потенциальная сила
QwQ привлекла значительное внимание своим потенциалом в ‘однократном’ (one-shot) генерировании кода – способностью создавать пригодный для использования код с первой попытки. Эта конкретная область, по-видимому, является сильной стороной модели.
Модели было поручено воссоздать несколько относительно простых игр на Python с использованием библиотеки pygame. Выбранными играми были Pong, Breakout, Asteroids и Flappy Bird.
QwQ справилась с Pong и Breakout относительно легко. После нескольких минут обработки модель сгенерировала рабочие версии обеих игр.
Однако, когда ей было поручено воссоздать Asteroids, QwQ столкнулась с трудностями. Хотя сгенерированный код запускался, графика и игровая механика часто были искажены и содержали ошибки. Напротив, R1 с первой попытки точно воссоздал классический аркадный шутер.
Важно учитывать данные обучения для этих моделей. Они были подвергнуты воздействию огромного количества общедоступного исходного кода, вероятно, включая воспроизведения классических игр. Это поднимает вопрос о том, просто ли модели вспоминают изученную информацию, а не самостоятельно выводят игровую механику с нуля. Это подчеркивает фундаментальную природу этих массивных нейронных сетей, где кажущийся интеллект часто проистекает из обширного распознавания образов.
Даже с этими ограничениями производительность QwQ в воссоздании классических аркадных игр впечатляет, особенно учитывая количество ее параметров. Она, возможно, не соответствует R1 в каждом тесте, но демонстрирует замечательный уровень возможностей. Фраза ‘ничто не заменит объем’, часто используемая в автомобильном мире, может быть актуальна и здесь. Это может объяснить, почему Alibaba разрабатывает ‘Max’ версию QwQ, хотя маловероятно, что она будет работать на потребительском оборудовании в ближайшее время.
По сравнению с аналогичным по размеру R1 Qwen 2.5 32B distill от DeepSeek, решение Alibaba интегрировать сервер выполнения кода в свой конвейер обучения с подкреплением, возможно, дало преимущество в задачах, связанных с программированием.
Математика: возможности с оговоркой
Исторически сложилось так, что LLM испытывали трудности с математикой, что является следствием их обучения, ориентированного на язык. Хотя более новые модели показали улучшения, QwQ по-прежнему сталкивается с проблемами, хотя и не обязательно по тем причинам, которые можно было бы ожидать.
QwQ успешно решила все математические задачи, ранее поставленные перед R1. Это указывает на то, что QwQ может справляться с базовой арифметикой и даже с некоторой алгеброй. Однако проблема заключается в ее эффективности. Использование LLM для математических вычислений кажется нелогичным, когда калькуляторы и прямые вычисления остаются легкодоступными и значительно более быстрыми.
Например, для решения простого уравнения, такого как 7*43
, QwQ потребовалось сгенерировать более 1000 токенов, что заняло около 23 секунд на RTX 3090 Ti. Это задача, которую можно было бы выполнить на карманном калькуляторе за долю этого времени.
Неэффективность становится еще более выраженной при больших вычислениях. Решение 3394*35979
, задачи умножения, выходящей за рамки возможностей большинства моделей, не являющихся моделями рассуждения, заняло у локального экземпляра QwQ три минуты и более 5000 токенов для вычисления.
До исправления гиперпараметров то же уравнение требовало ошеломляющих девяти минут и почти 12 000 токенов.
Ключевой вывод здесь заключается в том, что, хотя модель может быть способна пробиться к правильному ответу, это не обязательно означает, что она является оптимальным инструментом для этой работы. Более практичным подходом было бы предоставить QwQ доступ к калькулятору Python. Это использует сильные стороны модели, одновременно перекладывая вычислительно сложные задачи на более подходящий инструмент.
Когда QwQ было поручено решить то же уравнение 3394*35979
с использованием инструментов, время ее ответа упало до восьми секунд, поскольку калькулятор взял на себя основную нагрузку.
Преобладание ‘Wait’: взгляд на мыслительный процесс
Изучение ‘мыслей’ QwQ показывает частое появление слова ‘wait’ (‘подожди’), особенно во время сложных задач или текстовых задач. Это отражает внутренний процесс модели, заключающийся в проверке своей работы на предмет альтернативных результатов.
Хотя такое поведение распространено в моделях рассуждения, оно может быть особенно разочаровывающим, когда QwQ генерирует неверный ответ, даже после демонстрации понимания правильного ответа во время своего мыслительного процесса.
Эта проблема часто встречалась во время тестирования. Одним из наиболее показательных примеров была адаптация AutoGen AI классической задачи о волке, козе и капусте. Эта головоломка представляет собой задачу оптимизации транспортировки с изюминкой:
Решение встроено в подсказку: с тремя надежными отсеками фермер может перевезти все предметы за одну поездку. Однако из-за сходства головоломки с классической версией модели часто упускают из виду отсеки.
В ходе тестирования QwQ постоянно не удавалось правильно решить эту головоломку. Изучение ее мыслительного процесса показало, что она не упустила из виду три отсека. Фактически, она признала их, но отклонила как слишком простые:
‘Подожди, если фермер может взять все три за одну поездку, то он может просто сделать это и все. Но это сделало бы задачу тривиальной, что маловероятно. Так что, возможно, отсеки раздельные, но лодка может перевозить только два предмета плюс фермер?’
Независимо от того, выполнялся ли тест на полной модели в облаке или локально, QwQ с трудом решала эту задачу последовательно. Это подчеркивает потенциальное ограничение в ее способностях к рассуждению, когда она может переосмыслить или неправильно истолковать ограничения проблемы.
Чувствительность к гиперпараметрам: тонкий баланс
По сравнению с другими моделями QwQ продемонстрировала повышенную чувствительность к своей конфигурации. Первоначально Alibaba рекомендовала определенные параметры выборки:
- Temperature: 0.6
- TopP: 0.95
- TopK: между 20 и 40
Впоследствии эти рекомендации были обновлены и включали:
- MinP: 0
- Presence Penalty: между 0 и 2
Из-за очевидной ошибки в обработке параметров выборки Llama.cpp (Llama.cpp используется для запуска вывода на моделях) также было необходимо отключить штраф за повторение, установив его равным 1.
Как упоминалось ранее, устранение этих проблем с конфигурацией привело к значительному улучшению, более чем вдвое сократив количество ‘думающих’ токенов, необходимых для получения ответа. Однако эта ошибка, по-видимому, специфична для GGUF-квантованных версий модели при работе на механизме вывода Llama.cpp, который используется популярными приложениями, такими как Ollama и LM Studio.
Для пользователей, планирующих использовать Llama.cpp, настоятельно рекомендуется ознакомиться с руководством Unsloth по исправлению порядка выборки.
Начало работы с QwQ: практическое руководство
Для тех, кто заинтересован в экспериментах с QwQ, настройка в Ollama относительно проста. Однако важно отметить, что для этого требуется графический процессор со значительным объемом видеопамяти. Модель была успешно запущена на 24-гигабайтном 3090 Ti с окном контекста, достаточно большим для практического использования.
Хотя технически возможно запустить модель на ЦП и системной памяти, это, вероятно, приведет к крайне медленному времени отклика, если только не используется высокопроизводительная рабочая станция или сервер.
Предварительные условия:
- Машина, способная запускать LLM среднего размера с 4-битным квантованием. Рекомендуется совместимый графический процессор с не менее 24 ГБ видеопамяти. Список поддерживаемых карт можно найти здесь.
- Для компьютеров Mac на базе Apple Silicon рекомендуется минимум 32 ГБ памяти.
В этом руководстве предполагается базовое знакомство с интерфейсом командной строки Linux и Ollama.
Установка Ollama
Ollama — это популярный инструмент для запуска моделей, который упрощает процесс загрузки и обслуживания LLM на потребительском оборудовании. Для пользователей Windows или macOS загрузите и установите его, как любое другое приложение, с ollama.com.
Для пользователей Linux Ollama предоставляет удобную однострочную команду для установки: