Предизвикателство към гигантите: Компактен претендент
Екипът на Qwen на Alibaba хвърли ръкавицата в пръстена с най-новото си творение, QwQ, модел, който има за цел да предизвика производителността на по-големите си събратя, като същевременно поддържа изненадващо компактен отпечатък.
QwQ, въпреки че може да се похвали със само 32 милиарда параметъра в сравнение с заявените 671 милиарда на DeepSeek R1, е позициониран като модел за “разсъждение”. Alibaba твърди, че този сравнително малък модел може да надмине R1 в специфични бенчмаркове, особено в области като математика, кодиране и извикване на функции. Това амбициозно твърдение изисква по-внимателен поглед върху вътрешната работа и реалната производителност на QwQ.
Обучение с подсилване: Ключът към уменията на QwQ
Подобно на DeepSeek R1, екипът на Qwen използва обучение с подсилване (RL), за да усъвършенства способностите за разсъждение на QwQ по веригата на мисълта. Този метод подобрява способността на модела да анализира и разгражда сложни проблеми стъпка по стъпка. Традиционният подход в RL включва възнаграждаване на модела за правилни отговори, като по този начин се подсилват точните отговори.
Екипът на Qwen обаче възприе по-нюансиран подход с QwQ. Те интегрираха верификатор на точността и сървър за изпълнение на код. Това решаващо допълнение гарантира, че наградите се дават само за математически издържани решения и функционален код. Чрез прилагането на този строг процес на проверка, екипът има за цел да култивира модел, който показва по-висока степен на прецизност и надеждност.
Твърдения за производителност: Проверка на реалността
Усилията на екипа на Qwen, твърдят те, са довели до модел, който се представя значително над тегловната си категория. Те твърдят, че QwQ постига нива на производителност, сравними с, а в някои случаи дори надминаващи, много по-големи модели.
Светът на AI бенчмарковете обаче може да бъде сложен. От решаващо значение е да се премине отвъд докладваните цифри и да се проучи как тези твърдения се превръщат в практически сценарии от реалния свят.
Практическо тестване: Подлагане на QwQ на изпитание
За да се оценят възможностите на QwQ, бяха проектирани серия от тестови подкани, обхващащи редица области. Те включваха общи познания, пространствено разсъждение, решаване на проблеми, математика и други предизвикателства, за които е известно, че представляват трудности дори за най-модерните големи езикови модели (LLM).
Поради значителните изисквания за памет на пълния модел, тестването беше изпълнено в две конфигурации. Първо, пълният модел беше оценен с помощта на демонстрацията на QwQ на Hugging Face. Това позволи оценка на пълния му потенциал. Второ, 4-битова квантувана версия беше тествана на 24GB GPU (по-специално Nvidia 3090 или AMD Radeon RX 7900XTX). Тази конфигурация имаше за цел да прецени въздействието на квантуването върху точността на модела, което го прави по-достъпен за потребители с по-малко мощен хардуер.
Общи познания: Поддържане на ниво
В отговор на повечето въпроси за общи познания, QwQ демонстрира производителност, сравнима с 671-милиардния параметър R1 на DeepSeek и други модели за разсъждение като o3-mini на OpenAI. Моделът обикновено отнемаше няколко секунди, за да формулира мислите си, преди да предостави отговор на заявката. Това поведение е характерно за моделите за разсъждение, които дават приоритет на внимателното обмисляне пред незабавните отговори.
Превъзходство в сложността: Логика, кодиране и математика
Там, където QwQ наистина започва да се отличава, е в справянето с по-сложни предизвикателства, включващи логика, кодиране или математика. Нека се задълбочим в тези области, като подчертаем силните му страни и се спрем на някои области, в които не успява.
Пространствено разсъждение: Навигиране в лабиринта
Сравнително нов тест за пространствено разсъждение, разработен от Homebrew Research като част от техния проект AlphaMaze, беше използван за оценка на QwQ.
Както локално хостваният екземпляр на QwQ, така и пълноразмерният модел последователно решаваха тези пъзели успешно. Всяко изпълнение обаче изискваше няколко минути, за да завърши. Това показва, че макар QwQ да може да се справя ефективно с пространственото разсъждение, той не е непременно най-бързият в това.
За разлика от това, R1 на DeepSeek и неговият 32B дестилат показаха различно поведение. И двата модела успешно решиха първия лабиринт. R1 обаче се затрудни с втория, докато 32B дестилатът постигна 90% успеваемост на втория лабиринт. Тази променливост не е напълно неочаквана, като се има предвид, че R1 и дестилатът използват различни базови модели.
Докато QwQ демонстрира превъзходна производителност в сравнение с DeepSeek в този конкретен тест, беше наблюдавано необичайно поведение с 4-битовия модел. Първоначално той изискваше почти два пъти повече “мисловни” токени, за да завърши теста. Това първоначално предполагаше потенциални загуби поради квантуване. По-нататъшното разследване обаче разкри, че квантуваният модел, в първоначалното си състояние, показва неоптимална производителност. Коригирането на хиперпараметрите и повторното изпълнение на тестовете разрешиха този проблем, демонстрирайки важността на правилната конфигурация.
Еднократно кодиране: Потенциална сила
QwQ привлече значително внимание заради потенциала си в “еднократното” генериране на код – способността да се произвежда използваем код при първия опит. Тази конкретна област изглежда е значителна сила за модела.
На модела беше възложено да пресъздаде няколко сравнително прости игри на Python, използвайки библиотеката pygame. Избраните игри бяха Pong, Breakout, Asteroids и Flappy Bird.
QwQ се справи с Pong и Breakout сравнително лесно. След няколко минути обработка, моделът генерира работещи версии на двете игри.
Когато обаче му беше възложено да пресъздаде Asteroids, QwQ срещна трудности. Въпреки че генерираният код се изпълняваше, графиката и механиката на играта често бяха изкривени и бъгави. За разлика от това, R1, при първия си опит, вярно пресъздаде класическия аркаден шутър.
Важно е да се вземат предвид данните за обучение за тези модели. Те са били изложени на огромно количество открито достъпен изходен код, вероятно включително репродукции на класически игри. Това повдига въпроса дали моделите просто си припомнят научена информация, а не независимо извличат механиката на играта от нулата. Това подчертава фундаменталната природа на тези масивни невронни мрежи, където очевидната интелигентност често произтича от обширно разпознаване на образи.
Дори с тези ограничения, представянето на QwQ при пресъздаването на класически аркадни игри е впечатляващо, особено като се има предвид броят на параметрите му. Той може да не съвпада с R1 във всеки тест, но демонстрира забележително ниво на способност. Фразата “няма заместител на обема”, често използвана в автомобилния свят, може да е уместна тук. Това може да обясни защо Alibaba разработва “Max” версия на QwQ, въпреки че е малко вероятно тя да може да се изпълнява на потребителски хардуер скоро.
В сравнение с подобно оразмерения R1 Qwen 2.5 32B дестилат на DeepSeek, решението на Alibaba да интегрира сървър за изпълнение на код в своя конвейер за обучение с подсилване може да е дало предимство при предизвикателства, свързани с програмирането.
Математика: Способност с уговорка
В исторически план LLM са се борили с математиката, което е следствие от тяхното обучение, фокусирано върху езика. Докато по-новите модели показват подобрения, QwQ все още е изправен пред предизвикателства, макар и не непременно по причините, които човек би очаквал.
QwQ успешно реши всички математически задачи, поставени преди това на R1. Това показва, че QwQ може да се справи с основна аритметика и дори с малко алгебра. Проблемът обаче се крие в неговата ефективност. Ангажирането на LLM за математически изчисления изглежда нелогично, когато калкулаторите и директните изчисления остават лесно достъпни и значително по-бързи.
Например, решаването на просто уравнение като 7*43
изискваше QwQ да генерира над 1000 токена, което отнема приблизително 23 секунди на RTX 3090 Ti. Това е задача, която може да бъде изпълнена на джобен калкулатор за частица от времето.
Неефективността става още по-изразена при по-големи изчисления. Решаването на 3394*35979
, задача за умножение, надхвърляща възможностите на повечето модели, които не са за разсъждение, отне на локалния екземпляр на QwQ три минути и над 5000 токена за изчисляване.
Преди корекцията на хиперпараметрите, същото уравнение изискваше зашеметяващите девет минути и близо 12 000 токена.
Ключовият извод тук е, че макар един модел да е способен да си проправи път с груба сила до правилния отговор, това не означава непременно, че той е оптималният инструмент за работата. По-практичен подход би бил да се предостави на QwQ достъп до Python калкулатор. Това използва силните страни на модела, като същевременно прехвърля изчислително интензивните задачи на по-подходящ инструмент.
Когато му беше възложено да реши същото уравнение 3394*35979
с помощта на инструменти, времето за реакция на QwQ спадна до осем секунди, тъй като калкулаторът се справи с тежката работа.
Преобладаването на “Wait”: Поглед към мисловния процес
Изследването на “мислите” на QwQ разкрива често срещане на думата “wait”, особено по време на сложни задачи или текстови задачи. Това отразява вътрешния процес на модела за проверка на работата му спрямо алтернативни резултати.
Въпреки че това поведение е често срещано при моделите за разсъждение, то може да бъде особено разочароващо, когато QwQ генерира неправилен отговор, дори след като демонстрира разбиране на правилния отговор по време на своя “мисловен” процес.
Този проблем беше срещан често по време на тестването. Един от най-илюстративните примери беше адаптацията на AutoGen AI на класическия проблем с вълка, козата и зелето. Този пъзел представя предизвикателство за оптимизация на транспорта с обрат:
Решението е вградено в подканата: с три сигурни отделения фермерът може да транспортира всички предмети с едно пътуване. Поради приликата на пъзела с класическата версия обаче, моделите често пренебрегват отделенията.
При тестването QwQ последователно не успяваше да реши този пъзел правилно. Изследването на неговия мисловен процес разкри, че той не е пренебрегнал трите отделения. Всъщност той ги призна, но ги отхвърли като твърде прости:
“Чакай, ако фермерът може да вземе и трите с едно пътуване, тогава той може просто да направи това и да приключи. Но това би направило проблема тривиален, което е малко вероятно. Така че може би отделенията са отделни, но лодката може да носи само два предмета плюс фермера?”
Независимо дали тестът беше изпълнен на пълния модел в облака или локално, QwQ се затрудняваше да реши това последователно. Това подчертава потенциално ограничение в неговите способности за разсъждение, където той може да преосмисли или да изтълкува погрешно ограниченията на проблема.
Чувствителност към хиперпараметрите: Деликатен баланс
В сравнение с други модели, QwQ показа повишена чувствителност към своята конфигурация. Първоначално Alibaba препоръча специфични параметри за семплиране:
- Temperature: 0.6
- TopP: 0.95
- TopK: между 20 и 40
Впоследствие тези препоръки бяха актуализирани, за да включват:
- MinP: 0
- Presence Penalty: между 0 и 2
Поради очевиден бъг в обработката на параметрите за семплиране от Llama.cpp (Llama.cpp се използва за изпълнение на извод на модели), също така беше необходимо да се деактивира наказанието за повторение, като се зададе на 1.
Както беше споменато по-рано, справянето с тези проблеми с конфигурацията доведе до значително подобрение, повече от наполовина намалявайки броя на “мислещите” токени, необходими за достигане до отговор. Този бъг обаче изглежда е специфичен за GGUF-квантувани версии на модела, когато се изпълнява на Llama.cpp енджина за извод, който се използва от популярни приложения като Ollama и LM Studio.
За потребителите, които планират да използват Llama.cpp, силно се препоръчва да се консултират с ръководството на Unsloth за коригиране на реда на семплиране.
Първи стъпки с QwQ: Практическо ръководство
За тези, които се интересуват от експериментиране с QwQ, настройването му в Ollama е сравнително лесно. Важно е обаче да се отбележи, че той изисква GPU със значително количество vRAM. Моделът беше успешно изпълнен на 24GB 3090 Ti с достатъчно голям контекстен прозорец за практическа употреба.
Въпреки че е технически възможно да се изпълни моделът на CPU и системна памет, това вероятно ще доведе до изключително бавни времена за реакция, освен ако не се използва работна станция или сървър от висок клас.
Предпоставки:
- Машина, способна да изпълнява средно големи LLM при 4-битово квантуване. Препоръчва се съвместим GPU с поне 24GB vRAM. Списък с поддържани карти може да бъде намерен тук.
- За Apple Silicon Mac се препоръчват минимум 32GB памет.
Това ръководство предполага основно познаване на интерфейса на командния ред на Linux и Ollama.
Инсталиране на Ollama
Ollama е популярен изпълнител на модели, който опростява процеса на изтегляне и обслужване на LLM на потребителски хардуер. За потребители на Windows или macOS, изтеглете и го инсталирайте като всяко друго приложение от ollama.com.
За потребители на Linux, Ollama предоставя удобен едноредов код за инсталация: