Колко може обучението с подсилване, подкрепено с допълнителна проверка, да повиши възможностите на големите езикови модели (LLMs)? Екипът на Qwen от Alibaba е на път да разбере това с най-новото си творение, QwQ.
QwQ, “мислещ” модел, може да се похвали със сравнително компактни 32 милиарда параметъра. И все пак, Alibaba твърди, че той надминава DeepSeek R1, с неговите масивни 671 милиарда параметъра, в специфични бенчмаркове, свързани с математика, кодиране и извикване на функции.
Екипът на Qwen, подобно на подхода, използван с R1, използва обучение с подсилване, за да усъвършенства веригата от мисли на QwQ. Този метод подобрява анализа на проблемите и възможностите за разбиване. Обучението с подсилване традиционно укрепва стъпковото разсъждение, като възнаграждава моделите за правилни отговори, като по този начин насърчава по-точни отговори. QwQ обаче отива една стъпка напред, като включва верификатор на точността и сървър за изпълнение на код. Това гарантира, че наградите се предоставят изключително за точни математически решения и функционален код.
Екипът на Qwen твърди, че този подход води до модел, който надминава размера си, постигайки производителност, сравнима с, а понякога дори и надминаваща, много по-големи модели.
Въпреки това, AI бенчмарковете могат да бъдат измамни. Така че, нека да разгледаме как тези твърдения се превеждат в сценарии от реалния свят и след това ще ви насочим как да стартирате QwQ самостоятелно.
Оценка на производителността
Подложихме QwQ на серия от тестови подкани, обхващащи общи познания, пространствено разсъждение, решаване на проблеми, математика и други заявки, за които е известно, че предизвикват дори най-напредналите LLMs.
Поради значителните изисквания за памет на пълния модел, проведохме нашите тестове в две конфигурации, за да се погрижим за потребители с различен капацитет на RAM. Първоначално оценихме пълния модел, използвайки демонстрацията на QwQ на Hugging Face. Впоследствие тествахме 4-битова квантувана версия на 24 GB GPU (Nvidia 3090 или AMD Radeon RX 7900XTX), за да преценим въздействието на квантуването върху точността.
За повечето въпроси с общи познания, QwQ показа производителност, подобна на 671-милиардния параметър R1 на DeepSeek и други модели за разсъждение като o3-mini на OpenAI, като спира за кратко, за да формулира мислите си, преди да предостави отговора.
Силните страни на модела, може би не е изненадващо, стават очевидни, когато се справя с по-сложни логически, кодиращи или математически предизвикателства. Нека се задълбочим в тези области, преди да се обърнем към някои от неговите ограничения.
Умения за пространствено разсъждение
Започнахме със сравнително нов тест за пространствено разсъждение, разработен от Homebrew Research като част от техния проект AlphaMaze.
Тестът представя на модела лабиринт в текстов формат, както е показано по-долу. Задачата на модела е да се придвижи от началото “O” до целта “T”.