Alibaba представя Qwen-32B: Компактен гигант, предизвикващ по-големи модели
В изненадващо късно вечерно съобщение, Alibaba пусна с отворен код най-новия си модел за разсъждение, Qwen-32B (QwQ-32B). С 32 милиарда параметъра, този модел демонстрира производителност, сравнима със значително по-големия 67,1 милиарда параметъра, пълноценен DeepSeek-R1.
Екипът на Qwen подчерта в съобщението си изследванията си върху мащабирането на техниките за обучение с подсилване (reinforcement learning - RL). Те заявиха: “Ние изследвахме методи за разширяване на RL,постигайки някои впечатляващи резултати, базирани на нашия Qwen2.5-32B. Открихме, че RL обучението може непрекъснато да подобрява производителността, особено в математическите и кодиращите задачи. Наблюдавахме, че продължаващото мащабиране на RL може да помогне на средно големи модели да постигнат производителност, сравнима с гигантски MoE модели. Приветстваме всички да разговарят с нашия нов модел и да ни предоставят обратна връзка!”
QwQ-32B вече е достъпен на Hugging Face и ModelScope под лиценза Apache 2.0 с отворен код. Потребителите могат също така да взаимодействат директно с модела чрез Qwen Chat. Популярният инструмент за локално внедряване, Ollama, вече е интегрирал поддръжка, достъпна чрез командата: ollama run qwq
.
Придружавайки пускането, екипът на Qwen публикува блог пост, озаглавен “QwQ-32B: Harnessing the Power of Reinforcement Learning,” описващ подробно новаторските постижения.
Блог постът подчертава огромния потенциал на мащабното обучение с подсилване (RL) да надмине традиционните методи за предварително обучение и последващо обучение за подобряване на производителността на модела. Последните изследвания, като интегрирането на DeepSeek-R1 на данни за студен старт и многоетапно обучение, показват способността на RL да повиши значително възможностите за разсъждение, позволявайки по-дълбоко мислене и решаване на сложни проблеми.
Изследването на екипа на Qwen се фокусира върху използването на мащабно RL за повишаване на интелигентността на големите езикови модели, кулминирайки в създаването на QwQ-32B. Този модел с 32 милиарда параметъра забележително съперничи на производителността на 67,1 милиарда параметъра (с 37 милиарда активирани) DeepSeek-R1. Екипът подчерта: “Това постижение подчертава ефективността на прилагането на обучение с подсилване към здрави, предварително обучени базови модели.”
QwQ-32B също така включва възможности, свързани с агенти, което му позволява критично да оценява действията си, докато използва инструменти, и да адаптира процеса си на разсъждение въз основа на обратна връзка от околната среда. “Надяваме се, че нашите усилия демонстрират, че комбинирането на мощни базови модели с мащабно обучение с подсилване може да бъде жизнеспособен път към Artificial General Intelligence (AGI),” заяви екипът.
Производителност на модела: Сравнителен анализ на QwQ-32B
QwQ-32B беше подложен на строга оценка в редица бенчмаркове, обхващащи математически разсъждения, програмиране и общи възможности. Резултатите показват производителността на QwQ-32B в сравнение с други водещи модели, включително DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini и оригиналния DeepSeek-R1.
Резултатите са поразителни. QwQ-32B демонстрира изключителна производителност, дори леко надминавайки DeepSeek-R1-67B на бенчмарковете LiveBench, IFEval и BFCL. Това подчертава ефективността и мощта на подхода за обучение с подсилване, възприет от екипа на Qwen.
Дълбоко потапяне в обучението с подсилване (Reinforcement Learning)
Разработката на QwQ-32B използва мащабно обучение с подсилване, изградено върху основа за студен старт. Първоначалната фаза се концентрира специално върху RL обучение за математически и програмни задачи. За разлика от традиционните подходи, разчитащи на модели за възнаграждение, екипът на Qwen предостави обратна връзка за математически проблеми, като провери правилността на генерираните отговори. За задачите по кодиране обратната връзка беше получена от сървър за изпълнение на код, оценяващ дали генерираният код успешно е преминал тестовите случаи.
С напредването на обучението през множество итерации, QwQ-32B показа последователни подобрения в производителността и в двете области. Този итеративен процес на усъвършенстване, ръководен от директна обратна връзка за точността на решението, се оказа изключително ефективен.
След първоначалната фаза на RL, фокусирана върху математиката и програмирането, беше въведена последваща фаза на RL за подобряване на общите възможности. Този етап използва общи модели за възнаграждение и базирани на правила валидатори за обучение. Резултатите показват, че дори малък брой стъпки в общото RL могат да повишат общите възможности, без да повлияят значително на производителността на предварително обучените математически и програмни задачи. Това демонстрира адаптивността и устойчивостта на модела.
Бъдещи насоки: Разширяване на хоризонтите на AI
Екипът на Qwen също сподели бъдещите си планове, заявявайки: “Това е първата стъпка на Qwen в използването на мащабно обучение с подсилване (RL) за подобряване на възможностите за разсъждение. Чрез това пътуване ние не само станахме свидетели на огромния потенциал на мащабирането на RL, но и разпознахме неизползваните възможности в предварително обучените езикови модели. Докато работим за разработването на следващото поколение Qwen, вярваме, че комбинирането на още по-мощни базови модели с RL, задвижвани от мащабирани изчислителни ресурси, ще ни доближи до постигането на Artificial General Intelligence (AGI). Освен това, ние активно проучваме интегрирането на агенти с RL, за да дадем възможност за дългосрочно разсъждение, целяйки да отключим още по-голяма интелигентност чрез удължено време за разсъждение.” Този ангажимент за непрекъснато усъвършенстване и изследване подчертава отдадеността на екипа да разширява границите на AI.
Приемане от общността: QwQ-32B получава широко признание
Пускането на QwQ-32B беше посрещнато с широк ентусиазъм и положителни отзиви. AI общността, включително много от потребителите на Qwen, с нетърпение очакваха представянето на този нов модел.
Неотдавнашното вълнение около DeepSeek подчерта предпочитанието на общността към пълноценния модел поради ограниченията на дестилираната версия. Въпреки това, пълноценният модел с 67,1 милиарда параметъра представляваше предизвикателства за внедряване, особено за крайни устройства с ограничени ресурси. Qwen-32B, със значително намаления си размер, решава този проблем, отваряйки възможности за по-широко внедряване.
Един потребител коментира: “Вероятно все още не е възможно на мобилни телефони, но Mac-ове с достатъчно RAM може да са в състояние да се справят.” Това мнение отразява оптимизма около потенциала за стартиране на QwQ-32B на устройства с ограничени ресурси.
Друг потребител се обърна директно към Binyuan Hui, учен в лабораторията Tongyi на Alibaba, призовавайки за разработването на още по-малки модели. Това подчертава търсенето на все по-компактни и ефективни AI модели.
Потребителите също споделиха своя опит, възхвалявайки скоростта и отзивчивостта на модела. Един потребител показа демонстрация, подчертавайки бързите възможности за обработка на QwQ-32B.
Awni Hannun, изследовател на машинно обучение в Apple, потвърди успешното изпълнение на QwQ-32B на M4 Max, отбелязвайки впечатляващата му скорост. Това потвърждение от виден изследовател допълнително затвърждава твърденията за производителност на модела.
Екипът на Qwen също така предостави предварителна версия на QwQ-32B на официалния си интерфейс за чат, Qwen Chat, насърчавайки потребителите да тестват и да предоставят обратна връзка. Този интерактивен подход насърчава ангажираността на общността и позволява оценка в реалния свят на възможностите на модела.
Бързото приемане на QwQ-32B от общността и интегрирането му в популярни инструменти като Ollama демонстрират значението и въздействието на модела. Комбинацията от силна производителност, по-малък размер на модела и иновативното използване на обучение с подсилване позиционира QwQ-32B като основен напредък в областта на големите езикови модели. Отвореният код на модела допълнително насърчава сътрудничеството и иновациите в AI общността, проправяйки пътя за бъдещи пробиви. Фокусът върху практическото внедряване и приложенията в реалния свят подчертава потенциала на QwQ-32B да има значително въздействие извън изследователските среди, предоставяйки усъвършенствани AI възможности на по-широк кръг потребители и устройства. Продължаващите усилия за изследване и развитие от страна на екипа на Qwen обещават още по-вълнуващи постижения в преследването на AGI.