Силата на Reinforcement Learning
Традиционните подходи за разработване на AI модели разчитат в голяма степен на предварително обучение и методи за последващо обучение. Екипът на Qwen обаче се е впуснал отвъд тези конвенционални техники, като е интегрирал агентни възможности директно в модела за разсъждение. Тази интеграция дава възможност на QwQ-32B да се ангажира с критично мислене, да използва външни инструменти и динамично да адаптира своя процес на разсъждение въз основа на обратна връзка от своята среда. Това представлява значителна стъпка напред в създаването на по-адаптивни и интелигентни AI системи.
Екипът на Qwen подчертава, че мащабирането на RL има потенциала да отключи подобрения в производителността, които надхвърлят възможностите на традиционните методи. Последните изследвания вече демонстрираха способността на RL значително да повиши възможностите за разсъждение на AI моделите, а QwQ-32B служи като убедителен пример за този потенциал в действие.
Преодоляване на разликата между размер и производителност
Един от най-поразителните аспекти на QwQ-32B е неговата производителност спрямо размера му. DeepSeek-R1, модел, с който QwQ-32B се конкурира, може да се похвали с цели 671 милиарда параметъра (с 37 милиарда активирани). QwQ-32B, със сравнително скромните 32 милиарда параметъра, постига сравнима производителност, подчертавайки забележителните подобрения в ефективността, постигнати чрез стратегическото прилагане на RL. Това постижение оспорва дългогодишното предположение, че размерът на модела е основният определящ фактор за производителността, което предполага, че усъвършенстваните техники за обучение могат да преодолеят разликата между размер и възможности.
Бенчмаркинг за отлични постижения
За да оцени стриктно възможностите на QwQ-32B, екипът на Qwen подложи модела на изчерпателен набор от бенчмаркове. Тези бенчмаркове, включително AIME24, LiveCodeBench, LiveBench, IFEval и BFCL, са специално проектирани да оценяват различни аспекти на AI производителността, включително математически разсъждения, умения за кодиране и общи способности за решаване на проблеми. Резултатите от тези оценки рисуват убедителна картина на силните страни на QwQ-32B.
Ето по-подробен преглед на представянето на QwQ-32B на всеки бенчмарк:
AIME24: Този бенчмарк се фокусира върху математическите разсъждения. QwQ-32B постигна резултат от 79,5, само малко по-нисък от резултата на DeepSeek-R1-671B от 79,8. Трябва да се отбележи, че и двата модела значително превъзхождат OpenAl-o1-mini, който постигна 63,6, както и дестилираните модели.
LiveCodeBench: Този бенчмарк оценява уменията за кодиране. QwQ-32B постигна 63,4, което е близко до резултата на DeepSeek-R1-671B от 65,9. Отново и двата модела надминаха представянето на дестилираните модели и OpenAl-o1-mini (53,8).
LiveBench: Проектиран да оценява общите способности за решаване на проблеми, LiveBench показа, че QwQ-32B постига резултат от 73,1, надминавайки резултата на DeepSeek-R1-671B от 71,6. Този резултат допълнително затвърждава позицията на QwQ-32B като силен претендент в общите AI задачи.
IFEval: Този бенчмарк се фокусира върху следването на инструкции и съответствието с човешките предпочитания. QwQ-32B постигна впечатляващите 83,9, почти идентични с резултата на DeepSeek-R1-671B от 83,3. И двата модела значително превъзхождат OpenAl-o1-mini (59,1) и дестилираните модели.
BFCL: Този бенчмарк тества способността на модела да се справя със сложни сценарии от реалния свят. QwQ-32B постигна резултат от 66,4, надминавайки резултата на DeepSeek-R1-671B от 62,8. Този резултат демонстрира потенциала на QwQ-32B за практически приложения извън чисто академичните бенчмаркове.
Тези резултати последователно демонстрират способността на QwQ-32B да се конкурира с, а в някои случаи и да превъзхожда, много по-големи модели. Това подчертава ефективността на подхода на екипа на Qwen и трансформиращия потенциал на RL в развитието на AI.
Иновативният подход на екипа на Qwen
Успехът на QwQ-32B може да се отдаде на иновативния многоетапен RL процес на екипа на Qwen. Този процес започва с “cold-start” контролна точка, което означава, че моделът започва с предварително обучена основа, но след това се усъвършенства значително чрез RL. Процесът на обучение се ръководи от награди, базирани на резултатите, стимулирайки модела да подобри представянето си по конкретни задачи.
Първоначалният етап на обучение се фокусира върху мащабирането на RL за математически задачи и задачи за кодиране. Това включва използването на верификатори за точност и сървъри за изпълнение на код, за да се осигури обратна връзка и да се насочи обучението на модела. Моделът се научава да генерира правилни математически решения и да пише функционален код, като получава награди за успешни резултати.
Вторият етап разширява обхвата на RL обучението, за да обхване общи възможности. Този етап включва награди от общи модели за възнаграждение и верификатори, базирани на правила, разширявайки разбирането на модела за различни задачи и инструкции. Този етап е от решаващо значение за разработването на добре закръглен AI модел, който може да се справи с широк спектър от предизвикателства.
Екипът на Qwen откри, че този втори етап на RL обучение, дори и с относително малък брой стъпки, може значително да подобри производителността на модела в различни общи възможности. Те включват следване на инструкции, съответствие с човешките предпочитания и цялостна производителност на агента. Важно е, че това подобрение в общите възможности не е за сметка на производителността в математиката и кодирането, което демонстрира ефективността на многоетапния подход.
Open-Weight и достъпен
В ход, който насърчава сътрудничеството и по-нататъшните изследвания, екипът на Qwen направи QwQ-32B open-weight. Това означава, че параметрите на модела са публично достъпни, което позволява на изследователите и разработчиците да имат достъп, да изучават и да надграждат работата на екипа на Qwen. Моделът е достъпен на Hugging Face и ModelScope под лиценза Apache 2.0, разрешителен лиценз, който насърчава широкото използване и модификация. Освен това QwQ-32B е достъпен чрез Qwen Chat, осигурявайки удобен за потребителя интерфейс за взаимодействие с модела.
Стъпка към AGI
Разработването на QwQ-32B представлява значителна стъпка напред в преследването на Artificial General Intelligence (AGI). Екипът на Qwen разглежда този модел като първоначално проучване на мащабирането на RL за подобряване на възможностите за разсъждение и те планират да продължат да изследват интеграцията на агенти с RL за дългосрочно разсъждение. Това включва разработването на AI системи, които могат да планират и изпълняват сложни задачи за продължителни периоди от време, което е ключова способност за постигане на AGI.
Екипът е уверен, че комбинирането на по-силни базови модели с RL, задвижвани от мащабирани изчислителни ресурси, ще бъде ключов двигател в развитието на AGI. QwQ-32B служи като мощна демонстрация на този потенциал, показвайки забележителните подобрения в производителността, които могат да бъдат постигнати чрез стратегическо внедряване на RL. Продължаващите усилия за изследване и развитие на екипа на Qwen, заедно с open-source естеството на QwQ-32B, обещават да ускорят напредъка в областта на AI и да ни доближат до реализацията на наистина интелигентни машини. Фокусът вече не е единствено върху изграждането на по-големи модели, а върху създаването на по-интелигентни и адаптивни системи чрез иновативни техники за обучение.