Alibaba Yazindua Qwen-32B: Mfumo Hodari

Alibaba Yazindua Qwen-32B: Mfumo Mdogo wenye Nguvu Unaoshindana na Miundo Mikubwa Zaidi

Katika tangazo la kushtukiza usiku wa manane, Alibaba imetoa hadharani (open-source) mfumo wake mpya wa akili bandia, Qwen-32B (QwQ-32B). Mfumo huu, ukiwa na vigezo bilioni 32, unaonyesha utendaji unaolingana na ule wa DeepSeek-R1, mfumo mkubwa zaidi wenye vigezo bilioni 67.1.

Tangazo la timu ya Qwen liliangazia utafiti wao katika kupanua mbinu za mafunzo ya ‘reinforcement learning’ (RL). Walisema, ‘Tumekuwa tukichunguza njia za kupanua RL, na tumepata matokeo ya kuvutia kulingana na Qwen2.5-32B yetu. Tuligundua kuwa mafunzo ya RL yanaweza kuendelea kuboresha utendaji, haswa katika kazi za hisabati na uandishi wa msimbo. Tuliona kuwa kuendelea kupanua RL kunaweza kusaidia mifumo ya ukubwa wa kati kufikia utendaji unaolingana na mifumo mikubwa ya MoE. Tunakaribisha kila mtu kuzungumza na mfumo wetu mpya na kutupa maoni!’

QwQ-32B sasa inapatikana kwenye Hugging Face na ModelScope chini ya leseni ya ‘open-source’ ya Apache 2.0. Watumiaji wanaweza pia kuingiliana na mfumo moja kwa moja kupitia Qwen Chat. Zana maarufu ya usambazaji wa ndani, Ollama, tayari imeunganisha usaidizi, inayoweza kupatikana kupitia amri: ollama run qwq.

Pamoja na toleo hilo, timu ya Qwen ilichapisha chapisho la blogi lenye kichwa ‘QwQ-32B: Harnessing the Power of Reinforcement Learning,’ ikielezea maendeleo ya msingi.

Chapisho la blogi linasisitiza uwezo mkubwa wa ‘reinforcement learning’ (RL) kwa kiwango kikubwa kuzidi mbinu za jadi za mafunzo ya awali na mafunzo ya baadae katika kuboresha utendaji wa mfumo. Utafiti wa hivi karibuni, kama vile ujumuishaji wa DeepSeek-R1 wa data ya ‘cold-start’ na mafunzo ya hatua nyingi, unaonyesha uwezo wa RL kuongeza kwa kiasi kikubwa uwezo wa kufikiri, kuwezesha mawazo ya kina na utatuzi wa shida ngumu.

Uchunguzi wa timu ya Qwen ulilenga kutumia RL kwa kiwango kikubwa ili kuinua akili ya mifumo mikubwa ya lugha, na kufikia kilele cha uundaji wa QwQ-32B. Mfumo huu wa vigezo bilioni 32 unashangaza kushindana na utendaji wa DeepSeek-R1 yenye vigezo bilioni 67.1 (na bilioni 37 zilizowezeshwa). Timu ilisisitiza, ‘Mafanikio haya yanasisitiza ufanisi wa kutumia ‘reinforcement learning’ kwa mifumo thabiti, iliyoandaliwa awali.’

QwQ-32B pia inajumuisha uwezo unaohusiana na ‘agent’, ikiiwezesha kutathmini kwa kina vitendo vyake wakati inatumia zana na kurekebisha mchakato wake wa kufikiri kulingana na maoni ya mazingira. ‘Tunatumai juhudi zetu zinaonyesha kuwa kuchanganya mifumo ya msingi yenye nguvu na ‘reinforcement learning’ kwa kiwango kikubwa inaweza kuwa njia inayofaa kuelekea Akili Bandia ya Jumla (AGI),’ timu ilisema.

Utendaji wa Mfumo: Kulinganisha QwQ-32B

QwQ-32B ilifanyiwa tathmini kali katika vipimo mbalimbali, ikijumuisha hoja za hisabati, uandishi wa msimbo, na uwezo wa jumla. Matokeo yanaonyesha utendaji wa QwQ-32B ikilinganishwa na mifumo mingine inayoongoza, ikiwa ni pamoja na DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, na DeepSeek-R1 ya asili.

Matokeo ni ya kushangaza. QwQ-32B inaonyesha utendaji wa kipekee, hata ikizidi kidogo DeepSeek-R1-67B kwenye vipimo vya LiveBench, IFEval, na BFCL. Hii inaangazia ufanisi na nguvu ya mbinu ya ‘reinforcement learning’ iliyopitishwa na timu ya Qwen.

Kuzama Ndani ya ‘Reinforcement Learning’

Maendeleo ya QwQ-32B yalitumiwa na ‘reinforcement learning’ kwa kiwango kikubwa iliyojengwa juu ya msingi wa ‘cold-start’. Awamu ya awali ililenga haswa mafunzo ya RL kwa kazi za hisabati na uandishi wa msimbo. Tofauti na mbinu za jadi zinazotegemea mifumo ya zawadi, timu ya Qwen ilitoa maoni kwa shida za hisabati kwa kuthibitisha usahihi wa majibu yaliyotolewa. Kwa kazi za uandishi wa msimbo, maoni yalitolewa kutoka kwa seva ya utekelezaji wa msimbo, ikitathmini ikiwa msimbo uliotolewa ulifanikiwa kupitisha kesi za majaribio.

Kadiri mafunzo yalivyoendelea kupitia marudio mengi, QwQ-32B ilionyesha maboresho thabiti ya utendaji katika nyanja zote mbili. Mchakato huu wa uboreshaji wa kurudia, ukiongozwa na maoni ya moja kwa moja juu ya usahihi wa suluhisho, ulithibitika kuwa mzuri sana.

Kufuatia awamu ya awali ya RL iliyolenga hisabati na uandishi wa msimbo, awamu ya baadaye ya RL ilianzishwa ili kuongeza uwezo wa jumla. Hatua hii ilitumia mifumo ya jumla ya zawadi na vidhibiti vinavyotegemea sheria kwa mafunzo. Matokeo yalionyesha kuwa hata idadi ndogo ya hatua katika RL ya jumla inaweza kuongeza uwezo wa jumla bila kuathiri sana utendaji kwenye kazi za hisabati na uandishi wa msimbo zilizofunzwa hapo awali. Hii inaonyesha uwezo wa kubadilika na uimara wa mfumo.

Mielekeo ya Baadaye: Kupanua Upeo wa AI

Timu ya Qwen pia ilishiriki mipango yao ya baadaye, ikisema, ‘Hii ni hatua ya kwanza ya Qwen katika kutumia ‘reinforcement learning’ (RL) kwa kiwango kikubwa ili kuongeza uwezo wa kufikiri. Kupitia safari hii, hatujaona tu uwezo mkubwa wa kupanua RL lakini pia tumetambua uwezekano ambao haujatumiwa ndani ya mifumo ya lugha iliyoandaliwa awali. Tunapofanya kazi kuelekea kuendeleza kizazi kijacho cha Qwen, tunaamini kuwa kuchanganya mifumo ya msingi yenye nguvu zaidi na RL, inayoendeshwa na rasilimali za kompyuta zilizopanuliwa, itatuleta karibu na kufikia Akili Bandia ya Jumla (AGI). Zaidi ya hayo, tunachunguza kikamilifu ujumuishaji wa ‘agents’ na RL ili kuwezesha hoja za muda mrefu, tukilenga kufungua akili kubwa zaidi kupitia muda mrefu wa kufikiri.’ Kujitolea huku kwa uboreshaji endelevu na uchunguzi kunasisitiza kujitolea kwa timu kusukuma mipaka ya AI.

Mapokezi ya Jamii: QwQ-32B Inapata Sifa Kubwa

Toleo la QwQ-32B limepokelewa kwa shauku kubwa na maoni mazuri. Jumuiya ya AI, ikiwa ni pamoja na watumiaji wengi wa Qwen, walitarajia kwa hamu kufunuliwa kwa mfumo huu mpya.

Msisimko wa hivi karibuni kuhusu DeepSeek uliangazia upendeleo wa jamii kwa mfumo kamili kwa sababu ya mapungufu ya toleo lililosafishwa (‘distilled version’). Walakini, mfumo kamili wa vigezo 67.1B uliwasilisha changamoto za usambazaji, haswa kwa vifaa vya pembeni (‘edge devices’) vyenye rasilimali ndogo. Qwen-32B, ikiwa na ukubwa uliopunguzwa sana, inashughulikia suala hili, ikifungua uwezekano wa usambazaji mpana zaidi.

Mtumiaji mmoja alitoa maoni, ‘Labda bado haiwezekani kwenye simu za rununu, lakini Mac zilizo na RAM ya kutosha zinaweza kuiweza.’ Hisia hii inaonyesha matumaini kuhusu uwezekano wa kuendesha QwQ-32B kwenye vifaa vyenye rasilimali ndogo.

Mtumiaji mwingine alimwambia moja kwa moja Binyuan Hui, mwanasayansi katika Maabara ya Tongyi ya Alibaba, akihimiza maendeleo ya mifumo midogo zaidi. Hii inaangazia mahitaji ya mifumo ya AI iliyoshikamana na yenye ufanisi zaidi.

Watumiaji pia wameshiriki uzoefu wao, wakisifu kasi na mwitikio wa mfumo. Mtumiaji mmoja alionyesha onyesho, akionyesha uwezo wa usindikaji wa haraka wa QwQ-32B.

Awni Hannun, mtafiti wa ‘machine learning’ huko Apple, alithibitisha utekelezaji mzuri wa QwQ-32B kwenye M4 Max, akibainisha kasi yake ya kuvutia. Uthibitisho huu kutoka kwa mtafiti maarufu unathibitisha zaidi madai ya utendaji wa mfumo.

Timu ya Qwen pia imetoa toleo la hakikisho la QwQ-32B kwenye kiolesura chao rasmi cha mazungumzo, Qwen Chat, ikiwahimiza watumiaji kujaribu na kutoa maoni. Njia hii shirikishi inakuza ushiriki wa jamii na inaruhusu tathmini ya ulimwengu halisi ya uwezo wa mfumo.

Kupitishwa kwa haraka kwa QwQ-32B na jamii na ujumuishaji wake katika zana maarufu kama Ollama kunaonyesha umuhimu na athari ya mfumo. Mchanganyiko wa utendaji mzuri, saizi ndogo ya mfumo, na matumizi ya ubunifu ya ‘reinforcement learning’ imeweka QwQ-32B kama maendeleo makubwa katika uwanja wa mifumo mikubwa ya lugha. Hali ya ‘open-source’ ya mfumo inahimiza zaidi ushirikiano na uvumbuzi ndani ya jamii ya AI, ikifungua njia kwa mafanikio ya baadaye. Kuzingatia usambazaji wa vitendo na matumizi ya ulimwengu halisi kunaonyesha uwezekano wa QwQ-32B kuwa na athari kubwa zaidi ya mipangilio ya utafiti, ikileta uwezo wa hali ya juu wa AI kwa watumiaji na vifaa anuwai. Juhudi zinazoendelea za utafiti na maendeleo na timu ya Qwen zinaahidi maendeleo ya kusisimua zaidi katika harakati za AGI.