Je, ujifunzaji wa kuimarisha (reinforcement learning), ukiungwa mkono na uthibitishaji wa ziada, unaweza kuinua uwezo wa miundo mikubwa ya lugha (LLMs) kwa kiasi gani? Timu ya Qwen ya Alibaba iko kwenye harakati ya kutafuta jibu na ubunifu wao wa hivi karibuni, QwQ.
QwQ, muundo wa ‘kufikiri’, unajivunia vigezo bilioni 32, idadi ndogo kiasi. Hata hivyo, Alibaba wanadai kuwa inazidi DeepSeek R1, yenye vigezo bilioni 671, katika vipimo maalum vinavyohusiana na hisabati, uandishi wa msimbo, na utumiaji wa vitendaji (function-calling).
Timu ya Qwen, sawa na mbinu iliyotumika na R1, ilitumia ujifunzaji wa kuimarisha ili kuboresha uwezo wa QwQ wa kufikiri kwa mnyororo wa mawazo (chain-of-thought reasoning). Njia hii huongeza uchambuzi wa matatizo na uwezo wa kuyavunja vipande vipande. Ujifunzaji wa kuimarisha kwa kawaida huimarisha hoja za hatua kwa hatua kwa kutuza miundo kwa majibu sahihi, na hivyo kukuza majibu sahihi zaidi. Hata hivyo, QwQ inachukua hatua zaidi kwa kujumuisha kihakiki cha usahihi (accuracy verifier) na seva ya utekelezaji wa msimbo (code execution server). Hii inahakikisha kwamba zawadi zinatolewa tu kwa suluhisho sahihi za hisabati na msimbo unaofanya kazi.
Timu ya Qwen inasisitiza kwamba mbinu hii inasababisha muundo ambao unazidi ukubwa wake, kufikia utendaji unaolingana na, na wakati mwingine hata kuzidi, miundo mikubwa zaidi.
Hata hivyo, vipimo vya akili bandia (AI benchmarks) vinaweza kudanganya. Kwa hivyo, hebu tuchunguze jinsi madai haya yanavyotafsiriwa katika hali halisi na kisha tutakuongoza jinsi ya kupata QwQ na kuiendesha kwa kujitegemea.
Tathmini ya Utendaji
Tuliweka QwQ kwenye mfululizo wa majaribio ya haraka, yanayojumuisha maarifa ya jumla, hoja za anga (spatial reasoning), utatuzi wa matatizo, hisabati, na maswali mengine yanayojulikana kutoa changamoto hata kwa LLMs zilizoendelea zaidi.
Kwa sababu ya mahitaji makubwa ya kumbukumbu ya muundo kamili, tulifanya majaribio yetu katika usanidi mbili ili kukidhi watumiaji wenye uwezo tofauti wa RAM. Hapo awali, tulitathmini muundo kamili kwa kutumia onyesho la QwQ kwenye Hugging Face. Baadaye, tulijaribu toleo lililopunguzwa la 4-bit kwenye GPU ya 24 GB (Nvidia 3090 au AMD Radeon RX 7900XTX) ili kupima athari za upunguzaji (quantization) kwenye usahihi.
Kwa maswali mengi ya maarifa ya jumla, QwQ ilionyesha utendaji sawa na R1 ya DeepSeek yenye vigezo bilioni 671 na miundo mingine ya kufikiri kama o3-mini ya OpenAI, ikisimama kwa muda mfupi kuunda mawazo yake kabla ya kutoa jibu.
Nguvu za muundo huu, labda haishangazi, zinadhihirika wakati wa kukabiliana na changamoto ngumu zaidi za mantiki, uandishi wa msimbo, au hisabati. Hebu tuchunguze maeneo haya kabla ya kushughulikia baadhi ya mapungufu yake.
Uwezo wa Hoja za Anga
Tulianza na jaribio jipya la hoja za anga lililobuniwa na Homebrew Research kama sehemu ya mradi wao wa AlphaMaze.
Jaribio linawasilisha muundo na mzingile (maze) katika muundo wa maandishi, kama inavyoonyeshwa hapa chini. Kazi ya muundo ni kusafiri kutoka asili ‘O’ hadi lengo ‘T.’