DeepSeek-R1 kwa 32B? El Reg yachunguza QwQ ya Alibaba | sw

Timu ya Qwen ya Alibaba imezindua toleo lao jipya, QwQ, mfumo ambao unalenga kushindana na utendaji wa mifumo mikubwa zaidi huku ukiwa na ukubwa mdogo wa kushangaza.

Kushindana na Wakubwa: Mshindani Mdogo

QwQ, licha ya kuwa na vigezo bilioni 32 tu ikilinganishwa na DeepSeek R1 inayodaiwa kuwa na bilioni 671, imewekwa kama mfumo wa ‘kufikiri’. Alibaba inasisitiza kuwa mfumo huu mdogo unaweza kuipita R1 katika vipimo maalum, haswa katika maeneo kama hisabati, uandishi wa msimbo, na utumiaji wa vitendaji (function-calling). Dai hili la kutamani linahitaji uchunguzi wa karibu wa utendaji wa ndani na utendaji halisi wa QwQ.

Mafunzo ya Uimarishaji: Ufunguo wa Uwezo wa QwQ

Sawa na DeepSeek R1, timu ya Qwen ilitumia mafunzo ya uimarishaji (RL) ili kuboresha uwezo wa QwQ wa kufikiri kwa mfululizo wa mawazo (chain-of-thought reasoning). Njia hii huongeza uwezo wa mfumo kuchambua na kuvunja matatizo magumu hatua kwa hatua. Njia ya jadi katika RL inahusisha kuupa mfumo zawadi kwa majibu sahihi, na hivyo kuimarisha majibu sahihi.

Hata hivyo, timu ya Qwen ilichukua mbinu ya kina zaidi na QwQ. Waliunganisha kihakiki cha usahihi na seva ya utekelezaji wa msimbo. Nyongeza hii muhimu inahakikisha kuwa zawadi zinatolewa tu kwa suluhisho sahihi za kihisabati na msimbo unaofanya kazi. Kwa kutekeleza mchakato huu mkali wa uthibitishaji, timu inalenga kukuza mfumo ambao unaonyesha kiwango cha juu cha usahihi na uaminifu.

Madai ya Utendaji: Ukaguzi wa Ukweli

Juhudi za timu ya Qwen, wanadai, zimezalisha mfumo ambao unafanya kazi kwa kiwango cha juu zaidi kuliko ukubwa wake. Wanadai kuwa QwQ inafikia viwango vya utendaji sawa na, na katika baadhi ya matukio hata kuzidi, mifumo mikubwa zaidi.

Hata hivyo, ulimwengu wa vipimo vya akili bandia unaweza kuwa mgumu. Ni muhimu kwenda zaidi ya takwimu zilizoripotiwa na kuchunguza jinsi madai haya yanavyotafsiriwa katika hali halisi, za vitendo.

Majaribio ya Moja kwa Moja: Kuipima QwQ

Ili kutathmini uwezo wa QwQ, mfululizo wa maswali ya majaribio yaliundwa, yakihusu nyanja mbalimbali. Haya yalijumuisha maarifa ya jumla, kufikiri kwa anga (spatial reasoning), utatuzi wa matatizo, hisabati, na changamoto nyingine zinazojulikana kuwa ngumu hata kwa mifumo ya lugha kubwa (LLMs) ya hali ya juu zaidi.

Kwa sababu ya mahitaji makubwa ya kumbukumbu ya mfumo kamili, majaribio yalifanywa katika usanidi mbili. Kwanza, mfumo kamili ulitathminiwa kwa kutumia onyesho la QwQ kwenye Hugging Face. Hii iliruhusu tathmini ya uwezo wake kamili. Pili, toleo lililopunguzwa kwa biti 4 lilijaribiwa kwenye GPU ya 24GB (hasa, Nvidia 3090 au AMD Radeon RX 7900XTX). Usanidi huu ulilenga kupima athari za upunguzaji (quantization) kwenye usahihi wa mfumo, na kuufanya uweze kupatikana zaidi kwa watumiaji walio na vifaa visivyo na nguvu.

Maarifa ya Jumla: Kujisimamia

Katika kujibu maswali mengi ya maarifa ya jumla, QwQ ilionyesha utendaji unaolingana na R1 ya DeepSeek yenye vigezo bilioni 671 na mifumo mingine ya kufikiri kama o3-mini ya OpenAI. Mfumo kwa kawaida ulichukua sekunde chache kuunda mawazo yake kabla ya kutoa jibu kwa swali. Tabia hii ni ya kawaida kwa mifumo ya kufikiri, ambayo inatanguliza kufikiri kwa makini kuliko majibu ya haraka.

Kufanya Vizuri Katika Ugumu: Mantiki, Uandishi wa Msimbo, na Hisabati

Ambapo QwQ inaanza kujitofautisha ni katika kukabiliana na changamoto ngumu zaidi zinazohusisha mantiki, uandishi wa msimbo, au hisabati. Hebu tuchunguze maeneo haya, tukionyesha uwezo wake na kushughulikia baadhi ya maeneo ambayo inapungukiwa.

Kufikiri kwa Anga: Kupitia Lango

Jaribio jipya la kufikiri kwa anga, lililotengenezwa na Homebrew Research kama sehemu ya mradi wao wa AlphaMaze, lilitumika kutathmini QwQ.

Toleo la QwQ lililohifadhiwa ndani na mfumo kamili kwa uthabiti ulitatua mafumbo haya kwa mafanikio. Hata hivyo, kila jaribio lilihitaji dakika chache kukamilika. Hii inaonyesha kuwa ingawa QwQ inaweza kushughulikia kufikiri kwa anga kwa ufanisi, si lazima iwe ya haraka zaidi.

Kinyume chake, R1 ya DeepSeek na toleo lake lililopunguzwa la 32B zilionyesha tabia tofauti. Mifumo yote miwili ilitatua lango la kwanza kwa mafanikio. Hata hivyo, R1 ilipata shida na la pili, wakati toleo lililopunguzwa la 32B lilipata kiwango cha mafanikio cha 90% kwenye lango la pili. Tofauti hii haishangazi kabisa, ikizingatiwa kuwa R1 na toleo lililopunguzwa hutumia mifumo tofauti ya msingi.

Ingawa QwQ ilionyesha utendaji bora ikilinganishwa na DeepSeek katika jaribio hili maalum, tabia isiyo ya kawaida ilionekana na mfumo wa biti 4. Hapo awali, ilihitaji karibu mara mbili ya tokeni za ‘mawazo’ kukamilisha jaribio. Hii ilipendekeza awali hasara zinazowezekana kutokana na upunguzaji. Hata hivyo, uchunguzi zaidi ulifichua kuwa mfumo uliopunguzwa, katika hali yake ya awali, ulikuwa ukionyesha utendaji duni. Kurekebisha vigezo vya juu (hyperparameters) na kuendesha tena majaribio kulitatua suala hili, kuonyesha umuhimu wa usanidi sahihi.

Uandishi wa Msimbo wa Mara Moja: Uwezo Unaowezekana

QwQ imevutia umakini mkubwa kwa uwezo wake katika uundaji wa msimbo wa ‘mara moja’ - uwezo wa kutoa msimbo unaoweza kutumika katika jaribio la kwanza. Eneo hili hasa linaonekana kuwa nguvu kubwa kwa mfumo.

Mfumo ulipewa jukumu la kuunda upya michezo kadhaa rahisi katika Python kwa kutumia maktaba ya pygame. Michezo iliyochaguliwa ilikuwa Pong, Breakout, Asteroids, na Flappy Bird.

QwQ ilishughulikia Pong na Breakout kwa urahisi. Baada ya dakika chache za usindikaji, mfumo ulizalisha matoleo yanayofanya kazi ya michezo yote miwili.

Hata hivyo, ilipopewa jukumu la kuunda upya Asteroids, QwQ ilikumbana na matatizo. Ingawa msimbo uliotolewa uliendeshwa, michoro na mbinu za mchezo mara nyingi zilipotoshwa na kuwa na hitilafu. Kinyume chake, R1, katika jaribio lake la kwanza, iliunda upya mchezo wa kawaida wa ukumbini kwa uaminifu.

Ni muhimu kuzingatia data ya mafunzo ya mifumo hii. Zimefunzwa kwa kiasi kikubwa cha msimbo wa chanzo wazi unaopatikana, ikiwezekana ikiwa ni pamoja na uundaji upya wa michezo ya kawaida. Hii inazua swali la kama mifumo inakumbuka tu habari iliyojifunza badala ya kupata mbinu za mchezo kwa kujitegemea. Hii inasisitiza asili ya msingi ya mitandao hii mikubwa ya neva, ambapo akili inayoonekana mara nyingi hutokana na utambuzi wa kina wa ruwaza.

Hata kwa mapungufu haya, utendaji wa QwQ katika kuunda upya michezo ya kawaida ya ukumbini ni wa kuvutia, haswa ukizingatia idadi yake ya vigezo. Inaweza isilingane na R1 katika kila jaribio, lakini inaonyesha kiwango cha ajabu cha uwezo. Maneno ‘hakuna mbadala wa uhamishaji,’ ambayo mara nyingi hutumiwa katika ulimwengu wa magari, yanaweza kuwa muhimu hapa. Hii inaweza kueleza kwa nini Alibaba inatengeneza toleo la ‘Max’ la QwQ, ingawa haiwezekani kuendeshwa kwenye vifaa vya watumiaji hivi karibuni.

Ikilinganishwa na R1 Qwen 2.5 32B distill ya DeepSeek yenye ukubwa sawa, uamuzi wa Alibaba wa kuunganisha seva ya utekelezaji wa msimbo kwenye mfumo wake wa mafunzo ya uimarishaji unaweza kuwa umeipa faida katika changamoto zinazohusiana na programu.

Hisabati: Uwezo wenye Tahadhari

Kihistoria, LLMs zimekuwa na shida na hisabati, matokeo ya mafunzo yao yanayolenga lugha. Ingawa mifumo mipya imeonyesha maboresho, QwQ bado inakabiliwa na changamoto, ingawa si lazima kwa sababu ambazo mtu anaweza kutarajia.

QwQ ilitatua matatizo yote ya hisabati ambayo hapo awali yaliulizwa kwa R1. Hii inaonyesha kuwa QwQ inaweza kushughulikia hesabu za msingi na hata algebra fulani. Hata hivyo, suala liko katika ufanisi wake. Kutumia LLM kwa hesabu za hisabati inaonekana kuwa kinyume wakati vikokotozi na hesabu za moja kwa moja zinabaki kupatikana na kwa kasi zaidi.
Kwa mfano, kutatua mlinganyo rahisi kama 7*43 ilihitaji QwQ kutoa zaidi ya tokeni 1,000, ikichukua takriban sekunde 23 kwenye RTX 3090 Ti. Hili ni jukumu ambalo linaweza kukamilishwa kwenye kikokotozi cha mfukoni kwa muda mfupi sana.

Ufanisi mdogo unakuwa dhahiri zaidi na hesabu kubwa. Kutatua 3394*35979, tatizo la kuzidisha ambalo liko nje ya uwezo wa mifumo mingi isiyo ya kufikiri, ilichukua toleo la ndani la QwQ dakika tatu na zaidi ya tokeni 5,000 kukokotoa.

Kabla ya urekebishaji wa hyperparameter, mlinganyo huo ulihitaji dakika tisa za kushangaza na karibu tokeni 12,000.

Jambo muhimu hapa ni kwamba ingawa mfumo unaweza kuwa na uwezo wa kulazimisha njia yake kwa jibu sahihi, haimaanishi kuwa ndiyo zana bora kwa kazi hiyo. Njia ya vitendo zaidi itakuwa kutoa QwQ ufikiaji wa kikokotozi cha Python. Hii inatumia uwezo wa mfumo huku ikipakia kazi kubwa za hesabu kwa zana inayofaa zaidi.

Ilipopewa jukumu la kutatua mlinganyo huo wa 3394*35979 kwa kutumia zana, muda wa majibu wa QwQ ulipungua hadi sekunde nane, kwani kikokotozi kilishughulikia kazi nzito.

Kuenea kwa ‘Subiri’: Mtazamo wa Mchakato wa Mawazo

Kuchunguza ‘mawazo’ ya QwQ kunaonyesha kutokea mara kwa mara kwa neno ‘subiri,’ haswa wakati wa kazi ngumu au matatizo ya maneno. Hii inaonyesha mchakato wa ndani wa mfumo wa kuangalia kazi yake dhidi ya matokeo mbadala.

Ingawa tabia hii ni ya kawaida katika mifumo ya kufikiri, inaweza kuwa ya kufadhaisha haswa wakati QwQ inatoa jibu lisilo sahihi, hata baada ya kuonyesha ufahamu wa jibu sahihi wakati wa mchakato wake wa ‘mawazo’.

Suala hili lilikumbana mara kwa mara wakati wa majaribio. Moja ya mifano ya kuelezea zaidi ilikuwa urekebishaji wa AutoGen AI wa tatizo la kawaida la mbwa mwitu, mbuzi, na kabichi. Fumbo hili linatoa changamoto ya uboreshaji wa usafirishaji kwa mabadiliko:

Suluhisho limejumuishwa ndani ya swali: na vyumba vitatu salama, mkulima anaweza kusafirisha vitu vyote kwa safari moja. Hata hivyo, kwa sababu ya kufanana kwa fumbo na toleo la kawaida, mifumo mara nyingi hupuuza vyumba.

Katika majaribio, QwQ ilishindwa mara kwa mara kutatua fumbo hili kwa usahihi. Kuchunguza mchakato wake wa mawazo kulifichua kuwa haikupuuza vyumba vitatu. Kwa kweli, ilivikubali lakini ikavifuta kuwa rahisi sana:

‘Subiri, ikiwa mkulima anaweza kuchukua vyote vitatu kwa safari moja, basi anaweza kufanya hivyo tu na kumaliza. Lakini hiyo ingefanya tatizo kuwa dogo, jambo ambalo haliwezekani. Kwa hivyo labda vyumba vimetenganishwa lakini mashua inaweza kubeba vitu viwili tu pamoja na mkulima?’

Bila kujali kama jaribio liliendeshwa kwenye mfumo kamili kwenye wingu au ndani, QwQ ilijitahidi kutatua hili kwa uthabiti. Hii inaonyesha upungufu unaowezekana katika uwezo wake wa kufikiri, ambapo inaweza kufikiria kupita kiasi au kutafsiri vibaya vikwazo vya tatizo.

Usikivu wa Hyperparameter: Usawa Mpole

Ikilinganishwa na mifumo mingine, QwQ ilionyesha usikivu ulioongezeka kwa usanidi wake. Hapo awali, Alibaba ilipendekeza vigezo maalum vya sampuli:

Joto: 0.6
TopP: 0.95
TopK: kati ya 20 na 40

Baadaye, mapendekezo haya yalisasishwa ili kujumuisha:

MinP: 0
Adhabu ya Uwepo: kati ya 0 na 2

Kwa sababu ya hitilafu inayoonekana katika ushughulikiaji wa Llama.cpp wa vigezo vya sampuli (Llama.cpp inatumika kwa kuendesha utambuzi kwenye mifumo), pia ilikuwa muhimu kuzima adhabu ya kurudia kwa kuiweka kuwa 1.

Kama ilivyotajwa hapo awali, kushughulikia masuala haya ya usanidi kulisababisha uboreshaji mkubwa, zaidi ya kupunguza nusu idadi ya tokeni za ‘kufikiri’ zinazohitajika kufikia jibu. Hata hivyo, hitilafu hii inaonekana kuwa maalum kwa matoleo ya GGUF yaliyopunguzwa ya mfumo wakati wa kuendesha kwenye injini ya utambuzi ya Llama.cpp, ambayo inatumiwa na programu maarufu kama Ollama na LM Studio.

Kwa watumiaji wanaopanga kutumia Llama.cpp, kushauriana na mwongozo wa Unsloth wa kusahihisha mpangilio wa sampuli kunapendekezwa sana.

Kuanza na QwQ: Mwongozo wa Vitendo

Kwa wale wanaopenda kujaribu QwQ, kuiweka katika Ollama ni rahisi. Hata hivyo, ni muhimu kutambua kuwa inahitaji GPU yenye kiasi kikubwa cha vRAM. Mfumo uliendeshwa kwa mafanikio kwenye 3090 Ti ya 24GB na dirisha la muktadha kubwa vya kutosha kwa matumizi ya vitendo.

Ingawa inawezekana kitaalam kuendesha mfumo kwenye CPU na kumbukumbu ya mfumo, hii inaweza kusababisha nyakati za majibu polepole sana isipokuwa utumie kituo cha kazi cha hali ya juu au seva.

Mahitaji ya Awali:

Mashine yenye uwezo wa kuendesha LLMs za ukubwa wa kati kwa upunguzaji wa biti 4. GPU inayooana na angalau 24GB ya vRAM inapendekezwa. Orodha ya kadi zinazotumika inaweza kupatikana hapa.
Kwa Apple Silicon Macs, kiwango cha chini cha 32GB ya kumbukumbu kinapendekezwa.

Mwongozo huu unachukulia ufahamu wa kimsingi wa kiolesura cha mstari wa amri cha ulimwengu wa Linux na Ollama.

Kufunga Ollama

Ollama ni kiendesha mfumo maarufu ambacho hurahisisha mchakato wa kupakua na kuhudumia LLMs kwenye vifaa vya watumiaji. Kwa watumiaji wa Windows au macOS, ipakue na uisakinishe kama programu nyingine yoyote kutoka ollama.com.

Kwa watumiaji wa Linux, Ollama hutoa mstari mmoja rahisi wa usakinishaji:

iliyosasishwa mnamo 2025-03-18

# AIGC # Qwen # Alibaba