Ufunuo wa QwQ-32B ya Alibaba

Nguvu ya Mafunzo ya Uimarishaji (Reinforcement Learning)

Mbinu za jadi za ukuzaji wa miundo ya AI zimetegemea sana mafunzo ya awali na mbinu za baada ya mafunzo. Hata hivyo, timu ya Qwen imepita zaidi ya mbinu hizi za kawaida kwa kuunganisha uwezo wa wakala moja kwa moja kwenye modeli ya kufikiri. Ujumuishaji huu unaiwezesha QwQ-32B kushiriki katika kufikiri kwa kina, kutumia zana za nje, na kurekebisha mchakato wake wa kufikiri kulingana na maoni kutoka kwa mazingira yake. Hii inawakilisha hatua kubwa mbele katika kuunda mifumo ya AI inayoweza kubadilika na yenye akili zaidi.

Timu ya Qwen inasisitiza kuwa kuongeza ukubwa wa RL kuna uwezo wa kufungua maboresho ya utendaji ambayo yanazidi uwezo wa mbinu za jadi. Utafiti wa hivi karibuni tayari umeonyesha uwezo wa RL kuongeza kwa kiasi kikubwa uwezo wa kufikiri wa miundo ya AI, na QwQ-32B inatumika kama mfano wa kulazimisha wa uwezo huu katika vitendo.

Kuziba Pengo Kati ya Ukubwa na Utendaji

Moja ya vipengele vya kushangaza zaidi vya QwQ-32B ni utendaji wake kulingana na ukubwa wake. DeepSeek-R1, modeli ambayo QwQ-32B inashindana nayo, inajivunia vigezo bilioni 671 (na bilioni 37 zikiwa zimeamilishwa). QwQ-32B, ikiwa na vigezo bilioni 32 kwa kulinganisha, inafikia utendaji unaolingana, ikionyesha faida kubwa za ufanisi zilizopatikana kupitia utekelezaji wa kimkakati wa RL. Mafanikio haya yanapinga dhana ya muda mrefu kwamba ukubwa wa modeli ndio kigezo kikuu cha utendaji, ikipendekeza kwamba mbinu za kisasa za mafunzo zinaweza kuziba pengo kati ya ukubwa na uwezo.

Upimaji wa Ubora

Ili kutathmini kwa ukali uwezo wa QwQ-32B, timu ya Qwen iliiweka modeli hiyo kwenye seti kamili ya vipimo. Vipimo hivi, ikiwa ni pamoja na AIME24, LiveCodeBench, LiveBench, IFEval, na BFCL, vimeundwa mahususi kutathmini vipengele mbalimbali vya utendaji wa AI, ikiwa ni pamoja na hoja za hisabati, ustadi wa kuweka misimbo, na uwezo wa jumla wa kutatua matatizo. Matokeo ya tathmini hizi yanaonyesha picha ya kulazimisha ya uwezo wa QwQ-32B.

Hapa kuna mtazamo wa karibu wa utendaji wa QwQ-32B kwenye kila kipimo:

  • AIME24: Kipimo hiki kinazingatia hoja za hisabati. QwQ-32B ilipata alama 79.5, ikifuatia kidogo alama ya DeepSeek-R1-671B ya 79.8. Hasa, miundo yote miwili ilizidi kwa kiasi kikubwa OpenAl-o1-mini, ambayo ilipata alama 63.6, pamoja na miundo iliyosafishwa.

  • LiveCodeBench: Kipimo hiki kinatathmini ustadi wa kuweka misimbo. QwQ-32B ilipata alama 63.4, ikikaribia sana alama ya DeepSeek-R1-671B ya 65.9. Tena, miundo yote miwili ilizidi utendaji wa miundo iliyosafishwa na OpenAl-o1-mini (53.8).

  • LiveBench: Iliyoundwa kutathmini uwezo wa jumla wa kutatua matatizo, LiveBench iliona QwQ-32B ikipata alama 73.1, ikizidi alama ya DeepSeek-R1-671B ya 71.6. Matokeo haya yanaimarisha zaidi nafasi ya QwQ-32B kama mshindani mkubwa katika kazi za jumla za AI.

  • IFEval: Kipimo hiki kinazingatia kufuata maagizo na upatanishi na mapendeleo ya binadamu. QwQ-32B ilipata alama ya kuvutia ya 83.9, karibu sawa na alama ya DeepSeek-R1-671B ya 83.3. Miundo yote miwili ilizidi kwa kiasi kikubwa OpenAl-o1-mini (59.1) na miundo iliyosafishwa.

  • BFCL: Kipimo hiki kinajaribu uwezo wa modeli wa kushughulikia hali ngumu, za ulimwengu halisi. QwQ-32B ilipata alama 66.4, ikizidi alama ya DeepSeek-R1-671B ya 62.8. Matokeo haya yanaonyesha uwezo wa QwQ-32B kwa matumizi ya vitendo zaidi ya vipimo vya kitaaluma tu.

Matokeo haya yanaonyesha mara kwa mara uwezo wa QwQ-32B kushindana na, na katika baadhi ya matukio kuzidi, miundo mikubwa zaidi. Hii inaangazia ufanisi wa mbinu ya timu ya Qwen na uwezo wa mabadiliko wa RL katika ukuzaji wa AI.

Mbinu ya Ubunifu ya Timu ya Qwen

Mafanikio ya QwQ-32B yanaweza kuhusishwa na mbinu ya ubunifu ya timu ya Qwen ya mchakato wa RL wa hatua nyingi. Mchakato huu unaanza na ‘cold-start’ checkpoint, ikimaanisha kuwa modeli inaanza na msingi uliopatiwa mafunzo ya awali lakini kisha inaboreshwa kwa kiasi kikubwa kupitia RL. Mchakato wa mafunzo unaendeshwa na tuzo zinazotegemea matokeo, ikihamasisha modeli kuboresha utendaji wake kwenye kazi maalum.

Hatua ya awali ya mafunzo inazingatia kuongeza ukubwa wa RL kwa kazi za hisabati na kuweka misimbo. Hii inahusisha kutumia vidhibiti vya usahihi na seva za utekelezaji wa misimbo ili kutoa maoni na kuongoza ujifunzaji wa modeli. Modeli inajifunza kutoa suluhu sahihi za hisabati na kuandika misimbo inayofanya kazi kwa kupokea tuzo kwa matokeo yaliyofanikiwa.

Hatua ya pili inapanua wigo wa mafunzo ya RL ili kujumuisha uwezo wa jumla. Hatua hii inajumuisha tuzo kutoka kwa miundo ya jumla ya zawadi na vidhibiti vinavyotegemea sheria, ikipanua uelewa wa modeli wa kazi na maagizo mbalimbali. Hatua hii ni muhimu kwa kuunda modeli ya AI iliyo na uwezo mzuri ambayo inaweza kushughulikia changamoto mbalimbali.

Timu ya Qwen iligundua kuwa hatua hii ya pili ya mafunzo ya RL, hata kwa idadi ndogo ya hatua, inaweza kuongeza kwa kiasi kikubwa utendaji wa modeli katika uwezo mbalimbali wa jumla. Hizi ni pamoja na kufuata maagizo, upatanishi na mapendeleo ya binadamu, na utendaji wa jumla wa wakala. Muhimu, uboreshaji huu katika uwezo wa jumla hauji kwa gharama ya utendaji katika hisabati na kuweka misimbo, ikionyesha ufanisi wa mbinu ya hatua nyingi.

Open-Weight na Inayofikika

Katika hatua ambayo inakuza ushirikiano na utafiti zaidi, timu ya Qwen imefanya QwQ-32B kuwa open-weight. Hii inamaanisha kuwa vigezo vya modeli vinapatikana hadharani, ikiruhusu watafiti na watengenezaji kufikia, kusoma, na kujenga juu ya kazi ya timu ya Qwen. Modeli inapatikana kwenye Hugging Face na ModelScope chini ya leseni ya Apache 2.0, leseni inayoruhusu matumizi na urekebishaji ulioenea. Zaidi ya hayo, QwQ-32B inapatikana kupitia Qwen Chat, ikitoa kiolesura kinachofaa mtumiaji kwa kuingiliana na modeli.

Hatua Kuelekea AGI

Ukuzaji wa QwQ-32B unawakilisha hatua kubwa mbele katika harakati za kufikia Artificial General Intelligence (AGI). Timu ya Qwen inachukulia modeli hii kama uchunguzi wa awali wa kuongeza ukubwa wa RL ili kuongeza uwezo wa kufikiri, na wanapanga kuendelea kuchunguza ujumuishaji wa mawakala na RL kwa hoja za muda mrefu. Hii inahusisha kuunda mifumo ya AI ambayo inaweza kupanga na kutekeleza kazi ngumu kwa muda mrefu, uwezo muhimu wa kufikia AGI.

Timu ina imani kuwa kuchanganya miundo thabiti ya msingi na RL, inayoendeshwa na rasilimali za kompyuta zilizoongezwa, itakuwa kichocheo kikuu katika ukuzaji wa AGI. QwQ-32B inatumika kama onyesho lenye nguvu la uwezo huu, ikionyesha faida kubwa za utendaji ambazo zinaweza kupatikana kupitia utekelezaji wa kimkakati wa RL. Juhudi zinazoendelea za utafiti na maendeleo za timu ya Qwen, pamoja na asili ya open-source ya QwQ-32B, zinaahidi kuharakisha maendeleo katika uwanja wa AI na kutuleta karibu na utambuzi wa mashine zenye akili kweli. Lengo si tu kujenga miundo mikubwa zaidi, bali kuunda mifumo yenye akili zaidi na inayoweza kubadilika kupitia mbinu za ubunifu za mafunzo.