Wakati DeepSeek-R2 bado haijulikani, miundo midogo ya Microsoft inafanya vizuri, ikionyesha uwezo wa hoja wa kuvutia uliofunzwa kwenye hifadhidata ndogo ya kushangaza.
Ukuaji wa Mifumo ya Hoja ya Phi-4
Ulimwengu wa AI kwa sasa unavutiwa na miundo ya hoja, na Microsoft hivi karibuni imeanzisha familia ya Phi-4 ya miundo ya upeo. Hii ni pamoja na Phi-4-reasoning, Phi-4-reasoning-plus, na Phi-4-mini-reasoning. Kinachozingatiwa haswa ni kwamba hata mifumo mikubwa zaidi kati ya hii, inayojivunia vigezo bilioni 14 tu, inaweza kufanya kazi vizuri kwenye kompyuta ndogo za utendaji wa hali ya juu. Zaidi ya hayo, kigezo cha bilioni 3.8 Phi-4-mini-reasoning kinazidi kigezo cha bilioni 8 cha mfumo wa DeepSeek-R1 katika hoja ya hisabati, kuonyesha nguvu ya miundo midogo katika kazi za hitimisho.
Badala ya kusubiri kutolewa kwa mfumo wa kizazi cha pili cha DeepSeek-R2 mnamo Aprili, Microsoft ilifunua safu mpya ya miundo ya hoja ya Phi-4. Mifumo hii inaonyesha utendaji wa kipekee katika hoja ya hisabati, ikizidi mfumo wa DeepSeek-R1 uliofunzwa, licha ya Phi-4-Mini-Reasoning kuwa na kiwango kidogo cha kigezo.
Ahmed Awadallah, Msimamizi wa Utafiti Mshirika katika maabara ya Microsoft AI Frontiers, alielezea Phi-4-reasoning na akafupisha vipengele vya mfumo mpya.
- Mfumo huo umefunzwa na Urekebishaji mzuri unaosimamiwa (kwa kutumia hifadhidata ya mfano ya hoja iliyochaguliwa kwa uangalifu) na Ujifunzaji wa Uimarishaji.
- Hufanya vizuri katika vigezo vya inference na inaweza kulinganishwa na mifumo mikubwa ya juu kama vile DeepSeek R1.
- Inaendelea kufanya kazi kwa nguvu kwenye majaribio mapya (kama vile AIME 2025, HMMT)
- Uwezo wa hoja una uhamishaji/uwezo wa jumla wenye nguvu, hata baada ya urekebishaji mzuri unaosimamiwa tu, inaweza kuzoea kazi mpya (kama vile k-SAT, utatuzi wa milinganyo ya hisabati, upangaji, n.k.)
- Inahifadhi na inaboresha sana uwezo wa jumla (kama vile uelewa na utekelezaji wa maagizo)
Alisema kuwa Phi-4 bado ina vipengele kadhaa ambavyo vinahitaji kuboreshwa, haswa katika urefu wa muktadha, uwezo wa usimbaji, na ujumuishaji wa zana.
Mbali na mfumo wenyewe, Microsoft pia ilishiriki ripoti ya kina ya kiufundi ambayo inatoa uchambuzi wa kina wa mafunzo na mchakato wa tathmini ya mfumo.
Kwenye X, Dimitris Papailiopoulos, Mtafiti Mkuu katika maabara ya Microsoft Research AI Frontiers na Profesa Mshiriki katika Chuo Kikuu cha Wisconsin, alianzisha habari zaidi kuhusu mfumo wa hoja wa Phi-4.
Anaamini kuwa Phi-4-reasoning imefikia kabisa kiwango cha wahitimu na inaweza kuendeshwa kwenye PC ya ndani.
Hii ilizidi matarajio yake kwa maendeleo ya AI.
Mfumo mpya una vigezo vichache lakini utendaji thabiti.
Nguvu ya Utendaji
Licha ya ukubwa wake mdogo, mfumo huu ni bora katika vigezo vya hisabati kama vile AIME, HMMT, na OmniMath. Hufanya sambamba au kuzidi mifumo mikubwa ya uzani wazi kama vile QwQ-32B, R1-70B, na R1, na mifumo iliyofungwa kama vile o1-mini na sonnet 3.7.
Mfumo huu ni mdogo kwa ukubwa na unafaa kwa kufanya kazi vizuri kwenye kompyuta ndogo za utendaji wa hali ya juu.
Wakati huo huo, ina uwezo wa kutatua mafumbo mengi ambayo hata mifumo mikubwa isiyo ya hoja na mifumo mingine ya hoja haiwezi kutatua.
Pia ilipitisha jaribio la DimitrisEval!
Inashangaza, hoja inaonekana kuwa ‘ustadi mkuu’ unaohamishika kweli ambao unaweza kujifunzwa hata kupitia SFT nzuri inayosimamiwa!
Ushahidi 1: Hata bila mafunzo maalum juu ya kazi zisizo za hoja, watafiti bado waliona maboresho makubwa ya utendaji kwenye IFEval, FlenQA, na PhiBench ya ndani (ongezeko la zaidi ya pointi 10!).
Kwa kuongezea, kuna data kidogo sana inayohusiana na usimbaji wakati wa hatua ya SFT (na hakuna kabisa wakati wa hatua ya RL), lakini mfumo bado unafanya vizuri katika suala hili.
Kwa kuongezea, Dimitris Papailiopoulos alifunua kuwa programu ni lengo kuu kwa matoleo yanayofuata.
Ushahidi 2: Katika kesi ya shida zingine maalum ambazo hazikufunzwa wazi (ama SFT au hatua ya RL), kama vile shida ya mfanyabiashara anayesafiri, utatuzi wa maze, k-SAT, upangaji uliolazimishwa, n.k., mfumo hufanya vizuri sana katika kazi hizi!
Na Phi-4 (na hata GPT-4) haiwezi kufanya hivi.
Hii inaonyesha kikamilifu kuwa uwezo wa hoja unaweza kuhamishwa kama ustadi!
Baada ya mzunguko mfupi sana wa ujifunzaji wa uimarishaji (kwa kutumia sampuli 6,000 tu, ikilinganishwa na mifano milioni 1.4 kwa SFT), utaratibu wa hoja wa mfumo unaonekana kuwa ‘umefungwa’.
Hii ilimfanya Dimitris Papailiopoulos ashtuke haswa.
Anahisi kana kwamba ujifunzaji wa uimarishaji umeifundisha mfumo kuhoji katika ‘lugha yake mwenyewe’, kuongeza usahihi kwa takriban 10% kwenye AIME na HMMT, na kuongeza urefu wa wastani wa jibu kwa 50% katika shida ngumu.
Ujifunzaji wa uimarishaji unafaa sana!!
Jambo la utaratibu wa hoja ‘kufungwa’ kawaida hufanya usambazaji wa pato la mfumo uweze kulenga zaidi na usahihi pia ni wa juu.
Ukweli kwamba ujifunzaji wa uimarishaji unaweza kuboresha sana uwezo wa mfumo pia umeonyeshwa katika utafiti wa hapo awali na Microsoft.
Katika hatua ya ujifunzaji wa uimarishaji, mfumo mpya haukuboreshwa hata kwa data: maswali 6,000 yalichaguliwa tu kwa nasibu kutoka kwa uteuzi mkubwa wa hifadhidata.
Kwa hivyo kwa nini Microsoft haikufanya mafunzo zaidi ya ujifunzaji wa uimarishaji?
Kwa sababu mfumo ulizalisha majibu ya maswali ambayo yalizidi urefu wa muktadha wa 32k (urefu ambao mfumo haukufunzwa), wangeweza kuikata tu.
Kwa kuongezea, kwa msaada wa mahesabu sambamba ya hoja (kama vile Maj@N), mfumo mpya wa hoja umefikia karibu kikomo cha utendaji kwenye AIME 2025, na hata kuzidi utendaji wa pass@1 wa mfumo wake wa mwalimu (o3-mini).
Na ukamalisha ukusanyaji wa data yote kabla ya Februari 2025, na pia HMMT.
Katika kazi zingine, watafiti pia wameona jambo la ‘kuzidi mwalimu’, kama vile kazi za OmniMath na Upangaji wa Kalenda.
Muundo wa haraka katika hatua ya SFT, pamoja na mchakato wa ujifunzaji wa uimarishaji unaofuata, unaonekana kuupa mfumo uwezo wa ‘kujiboresha’, kuzidi wigo wa maarifa yaliyotolewa na mfumo wa mwalimu.
Katika takwimu hapa chini, magenta inawakilisha o3-mini na kijani inawakilisha Phi.
Jambo la kupendeza ni kwamba: maandishi marefu yenye urefu wa majibu katika 25% ya juu mara nyingi yanahusiana sana na majibu yasiyo sahihi!
Walakini, kwa upande mwingine, katika tathmini nyingi, urefu wa wastani wa jibu kwa ujumla ni mrefu na usahihi ni wa juu.
Kwa maneno mengine, kuongeza rasilimali za kompyuta wakati wa majaribio husaidia, lakini mfumo pia unakabiliwa na ‘kuongea sana’ wakati ‘umekwama’.
Kuhusu mapungufu ya mfumo, pia kuna mambo kadhaa ya kuzingatia:
- Uwezo wa kushughulikia urefu wa muktadha unaozidi 32k haujapanuliwa kikamilifu au kujaribiwa.
- Mfumo unakabiliwa na ‘kufikiria kupita kiasi’ wakati wa kushughulikia shida rahisi, na inaweza kuonekana kuwa na maneno mengi katika kujitathmini.
- Uwezo wa mazungumzo ya zamu nyingi haujajaribiwa sana.
Kwa kweli, kuna ‘maeneo mengi zaidi ya vipofu’ ya kugundua, lakini kwa ujumla, timu ya utafiti inahisi kuwa wako kwenye njia sahihi!
Mafunzo ya Kushangaza
Suriya Gunasekar, Msimamizi Mkuu wa Utafiti katika Microsoft Research na mali ya timu ya ‘Fizikia ya AGI’ inayohusika na kuendeleza mfululizo wa Phi wa mifumo, ililenga kuanzisha kanuni za msingi za kazi hiyo.
Wakati huu, timu ya Microsoft Phi ililenga hatua ya baada ya mafunzo na ilizindua Phi-4-reasoning (kwa kutumia SFT tu) na Phi-4-reasoning-plus (SFT+ kiwango kidogo cha RL).
Zote mbili ni mifumo ya 14B ambayo imeonyesha uwezo thabiti katika hoja na vigezo vya kazi za jumla.
Msingi wa kazi hii upo katika uteuzi wa haraka na uchunguzi wa majaribio ya ustadi wa hoja unaohamishika, unaojiboresha.
Kulikuwa na uvumbuzi mbili za kushangaza wakati wa mchakato wa mafunzo:
Kwanza, mradi tu nyingi za hoja za mnyororo mrefu (CoT) zilizofunzwa kikoa zinatumiwa, Phi-4 inaweza kufikia maboresho makubwa ya utendaji katika kazi nyingi kama vile upangaji, utatuzi wa maze (bila pembejeo ya kuona), IFEva, FlenQA, KITAB (ujibu wa swali la utazamaji), na PhiBench ya ndani;
Pili, hata ikiwa mifano 6,000 tu ya hisabati inatumiwa kwa mafunzo madogo ya RL, utendaji wa mfumo unaboreshwa sana katika vigezo vingine, na uboreshaji wa juu kufikia 10% (lakini matumizi ya tokeni yaliongezeka kwa takriban mara 1.5), na uhamishaji wa ustadi wa msalaba pia ulizingatiwa wakati wa hatua ya RL.
Kwa maneno mengine, ikilinganishwa na washindani wakuu kama vile OpenAI na Google, mfululizo wa hoja wa Microsoft Phi-4 unaonyesha uwezekano mpya: mifumo midogo inaweza kufanana au hata kuzidi mifumo mikubwa katika kazi maalum kwa kutumia data ya hali ya juu na mikakati iliyosafishwa ya mafunzo.
Mbinu za Msingi
Mfumo wa hoja Phi-4-reasoning una vigezo bilioni 14 na hufanya kazi kwa nguvu katika kazi ngumu za hoja.
Mfumo huo unategemea Phi-4 kwa mafunzo mazuri yanayosimamiwa, kwa kutumia seti iliyochaguliwa kwa uangalifu ya haraka za ‘kufundishwa’ ambazo zina utata na utofauti unaofaa; mifano ya hoja iliyozalishwa na o3-mini inatumiwa kama marejeleo wakati wa mchakato wa mafunzo.
Phi-4-reasoning inaweza kutoa minyororo ya kina ya hoja na kutumia kikamilifu rasilimali za kompyuta wakati wa mchakato wa hoja.
Juu ya msingi huu, Microsoft iliendeleza zaidi Phi-4-reasoning-plus.
Imeimarishwa kwa msingi wa mfumo wa asili kupitia hatua ndogo ya ujifunzaji wa uimarishaji kulingana na matokeo, na hutoa minyororo ya hoja ndefu na yenye nguvu zaidi.
Utafiti unaonyesha kuwa hifadhidata ya SFT iliyoundwa vizuri inaweza kuboresha sana athari za mifumo ya lugha ya hoja, na ujifunzaji wa uimarishaji (RL) unaweza kuongeza zaidi uboreshaji huu kwa msingi huu.
Katika majaribio ya SFT, hata katika mpangilio huu rahisi wa uzalishaji, uteuzi makini na uchujaji mkali wa shida za mbegu bado ni muhimu kwa mafanikio ya mfumo.
Wametumia seti nzima ya data ya mafunzo kwa mchakato mkali wa kuondoa uchafuzi ili kuhakikisha kuwa hauna data ambayo inaingiliana sana na hoja zinazotumiwa sana au maswali ya jumla ya benchmark, pamoja na vigezo vingine ambavyo havijatajwa katika ripoti hii.
Orodha kamili ya vipimo vya benchmark ambavyo vimeondolewa uchafuzi ni kama ifuatavyo:
- Hisabati na Hoja: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
- Programming: LiveCodeBench, Codeforces, HumanEval, MBPP
- Ujibu wa Swali na Maarifa ya Jumla: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
- Kazi Nyingine za Tathmini: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench
Kupitia Urekebishaji mzuri unaosimamiwa (SFT) wa mfumo wa Phi-4 na vigezo bilioni 14, watafiti walipata Phi-4-reasoning, bila ujifunzaji wowote wa uimarishaji kabla ya hapo.
Lengo la SFT ni kusafisha uwezo wa hoja uliopangwa uliojumuishwa katika mfumo wa msingi.
Usanifu wa Phi-4-reasoning ni sawa na ule wa mfumo wa Phi-4, lakini kwa marekebisho mawili muhimu:
- Tokeni za hoja: Tokeni mbili za nafasi katika mfumo wa msingi zinatumiwa tena kama na tokeni, ambazo hutumiwa kuashiria mwanzo na mwisho wa mchakato wa hoja (‘kufikiria’).
- Urefu ulioongezeka wa Tokeni: Urefu wa juu wa tokeni ulioungwa mkono hapo awali na mfumo wa msingi (Phi-4) ulikuwa 16K. Ili kushughulikia tokeni za ziada za hoja, msingi wa msingi wa RoPE uliongezeka mara mbili, na mfumo ulifunzwa kwa urefu wa juu wa tokeni ya 32K.
Walitumia mbinu bandia kutoa idadi kubwa ya mifano ya hoja ya mnyororo wa mawazo.
Hifadhidata ya SFT iliyotumiwa ina zaidi ya jozi milioni 1.4 za haraka-jibu, kwa jumla ya tokeni bilioni 8.3 za kipekee, zinazofunika maeneo ya hoja kama vile hisabati na programu, pamoja na data ya upatanishi kwa AI salama na inayowajibika.
Kielelezo 4a kinaonyesha mabadiliko katika viashiria muhimu katika mchakato mzima wa marudio ya SFT.
Mapema katika mafunzo, mfumo ulianza kutumia tokeni wazi za ‘kufikiria’, ambayo inaonyesha kwamba mfumo ulijifunza haraka muundo huu wa kina ulioandaliwa.
Walakini, kama inavyoonyeshwa kwenye Kielelezo 4a, ufanisi wa moduli ya mnyororo wa mawazo na uwezo wa hoja wa mfumo unaboreshwa katika mchakato mzima wa mafunzo, ambayo inaonyesha kwamba mfumo haunakili tu muundo, lakini kwa kweli unajifunza ustadi wa hoja.
Inashangaza, tofauti na ujifunzaji wa uimarishaji, watafiti hawakuona ongezeko la urefu wa jibu wakati wa mchakato wa SFT.
Kwa kweli, kama inavyoonyeshwa kwenye Kielelezo 4b, urefu wa wastani wa jibu ulipungua kidogo.
Hii inaonyesha kwamba mafunzo yanavyoendelea, mfumo unajifunza kutumia bajeti yake ya tokeni kwa ufanisi zaidi.
Ili kutathmini kimfumo mikakati tofauti ya mafunzo, walitumia benchmark iliyowekwa - AIME 2024 na GPQA diamond - kama kiashiria cha maendeleo.
Kwa ujumla, mbinu ya majaribio inaweza kugawanywa katika hatua mbili: uchunguzi na upimaji.
Katika hatua ya uchunguzi, watafiti walitumia mizunguko fupi ya mafunzo na vyanzo vya data mdogo na mashamba ili kurudia haraka na kutoa mbinu thabiti za mafunzo.
Katika awamu iliyofuata ya upanuzi, watafiti walifupisha matokeo ya majaribio ya kupunguza hatari mapema na kukamilisha mipangilio ya SFT.
Kielelezo 5 kinatoa muhtasari wa maendeleo haya, ikionyesha majaribio ya uharibifu kwa chaguo kadhaa muhimu za muundo.
Kielelezo 5 kinaonyesha muhtasari wa kiwango cha juu cha mzunguko wa majaribio ya usimamizi mzuri wa Phi-4-reasoning (SFT), pamoja na awamu za uchunguzi na upanuzi, kwa kutumia majaribio mengine kama mfano wa kuwakilisha. Kila nguzo ya dot inawakilisha matokeo ya majaribio ya chaguo maalum ya muundo wa mafunzo.
Kielelezo 7 kinaonyesha matokeo muhimu ya mfumo wa Phi-4-reasoning-plus wakati wa mchakato wa mafunzo wa GRPO.
Kuanzia mfumo wa msingi wa usimamizi mzuri wa mafunzo (SFT) Phi-4-reasoning, hatua 90 tu za mafunzo ya GRPO ziliongeza utendaji wa AIME kwa zaidi ya 10% (Kielelezo 7a).
Kuendelea kuongeza idadi ya hatua za mafunzo hakukuleta faida za ziada, ambayo inaonyesha kwamba uwezo wa mfumo thabiti wa SFT uko karibu na dari ya utendaji. Ikumbukwe kwamba pato katika mafunzo ya GRPO imezuiliwa ndani ya tokeni 31k, ambayo kimsingi inazuia nafasi ya uboreshaji wa GRPO.
Kama inavyoonyeshwa kwenye Kielelezo 7c, urefu wa jibu unahusiana sana na utendaji wa AIME, wakati uhusiano kati ya alama ya zawadi na alama ya AIME ni dhaifu. Athari hii ya ukuaji wa urefu wa jibu ni athari inayotarajiwa ya mafunzo ya GRPO - mfumo unaboresha uwezo wake wa hoja kwa kuongeza ‘wakati wa kufikiria’.
Kielelezo 7d kinafunua zaidi kwamba kwa sababu ya muundo wa mfumo wa zawadi, urefu wa uzalishaji wa majibu yasiyo sahihi hukua kwa kasi zaidi kuliko majibu sahihi (wakati jibu la sasa la mfumo haliko sahihi, mfumo utahimiza kufikiria kwa muda mrefu).
Kwa kweli, kufanya sampuli ya kukataliwa kulingana tu na urefu wa jibu (hasa majibu marefu ambayo yanazidi sana wastani) inaweza kuboresha zaidi utendaji wa GRPO.
Kama inavyoonyeshwa kwenye Kielelezo 7d, mwelekeo wa ukuaji wa majibu mafupi (urefu ulio katika quantile ya chini ya 25%) wakati wa mchakato wa mafunzo ni sawa na urefu wa wastani wa majibu sahihi, wakati urefu wa majibu yasiyo sahihi uko karibu na quantile ya 75% ya urefu wa jibu kwa ujumla.
Jambo hili la utofautishaji linaonyesha kwamba sampuli ya kukataliwa kulingana na urefu inaweza kuboresha ufanisi wa mfumo kwa kukandamiza matokeo yasiyo sahihi marefu sana.