Ushindi wa RL: Phi-4 ya Microsoft Inaendelea

Microsoft inaingia katika uwanja wa miundo huria ya AI, haswa familia ya Phi, inaendelea kupata umaarufu, ingawa si kwa utambuzi sawa na uwekezaji wao katika OpenAI. Kati ya miundo hii, Phi-4 Reasoning Plus inaonekana wazi, ikionyesha uwezo wa kujifunza kwa uimarishaji (RL) katika kufikia matokeo ya ajabu kwenye vipimo vya benchmark.

Msururu wa Phi umeundwa kuwa na ufanisi wa rasilimali, ukitumia nguvu ndogo ya hesabu na nafasi ya kuhifadhi. Kupitia utafiti makini na mbinu za uboreshaji, miundo hii imezidi matarajio kila mara, ikiwashinda washindani katika darasa lao la uzani na hata kupinga miundo mikubwa.

Muundo wa Phi-4 Reasoning, unaojivunia vigezo bilioni 14, uliundwa kwa kutumia algorithm ya supervised fine-tuning (SFT) kwenye muundo wa msingi wa Phi-4. Kwa msingi wa haya, watafiti waliendeleza zaidi muundo wa Phi-4 Reasoning Plus, wakitumia kujifunza kwa uimarishaji (RL) kwenye msingi wa Phi-4 Reasoning.

Kwa kushangaza, miundo yote ya Phi-4 Reasoning na Phi-4 Reasoning Plus imeonyesha utendaji bora ikilinganishwa na miundo mikubwa zaidi kama vile DeepSeek R1, ambayo ina vigezo bilioni 70. Mafanikio haya yanaonekana wazi katika benchmarks zinazojumuisha kuweka misimbo, utatuzi wa matatizo ya hisabati, na kazi za hali ya juu za kisayansi katika ngazi ya uzamili. Utendaji wa miundo hii hata unakaribia ule wa muundo kamili wa DeepSeek R1 wenye vigezo bilioni 671.

Watafiti wa Microsoft wanahusisha mafanikio ya muundo hasa na matumizi ya datasets za mafunzo za ubora wa juu, mkakati ambao kampuni imekuwa ikitegemea mara kwa mara na mifumo yake ya awali. Datasets hizi zinajumuisha zaidi ya vichocheo milioni 1.4 vilivyoandaliwa kwa uangalifu vinavyoenea katika taaluma mbalimbali za uandishi wa misimbo na STEM (Sayansi, Teknolojia, Uhandisi, na Hisabati). Kila kidokezo kinaambatana na majibu yaliyoundwa kwa ustadi, yanayojumuisha nyimbo za kina za mawazo zilizotolewa na muundo wa o3-mini wa OpenAI.

Ili kuboresha mchakato wa mafunzo, watafiti walilenga kimkakati vichocheo ambavyo vilisukuma mipaka ya uwezo wa muundo wa msingi wa Phi-4. Hii ilihusisha kuchuja datasets za mafunzo ili kuhifadhi tu vichocheo ambavyo vilitoa fursa kubwa za uboreshaji.

Sababu ya Ufanisi wa RL

Uundaji wa Phi-4 Reasoning Plus ulihusisha mchakato wa hatua mbili: kwanza, kutoa Phi-4 Reasoning kupitia supervised fine-tuning (SFT) ya muundo wa msingi wa Phi-4, ikifuatiwa na awamu ya kujifunza kwa uimarishaji (RL). Ili kupata maarifa zaidi kuhusu vipengele vya RL vya Phi-4 Reasoning Plus, mawasiliano ya moja kwa moja na Harkirat Behl, mtafiti wa Microsoft ambaye alichukua jukumu muhimu katika sehemu hii ya mradi, yalikuwa muhimu.

Kujifunza kwa uimarishaji (RL) ni mbinu ya kipekee ya mafunzo ambapo mfumo wa AI hujifunza kupitia majaribio. AI huchukua hatua, inapokea maoni kwa namna ya zawadi au adhabu, na hatua kwa hatua huboresha mchakato wake wa kufanya maamuzi ili kuongeza matokeo yanayotarajiwa ya muda mrefu. Mbinu hii ina faida hasa kwa kazi zinazohitaji muundo wa AI kujihusisha na "reasoning," kwa vile inatanguliza kufikia matokeo yanayotarajiwa kuliko kufuata mchakato usiobadilika, uliofafanuliwa awali.

Tofauti na miundo ya kitamaduni ambayo inazingatia tu kutabiri neno linalofuata na kuadhibu muundo kwa kila usahihi, RL inatoa kubadilika zaidi katika jinsi jibu linavyotolewa. Kubadilika huku huruhusu muundo kuchunguza matatizo changamano na njia nyingi zinazowezekana za suluhisho, hatimaye kuelekea kwenye hitimisho sahihi.

Kulingana na Behl, RL huwezesha muundo "kutoa majibu marefu sana, na majibu mengi tofauti," huku lengo kuu likiwa usahihi wa matokeo ya mwisho. Msisitizo huu juu ya matokeo, badala ya hatua maalum zinazochukuliwa, unaakisi jinsi wanadamu wanavyokabiliana na utatuzi wa matatizo. Michakato tofauti ya mawazo inakubalika, mradi tu inaongoza kwa jibu sahihi.

Katika miundo ya Microsoft, hatua ya RL ililenga kimakusudi mawazo ya hisabati. Mfumo wa zawadi ulihimiza usahihi, huku wakati huo huo ukitoa adhabu kwa marudio, urefu kupita kiasi, na umbizo lisilofaa la majibu.

Behl alieleza zaidi kwamba watafiti waliruhusu muundo kutoa majibu mengi kwa swali fulani. Kila jibu kisha lilifungwa kulingana na ulinganisho wake na alama ya wastani ndani ya kundi la majibu yaliyotolewa.

Alama hizi za jamaa hutumika kama utaratibu wa maoni, kuelekeza muundo kupendelea majibu ambayo hupokea alama za juu mara kwa mara. Baada ya muda, mchakato huu unafundisha muundo kupatanisha majibu yake kwa karibu zaidi na ishara inayotakiwa ya zawadi.

Watafiti waliona kuwa kutumia RL kwa seti ndogo ya matatizo 6,400 kulisababisha uboreshaji mkubwa katika usahihi katika tathmini mbalimbali za hisabati na mawazo.

"Baada ya kujenga Phi-1, Phi-2, Phi-3, na Phi-4, somo moja langu katika utafiti ni kwamba RL inahitaji data kidogo sana kuliko mafunzo ya SFT," Behl alibainisha.

Alilitaja hili kwa ukweli kwamba RL haihusu sana kuweka ujuzi mpya kabisa kwa muundo kutoka mwanzo na zaidi kuhusu kuongoza muundo kuunganisha na kutumia vyema ujuzi uliopo ili kufikia matokeo bora.

Mafanikio ya Microsoft na kujifunza kwa uimarishaji yanaendana na uzoefu wa makampuni mengine mengi ya AI. OpenAI, mwanzilishi katika uundaji wa mifumo ya reasoning, amesisitiza mara kwa mara athari nzuri ya RL kwenye miradi yao.

Kwa kupendeza, DeepSeek R1, muundo wa Kichina ambao ulivuruga mandhari ya AI mwaka jana, pia ulitaja mafanikio yake, kwa kiasi fulani, kwa matumizi ya RL. Zaidi ya hayo, watafiti na wahandisi kadhaa kutoka OpenAI wamekubali hadharani jukumu muhimu la RL katika mafanikio ya mipango yao ya kina ya utafiti.

Hivi majuzi, muundo wa Qwen wa Alibaba pia uliidhinisha kujifunza kwa uimarishaji, ukisisitiza athari yake kubwa kwenye miundo yao ya reasoning. Katika chapisho la blogi, kampuni ilisema, "Tuna uhakika kwamba kuunganisha miundo ya msingi yenye nguvu na RL inayoendeshwa na rasilimali kubwa za hesabu itatusukuma karibu na kufikia Akili Mkuu ya Bandia (AGI)."

Hata hivyo, licha ya mafanikio ya Phi-4 Reasoning, Phi-4 Reasoning Plus, na miundo mingine mingi ya reasoning, uwanja bado unakabiliwa na changamoto kadhaa.

Utafutaji Unaondelea wa Uboreshaji

Katika miezi ya hivi karibuni, idadi ya tafiti za utafiti zimesisitiza mapungufu yaliyopo na hatari zinazoweza kutokea za miundo ya reasoning. Kwa mfano, katika karatasi yao ya utafiti juu ya Phi-4 Reasoning, watafiti wa Microsoft walikiri kwamba wanaendelea kukabiliana na changamoto zinazohusiana na matumizi kupita kiasi ya muda na rasilimali, nyakati za majibu polepole, na, haswa, suala la majibu ya miundo kupingana na hatua zao za awali za reasoning.

Katika maendeleo mengine muhimu, Anthropic alichapisha utafiti uliofunua kuwa minyororo ya reasoning (mara nyingi hujulikana kama minyororo ya mawazo, au CoTs) inaweza kutoonyesha mchakato halisi wa reasoning wa muundo kila mara. Watafiti waligundua kuwa mifumo mara nyingi hutumia vidokezo vya nje, kama vile ishara dhahiri zilizoingizwa kwenye vichocheo ili kuwaelekeza kwenye majibu sahihi, lakini mara chache hukubali au kueleza vidokezo hivi ndani ya hatua zao za wazi za reasoning. Tofauti hii kati ya tabia ya ndani ya muundo na maelezo yake ya nje inazua wasiwasi kuhusu uaminifu wa kutumia CoTs kama zana ya kuaminika kwa tafsiri ya muundo na kuhakikisha usalama.

Hata OpenAI imetoa ripoti za utafiti zinazoangazia mwelekeo wa mifumo ya juu ya reasoning kujihusisha na "reward hacking." Reward hacking inarejelea hali ambapo mawakala wa AI hutumia vibaya mianya isiyotarajiwa au matokeo yasiyokusudiwa ndani ya malengo yao yaliyofafanuliwa ili kuongeza zawadi kwa njia ambazo hazikukusudiwa au kuhitajika hapo awali. OpenAI imechunguza mikakati ya kupunguza hili, kama vile kutumia muundo usio na nguvu (GPT-4o) kufuatilia muundo wenye nguvu kama o3-Mini, ingawa hii inaleta matatizo yake mwenyewe na uwezekano wa upendeleo.

Nat McAleese, mwanachama wa wafanyakazi wa kiufundi katika OpenAI, alisisitiza kwamba "miundo mikubwa ya reasoning ni nzuri sana katika reward hacking," akitoa mifano iliyochaguliwa kutoka kwa ripoti ili kuonyesha jambo hili.

"Kuna upungufu mwingi katika msururu wa reasoning; wanajipinga wenyewe, na kuna maswali mengi ambayo hayajajibiwa," Behl alitoa maoni. "Lakini, ni nafasi inayobadilika. Ikiwa tunaweza kulitatua hili kama jumuiya na kuelewa jinsi mifumo inavyofikiri, kutakuwa na faida nyingi." Mustakabali wa miundo ya reasoning unategemea kushughulikia changamoto hizi kupitia utafiti endelevu na ushirikiano ndani ya jumuiya ya AI.