Changamoto ya Utaalamu: Kurekebisha AI kwa Mipaka ya Kiufundi
Miundo Mikuu ya Lugha (LLMs) bila shaka imeleta mapinduzi katika jinsi tunavyoingiliana na habari na kuendesha kazi zinazohusisha lugha asilia. Miundo mikubwa kama Llama na Mistral, hata katika matoleo yao ya chanzo huria, inaonyesha ufasaha wa ajabu katika kuelewa na kuzalisha maandishi ambayo mara nyingi hushindana na matokeo ya binadamu. Uwezo wao unajumuisha mawanda mapana, kuanzia mazungumzo ya kila siku hadi ufupishaji tata. Hata hivyo, kuingia katika maeneo maalum, yenye istilahi nyingi za sayansi na uhandisi—kama vile sayansi ya vifaa au biomateriomics—kunaleta kikwazo cha kipekee.
Maeneo haya ya kiufundi yanahitaji zaidi ya maarifa ya jumla; yanahitaji uelewa wa kina, wenye nuances, uwezo wa kufikiri juu ya kanuni maalum, na uzoefu na istilahi maalum na miundo ya data. LLMs za kawaida, zilizofunzwa kwa hifadhidata pana za wavuti, mara nyingi hushindwa zinapokabiliwa na mahitaji haya. Changamoto, kwa hiyo, iko katika urekebishaji wa kikoa: tunawezaje kurekebisha kwa ufanisi miundo hii yenye nguvu ya jumla ili iwe wasaidizi wataalamu katika nyanja maalum sana?
Kulisha data maalum zaidi sio jibu kila wakati, wala sio rahisi kila wakati. Kufunza miundo hii mikubwa kuanzia mwanzo ni ghali mno, na hifadhidata kubwa za asili zilizotumiwa kwa mafunzo yao ya awali kwa kawaida hazipatikani. Hii ni kweli hasa kwa miundo maarufu ya chanzo huria ambapo, licha ya uwazi fulani, mapishi kamili—mchanganyiko halisi wa data na mfuatano uliotumiwa wakati wa mafunzo ya awali, uboreshaji, na upatanishi—hubaki kuwa siri kwa kiasi kikubwa. Watafiti na wahandisi wanahitaji mikakati thabiti, yenye ufanisi ili kuingiza maarifa mapya, maalum katika miundo iliyopo huku wakihifadhi kwa umuhimu uwezo mkubwa wa jumla uliopatikana wakati wa mafunzo yao ya awali. Kitendo hiki dhaifu cha kusawazisha ni muhimu sana kwa kuunda zana za AI zenye manufaa kweli kwa ugunduzi wa kisayansi na uvumbuzi wa kihandisi, kama vile kuendeleza injini zenye uwezo wa kufikiri kwa njia nyingi ili kuchunguza msukumo wa muundo wa vifaa vya kibiolojia katika mizani na miktadha mbalimbali.
Kupanga Mazingira ya Mafunzo: Kutoka Mafunzo ya Awali hadi Uboreshaji wa Mapendeleo
Kuelekea kwenye utaalamu wa LLM maalum kwa kikoa kunahusisha kuchunguza zana mbalimbali za mikakati ya uboreshaji. Kila mbinu inatoa njia tofauti ya kuunda maarifa na tabia ya modeli.
Mafunzo ya Awali Yanayoendelea (CPT - Continued Pre-Training): Mkakati huu unahusisha kupanua awamu ya awali ya mafunzo, lakini wakati huu kwa kutumia hifadhidata inayolenga moja kwa moja kikoa lengwa—kama mkusanyiko wa machapisho ya utafiti wa sayansi ya vifaa. Lengo ni kuzamisha modeli katika lugha maalum, dhana, na miundo ya maarifa ya uwanja huo, kuiruhusu kunyonya habari maalum ya kikoa kwa undani zaidi kuliko inavyowezekana kwa uboreshaji maalum wa kazi pekee. Inaweka msingi wa maarifa muhimu.
Uboreshaji Unaosimamiwa (SFT - Supervised Fine-Tuning): Kufuatia CPT au kuanzia na modeli ya msingi, SFT hufundisha moja kwa moja modeli jinsi ya kufanya kazi maalum. Hii inafanikiwa kwa kutumia hifadhidata zilizoratibiwa za jozi za pembejeo-tokeo, mara nyingi zikiwa katika muundo wa maagizo na majibu yanayotarajiwa, au maswali na majibu sahihi yanayohusiana na kikoa. SFT huboresha uwezo wa modeli kufuata maagizo, kujibu maswali kwa usahihi ndani ya muktadha maalum, na kuzingatia miundo ya tokeo inayotarajiwa.
Urekebishaji wa Cheo cha Chini (LoRA - Low-Rank Adaptation): Ingawa sio lengo kuu hapa, LoRA inawakilisha mbadala au nyongeza yenye ufanisi. Badala ya kufunza upya modeli nzima, LoRA huanzisha tabaka ndogo, zinazoweza kufunzwa za ‘adapta’. Hii inaruhusu urekebishaji mkubwa kwa gharama ndogo sana ya kikokotozi, ingawa inaweza kuwa na mapungufu katika kiasi gani cha maarifa mapya ya kimsingi yanaweza kuunganishwa ikilinganishwa na CPT.
Uboreshaji Kulingana na Mapendeleo: Kuenda zaidi ya ukamilishaji rahisi wa kazi, uboreshaji wa mapendeleo unalenga kupatanisha matokeo ya modeli kwa karibu zaidi na hukumu za binadamu au vigezo maalum kama vile manufaa, kutokuwa na madhara, na usahihi katika kufikiri. Badala ya kutegemea tu majibu ‘sahihi’ yaliyofafanuliwa awali (kama ilivyo katika SFT), mbinu hizi hujifunza kutokana na ulinganisho.
- Uboreshaji wa Mapendeleo ya Moja kwa Moja (DPO - Direct Preference Optimization): DPO hujifunza moja kwa moja kutoka kwa jozi za majibu ambapo moja inapendelewa kuliko nyingine (k.m., na mtathmini wa binadamu au AI nyingine). Inaboresha modeli ili kuongeza uwezekano wa kutoa majibu yanayopendelewa bila kuhitaji modeli tofauti ya thawabu, kurahisisha mchakato wa jadi wa Kujifunza kwa Kuimarisha kutoka kwa Maoni ya Binadamu (RLHF - Reinforcement Learning from Human Feedback).
- Uboreshaji wa Mapendeleo ya Uwiano wa Odd (ORPO - Odds Ratio Preference Optimization): Mshiriki mpya zaidi, ORPO hubadilisha lengo la uboreshaji, wakati mwingine kutoa utendaji bora au uthabiti ikilinganishwa na DPO, haswa katika kupatanisha miundo kuelekea vigezo maalum vya kimtindo au vya kufikiri ndani ya kikoa.
Mbinu hizi hazitengani; mara nyingi hutumiwa kwa mfuatano au kwa pamoja, na kuunda mifumo tata ya mafunzo. Mfuatano wa kawaida unaweza kuhusisha CPT kujenga maarifa ya kikoa, ikifuatiwa na SFT kwa ustadi wa kazi, na hatimaye DPO au ORPO kwa upatanishi na uboreshaji. Hata hivyo, mchanganyiko na mfuatano bora bado ni maeneo ya utafiti hai, haswa kwa kufikia utendaji wa kilele katika nyanja maalum za kisayansi.
Zaidi ya Uboreshaji Rahisi: Ahadi ya Kuunganisha Miundo
Wakati kuboresha modeli moja kupitia hatua za mafunzo za mfuatano kunaweza kuleta maboresho makubwa, njia nyingine ya kuvutia imeibuka: kuunganisha miundo. Mazoezi haya yanahusisha kuchukua miundo miwili au zaidi iliyofunzwa kando na kuchanganya vigezo vyao—‘uzito’ wao wa ndani—ili kuunda modeli moja mpya ya mseto.
Kwa nini kujaribu muunganiko kama huo? Wazo kuu ni kuchanganya kwa ushirikiano nguvu za miundo mama. Fikiria modeli moja iliyofunzwa kwa ustadi kwenye fasihi ya sayansi ya vifaa (kupitia CPT na SFT) na modeli nyingine ya jumla ya ‘maagizo’ yenye uwezo mkubwa wa kufuata maagizo tata na kushiriki katika mazungumzo yenye mshikamano. Kuzichanganya kunaweza kuunda modeli ambayo ina maarifa ya kina ya kikoa na uwezo bora wa mazungumzo na kufuata maagizo.
Uchunguzi wa awali ulidokeza kuwa mchakato huu unaweza kuwa zaidi ya wastani rahisi. Badala ya kuchanganya tu uwezo, kuunganisha kunaweza kufungua kabisa utendaji mpya, unaojitokeza—uwezo ambao haukuwepo wazi katika modeli yoyote mama. Hii inapendekeza mwingiliano usio wa mstari kati ya vigezo wakati wa kuunganisha, uwezekano wa kusababisha jumla kubwa kuliko jumla ya sehemu zake. Ikiwa itathibitishwa kuwa yenye ufanisi na inayoweza kudhibitiwa, kuunganisha miundo kunaweza kuwakilisha zana yenye nguvu, ya kimapinduzi kwa kusukuma mipaka ya uwezo wa LLM, kuunda mifumo ya AI inayoweza kubadilika sana na yenye nguvu iliyoundwa kwa changamoto ngumu, za ulimwengu halisi za kisayansi na kihandisi.
Kufichua Nguvu ya SLERP: Mbinu ya Kijiometri ya Kuunganisha
Ufanisi wa kuunganisha miundo unategemea sana jinsi vigezo vya miundo mama vinavyochanganywa. Wastani rahisi wa mstari (mara nyingi huitwa Linear Interpolation au LERP) unaweza kuonekana kuwa wa kawaida, lakini mara nyingi husababisha matokeo duni au hata kudhoofisha utendaji. Hii inawezekana kwa sababu nafasi ya vigezo yenye vipimo vingi vya LLMs sio tambarare; ina jiometri tata, iliyopinda. Uingizaji wa mstari una hatari ya kupita ‘maeneo mfu’ au maeneo yenye hasara kubwa ndani ya nafasi hii, na hivyo kuvuruga kwa ufanisi uwakilishi uliosoma kwa uangalifu wa miundo mama.
Ingiza Spherical Linear Interpolation (SLERP). Iliyoundwa awali kwa uhuishaji laini wa mizunguko katika michoro ya kompyuta, SLERP inatoa njia ya kisasa ya kijiometri ya kuingiza kati ya nukta mbili (katika kesi hii, vekta za vigezo vya miundo miwili) kwa kufuata njia fupi zaidi kwenye uso wa tufe kuu (hypersphere).
Fikiria seti za vigezo vya miundo miwili mama kama nukta mbili kwenye uso wa tufe kubwa.
- LERP ingechora mstari ulionyooka kupitia tufe unaounganisha nukta hizo. Njia hii inaweza isibaki kwenye uso na inaweza kupita katika maeneo yanayowakilisha miundo yenye utendaji duni.
- SLERP, kinyume chake, husafiri kwenye uso uliopinda wa tufe lenyewe. Njia hii kwa asili inaheshimu muundo wa kijiometri wa msingi wa nafasi ya vigezo.
Kwa nini njia hii ya kitufe inaweza kuwa bora zaidi kwa kuunganisha LLMs?
- Uhifadhi wa Muundo: Kwa kukaa ‘kwenye tufe,’ SLERP hudumisha uhusiano wa kijiometri kati ya vigezo, ikihifadhi miundo iliyosomwa ndani ya kila modeli mama kwa ufanisi zaidi kuliko njia ya mstari.
- Kuepuka Maeneo yenye Hasara Kubwa: Njia iliyopinda ina uwezekano mdogo wa kukata maeneo ya nafasi ya vigezo yanayohusishwa na makosa makubwa ya utabiri (hasara).
- Mchanganyiko Usio wa Mstari: Fomula ya uingizaji kwa SLERP kwa asili sio ya mstari. Hii inaruhusu mwingiliano tata, wa ushirikiano kati ya vigezo kutoka kwa miundo mama, uwezekano wa kufungua mchanganyiko unaowakilisha uwezo mpya. Kigezo kilichounganishwa kinaweza kuamsha vipengele kwa njia ambayo hakuna modeli mama ingeweza peke yake.
- Mpito Laini: SLERP hutoa mpito laini wa kihisabati kati ya hali za miundo mama, uwezekano wa kusababisha ujumuishaji bora katika modeli iliyounganishwa.
Kwa sababu SLERP inaheshimu jiometri ya ndani ya modeli na kuwezesha mwingiliano wa vigezo usio wa mstari, ina uwezo wa sio tu kuweka wastani wa uwezo lakini kuuchanganya kweli kwa njia inayokuza sifa zinazojitokeza. Hii inafanya kuwa mgombea anayeahidi sana kwa kuunganisha miundo inayolenga nyanja ngumu kama sayansi ya vifaa, ambapo mwingiliano wa hila na uelewa wenye nuances ni muhimu.
Kupima Nadharia: Majaribio ya Llama na Mistral
Ili kuchunguza kwa ukali mikakati hii ya uboreshaji na uunganishaji, mfululizo wa kimfumo wa majaribio ulifanywa kwa kutumia familia maarufu za miundo ya chanzo huria: Llama 3.1 (vigezo bilioni 8) na Mistral (vigezo bilioni 7). Lengo lilikuwa kulinganisha mifumo tofauti ya mafunzo na kutathmini athari za uunganishaji wa SLERP.
Muundo wa majaribio ulihusisha hatua kadhaa muhimu:
- Miundo Msingi: Majaribio yalianza na miundo ya msingi (‘base’) (iliyofunzwa awali lakini haijaboreshwa kwa maagizo) na matoleo ya ‘maagizo’ (‘instruct’) (tayari yameboreshwa kwa mazungumzo na kufuata maagizo) kwa familia zote za Llama na Mistral.
- Hifadhidata ya Kikoa: Hifadhidata maalum iliyolenga sayansi ya vifaa ilikusanywa kutoka kwa machapisho ya kisayansi na data iliyochakatwa.
- Mifumo ya Mafunzo: Mchanganyiko mbalimbali wa mbinu za mafunzo ulitumika:
- CPT pekee
- CPT ikifuatiwa na SFT (CPT-SFT)
- CPT-SFT ikifuatiwa na ORPO (CPT-SFT-ORPO)
- CPT-SFT ikifuatiwa na DPO (CPT-SFT-DPO)
- Baadhi ya tofauti zikianza moja kwa moja kutoka kwa modeli ya Instruct (k.m., Instruct-CPT-SFT-DPO).
- Kuunganisha Miundo: Kwa miundo mingi iliyoboreshwa, uunganishaji wa SLERP ulifanywa, kwa kawaida ukichanganya modeli iliyorekebishwa kwa kikoa na modeli inayolingana ya jumla ya ‘maagizo’ kutoka familia moja (k.m., modeli ya Llama ya CPT-SFT-DPO iliyounganishwa na modeli yakawaida ya Llama 3.1 Instruct).
- Tathmini: Utendaji wa miundo yote iliyotokana (iliyojumuishwa na isiyojumuishwa) ulitathminiwa kwa kutumia seti ya vigezo husika vilivyoundwa kupima maarifa ya kikoa, kufikiri, na kufuata maagizo.
Matokeo Muhimu kwa Llama na Mistral:
- Uunganishaji wa SLERP Huongeza Utendaji Mara kwa Mara: Katika familia zote mbili za miundo na mifumo mbalimbali ya mafunzo, miundo iliyoboreshwa kupitia uunganishaji wa SLERP kwa ujumla ilipata usahihi wa juu zaidi kwenye vigezo vya tathmini. Hii inasaidia sana dhana kwamba SLERP ni mbinu yenye ufanisi ya kuchanganya nguvu za miundo.
- Athari za Ushirikiano Zimethibitishwa: Utendaji wa miundo iliyounganishwa na SLERP mara kwa mara ulizidi wastani rahisi wa utendaji wa miundo miwili mama. Kupanga alama halisi iliyopatikana dhidi ya wastani huu uliotarajiwa kulifunua mkengeuko chanya mkubwa, kuthibitisha kuwa mchakato wa kuunganisha mara nyingi hufungua faida za ushirikiano na uwezo unaojitokeza. Chombo kilichounganishwa kilikuwa na uwezo zaidi kuliko jumla ya sehemu zake.
- Uboreshaji wa Mapendeleo Huongeza Thamani: Kujumuisha hatua za uboreshaji wa mapendeleo (DPO au ORPO) mara nyingi kulitoa ongezeko la ziada la utendaji, haswa ilipounganishwa na uunganishaji wa SLERP. Mikakati kama CPT-SFT-DPO-SLERP au CPT-SFT-ORPO-SLERP mara nyingi ilikuwa miongoni mwa iliyofanya vizuri zaidi.
- Mkakati Bora Usiojumuishwa Hutofautiana: Bila kuunganisha, mkakati uliofanya vizuri zaidi ulitofautiana kidogo kati ya familia za miundo. Kwa Llama 3.1, Instruct-CPT-SFT-DPO ilionyesha matokeo mazuri, wakati kwa Mistral, Base-CPT-SFT ilifanya vizuri kwa kulinganishwa na mwenzake wa Instruct.
- Athari ya Muda wa CPT: Uchambuzi zaidi juu ya miundo ya Mistral ulionyesha kuwa utendaji kwa ujumla uliboreka na mizunguko zaidi ya Mafunzo ya Awali Yanayoendelea (hadi mitano iliyojaribiwa), haswa ilipoanza kutoka kwa modeli ya Instruct, ikiimarisha thamani ya mfiduo wa kutosha wa kikoa wakati wa CPT.
Matokeo haya yanatoa picha wazi: ingawa uboreshaji wa mfuatano ni wa thamani, uunganishaji wa kimkakati wa miundo kwa kutumia SLERP unatoa njia yenye nguvu ya kuongeza kwa kiasi kikubwa utendaji wa LLM, haswa kwa nyanja maalum, mara nyingi ukitoa uwezo zaidi ya ujumlishaji rahisi.
Uchambuzi wa Kina: Ni Nini Hufanya Uunganishaji Ufanye Kazi?
Mafanikio thabiti ya uunganishaji wa SLERP yanachochea uchunguzi wa karibu zaidi wa mbinu za msingi na mambo yanayoathiri. Kwa nini mbinu hii ya kijiometri inatoa matokeo yenye nguvu kama haya, na ni hali gani zinazoboresha ufanisi wake?
Mwingiliano Usio wa Mstari: Kama ilivyodhaniwa, njia isiyo ya mstari ya SLERP kupitia nafasi ya vigezo inaonekana kuwa muhimu. Inaruhusu modeli iliyounganishwa kuchunguza mchanganyiko wa vigezo ambao wastani wa mstari ungeukosa. Mchanganyiko huu unaweza kuwakilisha mwingiliano mpya kati ya vipengele vilivyosomwa, na kusababisha uwezo wa kufikiri au kutatua matatizo unaojitokeza uliobuniwa kwa kikoa. Fikiria kuchanganya vigezo ambavyo, kibinafsi, vinawakilisha uelewa wa ‘nguvu ya nyenzo’ na ‘miundo ya kibiolojia’ - SLERP inaweza kupata mchanganyiko unaowakilisha kwa ufanisi ‘vifaa vyenye nguvu vilivyoongozwa na biolojia’ kwa njia ambayo hakuna modeli mama iliyofanya waziwazi.
Jukumu la Utofauti: Miundo mama inapaswa kuwa tofauti kiasi gani? Uchambuzi ulipendekeza uhusiano tata. Ingawa utofauti uliokithiri unaweza kuonekana kuwa wa manufaa, baadhi ya uhusiano ulionyesha kuwa katika miktadha fulani (kama miundo ya Llama), utofauti wa juu wa utendaji kati ya wazazi unaweza kupunguza kidogo utegemezi kwa SFT inayofuata, labda kwa sababu kuunganisha tayari kunakamata seti pana ya uwezo. Mwingiliano ni wa hila na huenda unategemea mbinu maalum za uboreshaji zilizotumiwa kwa wazazi.
Nukta ya Kuanzia ya Msingi dhidi ya Maagizo: Uchaguzi wa modeli ya kuanzia ni muhimu. Kwa majaribio ya Llama, modeli iliyounganishwa iliyofanya vizuri zaidi ilitokana na toleo la Instruct. Kinyume chake, kwa Mistral, mmoja wa waliofanya vizuri zaidi alitokana na modeli ya Base kabla ya kupitia CPT, SFT, na kuunganisha. Hii inapendekeza tofauti za usanifu au tofauti katika muundo wa awali wa mafunzo ya awali ya familia za Llama na Mistral huathiri jinsi zinavyoitikia mifumo maalum ya uboreshaji na uunganishaji. Hakuna nukta moja ya kuanzia ‘bora’ ya ulimwengu wote; inahitaji upimaji wa kimajaribio.
Ubora wa Data katika CPT: Msingi uliowekwa wakati wa Mafunzo ya Awali Yanayoendelea ni muhimu. Majaribio yaliyotumia hifadhidata kubwa lakini ‘yenye kelele’ zaidi ya CPT (iliyo na makosa zaidi ya uumbizaji au vizalia kutoka kwa utambuzi wa herufi kwa macho) yalisababisha kupungua kwa utendaji ikilinganishwa na kutumia hifadhidata ndogo, safi zaidi. Hii inasisitiza umuhimu wa data ya hali ya juu, iliyochakatwa vizuri maalum kwa kikoa ili hatua ya CPT iwe na ufanisi. Takataka ndani, takataka nje bado inatumika.
Kuboresha Vigezo vya SLERP: SLERP yenyewe ina vigezo, haswa mgawo wa uingizaji (mara nyingi huonyeshwa kama ‘t’, kuanzia 0 hadi 1) unaoamua ni uzito gani unaopewa kila modeli mama. Zaidi ya hayo, kuunganisha sio lazima kuwe sare katika tabaka zote za modeli. Majaribio yalichunguza kubadilisha kipengele cha uingizaji kwa njia tofauti kwa tabaka za kujitilia maanani dhidi ya tabaka za perceptron za tabaka nyingi (MLP - multilayer perceptron), au hata kukibadilisha kwa hatua kupitia kina cha modeli. Matokeo yalionyesha kuwa mipango maalum ya uzani isiyo sare inaweza kufanya vizuri zaidi kuliko mbinu ya kawaida ya sare, ikipendekeza uwezekano zaidi wa uboreshaji kwa kurekebisha kwa uangalifu mchakato wa kuunganisha katika usanifu wa mtandao. Mpangilio rahisi wa mstari wa uzani katika tabaka ulithibitika kuwa mzuri katika kisa kimoja cha Llama.
Athari ya Urekebishaji: SLERP inaweza pia kufanya kazi kama aina ya urekebishaji. Kwa kupata njia laini kati ya miundo miwili inayoweza kuwa maalum, inaweza kukatisha tamaa urekebishaji kupita kiasi kwa upekee wa data ya mafunzo ya mzazi yeyote, na kusababisha ujumuishaji bora kwenye shida zisizoonekana maalum za kikoa. Inaweza pia kusaidia kupunguza ‘usahaulifu mbaya,’ ambapo uboreshaji kwenye kazi moja hufuta maarifa kutoka kwa kazi ya awali.
Kwa asili, ufanisi wa SLERP unatokana na uwezo wake wa kuabiri jiometri tata ya nafasi ya vigezo vya LLM kwa akili, kukuza mwingiliano mzuri usio wa mstari huku ikihifadhi miundo ya maarifa iliyosomwa. Hata hivyo, kuboresha matumizi yake kunahitaji kuzingatia kwa uangalifu uchaguzi wa modeli mama, historia ya mafunzo, ubora wa data, na uwezekano hata maelezo madogo ya uunganishaji wenyewe.
Je, Ukubwa ni Muhimu? Kuchunguza Athari za Kuongeza Ukubwa na Miundo Midogo
Athari za kuvutia za ushirikiano zilizoonekana na miundo ya vigezo bilioni 7 na bilioni 8 zinaibua swali la asili: je, uwezo huu unaojitokeza unaofunguliwa na uunganishaji wa SLERP pia unadhihirika katika miundo midogo zaidi ya lugha? Au kuna kizingiti cha ukubwa ambacho chini yake uchawi hufifia?
Ili kuchunguza hili, majaribio kama hayo yalifanywa kwa kutumia mfululizo wa modeli za SmolLM, haswa toleo lenye vigezo bilioni 1.7 pekee. Modeli hii ni ndogo kwa kiasi kikubwa, na kuifanya iweze kufaa kwa mazingira yenye rasilimali chache kama vile vifaa vya mkononi au kompyuta za pembeni, lakini inaweza kukosa utajiri wa vigezo wa ndugu zake wakubwa.
Miundo ya SmolLM ilipitia mchakato uleule: CPT na hifadhidata ya sayansi ya vifaa, ikifuatiwa na SFT na DPO (ambayo ilithibitika kuwa na ufanisi zaidi kuliko ORPO kwa usanifu huu mdogo). Uunganishaji wa SLERP kisha ulitumika, ukichanganya SmolLM iliyoboreshwa na toleo lake la msingi au tofauti zingine.
Matokeo na SmolLM:
- Uboreshaji Bado Unasaidia: Mchakato wa CPT-SFT-DPO uliboresha utendaji wa modeli ya SmolLM kwenye kazi za kikoa ikilinganishwa na hali yake ya awali. Mchakato wa uboreshaji wenyewe ulikuwa wa manufaa, ukiongeza maarifa yake maalum.
- Ujitokezaji Kwa Kiasi Kikubwa Haukuepo: Hata hivyo, tofauti na majaribio ya Llama na Mistral, miundo ya SmolLM iliyounganishwa na SLERP kwa ujumla haikuonyesha athari kubwa za ushirikiano. Utendaji wao kwa kawaida ulikuwa karibu na wastani rahisi wa miundo mama, au juu kidogo tu. Mruko mkubwa wa utendaji na ishara wazi za uwezo unaojitokeza zilizoonekana katika miundo ya 7B/8B hazikuwepo.
Athari:
Tofauti hii inapendekeza kuwa ukubwa wa modeli kuna uwezekano ni jambo muhimu katika kutambua uwezo kamili wa uunganishaji wa SLERP kwa kuzalisha sifa zinazojitokeza. Miundo midogo, pamoja na nafasi zao za vigezo zisizo ngumu na zenye vipimo vichache, inaweza kukosa uwezo wa uwakilishi au utajiri unaohitajika ili mwingiliano huu wenye nguvu usio wa mstari utokee wakati wa kuunganisha. ‘Nafasi’ ya kugundua mchanganyiko mpya, wenye manufaa wa vigezo inaonekana kuwa na vikwazo vikubwa ikilinganishwa na miundo mikubwa.
Matokeo haya yanaendana na uchunguzi mpana kuhusu sheria za kuongeza ukubwa katika ujifunzaji wa kina, ambapo uwezo fulani wa ubora mara nyingi hujitokeza tu mara miundo inapofikia kizingiti fulani cha ukubwa. Inaonekana kwamba nguvu ya ushirikiano ya uunganishaji wa SLERP inaweza kuwa uwezo mmoja kama huo ambao unategemea sana ukubwa na utata wa kutosha wa modeli.
Kupima Faida: Kuangalia kwa Karibu Ongezeko la Utendaji kutoka kwa Kuunganisha
Ingawa vigezo vinaonyesha miundo iliyounganishwa mara nyingi hufanya vizuri zaidi kwa ujumla, ni muhimu kupima kwa usahihi kiasi gani ni bora zaidi ikilinganishwa na wazazi wao. Hasa, je, modeli iliyounganishwa hufanya vizuri zaidi kuliko hata modeli yenye nguvu zaidi kati ya hizo mbili zilizotumiwa kuiumba?
Ili kuchambua hili, mkengeuko wa utendaji ulihesabiwa kwa kila modeli iliyounganishwa na SLERP. Mkengeuko huu ulifafanuliwa kama:
Mkengeuko wa Utendaji = Utendaji(Modeli Iliyounganishwa) - Max(Utendaji(Mzazi 1), Utendaji(Mzazi 2))
- Mkengeuko chanya (ulioonyeshwa