NVIDIA FFN Fusion: Ufanisi Mpya kwa LLM | sw

Kamba Ngumu ya Kikokotozi ya AI ya Kisasa

Large language models (LLMs) zinasimama kama nguzo za akili bandia za kisasa, zikionyesha uwezo wa ajabu ambao unabadilisha viwanda na ugunduzi wa kisayansi. Ustadi wao katika kuzalisha maandishi yanayofanana na ya binadamu, kuwezesha mawakala wa mazungumzo wa hali ya juu, na hata kusaidia kazi ngumu za utafiti umevifanya kuwa zana muhimu. Katika moyo wa mifumo hii yenye nguvu hupiga usanifu wa transformer, muundo unaojulikana kwa tabaka zake zinazobadilishana. Data ya pembejeo, iliyogawanywa katika tokens, inapita kupitia mfuatano wa mifumo ya attention, ambayo hupima umuhimu wa tokens tofauti, ikifuatiwa na feed-forward networks (FFNs), ambazo huchakata taarifa zilizokusanywa. Uchakataji huu wa kitabaka, wa mfuatano ni msingi wa jinsi transformers hujifunza na kutoa matokeo.

Hata hivyo, usanifu huu wenyewe, ingawa una ufanisi, unaleta changamoto inayokua kadri mifumo inavyoongezeka ukubwa na utata. Asili ya mfuatano inamaanisha kila tabaka kwa ujumla lazima isubiri ile iliyotangulia ikamilishe ukokotozi wake kabla ya kuanza. Uchakataji huu wa hatua kwa hatua huunda kikwazo cha asili, hasa wakati wa awamu ya inference – hatua ambapo mfumo uliofunzwa hutumiwa kuzalisha utabiri au maandishi. Kadri mifumo kama ile inayoendesha wasaidizi wa hali ya juu wa AI inavyojumuisha mamia ya mabilioni, au hata matrilioni, ya vigezo, rasilimali za kikokotozi na muda unaohitajika kwa inference huongezeka kwa kasi. Mahitaji haya yanayoongezeka yanatafsiriwa kuwa latency kubwa (kuchelewa kwa majibu), throughput iliyopungua (idadi ya maombi yanayoshughulikiwa kwa muda), na gharama za uendeshaji zinazoongezeka, kuzuia usambazaji mpana na matumizi ya wakati halisi ya LLMs zenye nguvu zaidi. Kwa hivyo, kuimarisha ufanisi wa inference imekuwa jambo la muhimu sana ndani ya jumuiya ya utafiti wa AI, ikichochea jitihada za mikakati bunifu inayoweza kurahisisha ukokotozi bila kuathiri utendaji wa ajabu ambao mifumo hii hutoa. Changamoto kuu iko katika kupunguza vikwazo vilivyowekwa na utekelezaji wa mfuatano, hasa katika mazingira yaliyosambazwa ambapo ukokotozi unaenea kwenye GPUs nyingi, na kuongeza gharama za mawasiliano kwenye muda wa uchakataji.

Kupitia Mazingira ya Uboreshaji: Zana Zilizopo na Mipaka Yake

Katika juhudi zinazoendelea za kufanya LLMs ziwe nyepesi na za haraka zaidi, watafiti wameunda zana za mbinu za uboreshaji. Kila moja inatoa njia ya ufanisi, lakini mara nyingi huja na seti yake ya maelewano, kuzuia njia yoyote moja kuwa suluhisho la ulimwengu wote. Kuelewa maelewano haya ni muhimu ili kuthamini haja ya mbinu mpya kama FFN Fusion.

Mbinu moja maarufu ni quantization. Hii inahusisha kupunguza usahihi wa nambari unaotumiwa kuwakilisha uzito na uanzishaji wa mfumo. Badala ya kutumia nambari za kawaida za 32-bit floating-point, mifumo inaweza kutumia uwakilishi wa 16-bit, 8-bit, au hata bit ndogo zaidi. Hii inapunguza moja kwa moja alama ya kumbukumbu ya mfumo na inaweza kuharakisha kwa kiasi kikubwa mahesabu, kwani shughuli kwenye nambari za usahihi wa chini kwa kawaida huwa haraka na zinahitaji nishati kidogo. Hata hivyo, quantization si bila hatari.Kupunguza usahihi kunaweza kusababisha upotevu wa taarifa, na uwezekano wa kudhoofisha usahihi wa mfumo. Hatari hii inakuwa dhahiri zaidi katika upana mdogo sana wa bit, ikihitaji utekelezaji makini na wakati mwingine mafunzo upya ili kupunguza kushuka kwa usahihi. Changamoto iko katika kupata mahali pazuri panapoongeza faida za ufanisi huku ukiweka uharibifu wa utendaji ndani ya mipaka inayokubalika.

Mkakati mwingine wa kawaida ni pruning. Mbinu hii inafanya kazi kwa kanuni kwamba vigezo vingi ndani ya mtandao mkubwa wa neural vinaweza kuwa vya ziada au kuchangia kidogo kwa matokeo ya mwisho. Algoriti za pruning hutambua na kuondoa miunganisho hii isiyo muhimu sana au neurons, na kusababisha mfumo mdogo, wenye sparsity zaidi. Kama quantization, pruning inapunguza mahitaji ya kumbukumbu na mzigo wa kikokotozi. Hata hivyo, kutambua kwa usahihi ni vigezo vipi vilivyo ‘salama’ kuondoa ni ngumu. Pruning kali inaweza kuondoa kwa bahati mbaya vipengele muhimu, na kusababisha upotevu mkubwa wa usahihi. Kurekebisha mfumo baada ya pruning mara nyingi ni muhimu ili kurejesha utendaji, na kuongeza utata kwenye mtiririko wa kazi. Urekebishaji makini ni muhimu ili kuhakikisha kuwa mfumo uliopunguzwa unabaki na ufanisi.

Njia tofauti zaidi ya usanifu ni mfumo wa Mixture-of-Experts (MoE). Badala ya kuchakata kila pembejeo kupitia mtandao mzima, mifumo ya MoE inajumuisha mitandao midogo mingi ya ‘wataalamu’ (kawaida FFNs). Kwa kila token ya pembejeo, mfumo wa gating huchagua kwa nguvu kikundi kidogo cha wataalamu hawa kufanya ukokotozi. Ukokotozi huu wa masharti unamaanisha kuwa sehemu ndogo tu ya jumla ya vigezo vya mfumo huwashwa kwa pembejeo yoyote ile, na kusababisha uokoaji mkubwa wa kikokotozi, hasa wakati wa mafunzo na inference kwenye mifumo mikubwa sana. Mifumo ya MoE inaweza kuongezeka hadi matrilioni ya vigezo huku ikidumisha gharama za kikokotozi zinazokubalika. Hata hivyo, ufanisi wao unategemea sana mzigo wa kazi. Wanafanya vizuri katika kushughulikia saizi kubwa sana za batch ambapo muundo wa uanzishaji wa kuchagua husababisha utumiaji mzuri wa vifaa. Katika saizi ndogo au za kati za batch, mifumo ya MoE inaweza kuteseka kutokana na utumiaji mdogo wa rasilimali za kikokotozi, kwani vifaa vya sambamba huenda visifanyishwe kazi kila wakati na wataalamu walioamilishwa kwa sparsity. Zaidi ya hayo, kutekeleza na kusawazisha mzigo wa mifumo ya MoE kunaweza kuwa ngumu zaidi kuliko kupeleka usanifu wa kawaida wa ‘dense’.

Wakati quantization, pruning, na mifumo ya MoE zinawakilisha maendeleo muhimu katika uboreshaji wa LLM, mapungufu yao ya asili yanaangazia hitaji la mikakati mbadala au inayosaidiana. Jitihada zinaendelea kutafuta mbinu zinazoweza kutoa maboresho mapana ya ufanisi katika hali mbalimbali, ikiwezekana na maelewano machache kwa usahihi au utata wa utekelezaji, hasa kwa usanifu wa mifumo ya dense ambayo inabaki maarufu kutokana na urahisi wao wa kiasi katika mafunzo na upelekaji.

FFN Fusion: Kufikiria Upya Usambamba katika Transformers

Katikati ya mazingira haya ya mbinu za uboreshaji, watafiti katika NVIDIA wameanzisha mbinu mpya ya kuvutia iitwayo FFN Fusion. Mbinu hii inakabiliana moja kwa moja na kikwazo cha mfuatano kilichopo katika usanifu wa transformer, si kwa kubadilisha vigezo au kuamsha sehemu kwa kuchagua, bali kwa kufikiria upya kimsingi jinsi mfuatano wa ukokotozi unavyoweza kufanywa sambamba. Ubunifu huo unatokana na uchunguzi muhimu kuhusu tabia ya tabaka za FFN ndani ya mifumo ya kina ya transformer.

Kwa kutumia zana ya uchunguzi iitwayo Puzzle, watafiti walichambua utendaji kazi wa ndani wa mifumo mikubwa. Walipoondoa kwa majaribio tabaka za attention, waligundua kuwa mifumo mara nyingi ilibaki na mfuatano mrefu wa kushangaza wa tabaka za FFN zinazofuatana. Muhimu zaidi, uchambuzi ulifunua kuwa ukokotozi uliofanywa na FFNs hizi zilizo karibu mara nyingi ulionyesha utegemezi mdogo kati yao. Kimsingi, matokeo ya FFN moja katika mfuatano mara nyingi hayakubadilisha sana njia ya mwelekeo au taarifa kuu inayohitajika na FFN inayofuata mara moja. Hii ilipendekeza kuwa FFNs hizi, ambazo kwa kawaida hutekelezwa moja baada ya nyingine, zinaweza kuwa na uwezo wa utekelezaji wa wakati mmoja, sambamba bila kuvuruga kwa kiasi kikubwa utendaji kazi wa jumla wa mfumo.

Ufahamu huu uliunda msingi wa FFN Fusion. Wazo kuu ni rahisi lakini lenye nguvu: tambua mfuatano wa tabaka za FFN zinazofuatana zenye utegemezi mdogo wa kikokotozi na uziunganishe kuwa tabaka moja, pana zaidi ya FFN ambayo hufanya ukokotozi sawa kwa sambamba. Badala ya mnyororo kama Input -> FFN1 -> FFN2 -> FFN3 -> Output, muundo ulioounganishwa unakuwa Input -> Fused_FFN (Sawa na FFN1+FFN2+FFN3 kwa sambamba) -> Output. Mabadiliko haya ya usanifu yanapunguza kwa ufanisi kina cha mfuatano wa mtandao, ikibadilisha hatua nyingi na hatua moja, pana zaidi ya kikokotozi. Kwa kulenga mfuatano huu wa FFN wenye utegemezi mdogo, FFN Fusion inalenga kupunguza latency na gharama za kikokotozi huku ikihifadhi nguvu ya uwakilishi na usahihi wa mfumo. Maendeleo ya Ultra-253B-Base kutoka Llama-3.1-405B-Instruct yalitumika kama onyesho kuu la uwezo wa mbinu hii.

Alchemia ya Usanifu: Jinsi FFN Fusion Inavyofanya Kazi

Uchawi nyuma ya FFN Fusion upo katika ujanja wake wa kudhibiti muundo wa msingi wa kihisabati wa mitandao ya feed-forward. Sio tu kuhusu kuendesha tabaka zilizopo kando kando; inahusisha kuunda tabaka jipya, lililounganishwa ambalo linaiga tabia ya pamoja ya mfuatano wa asili lakini hufanya hivyo kwa wakati mmoja.

Fikiria mfuatano wa tabaka k za FFN zinazofuatana. Katika transformer ya kawaida, pembejeo x hupita kupitia FFN1, matokeo yake yanakuwa pembejeo kwa FFN2, na kadhalika, hadi FFNk. Kila hatua inategemea wazi kukamilika kwa ile iliyotangulia. FFN Fusion inavunja mnyororo huu wa utegemezi. Kihisabati, FFN kwa kawaida inahusisha mabadiliko mawili ya linear na kazi ya uanzishaji isiyo ya linear (kama GeLU au SwiGLU) katikati: FFN(x) = W_out * Activation(W_in * x). FFN Fusion inatumia ukweli kwamba mabadiliko ya linear mara nyingi yanaweza kuunganishwa.

Mchakato wa fusion hufanya kazi kwa kuunganisha uzito wa tabaka za FFN za kibinafsi. Hasa, matrices ya uzito wa pembejeo (W_in) ya FFNs zinazofuatana huunganishwa (k.m., block-diagonally) kuwa matrix moja, kubwa zaidi ya uzito wa pembejeo kwa tabaka iliyounganishwa. Vile vile, matrices ya uzito wa matokeo (W_out) huunganishwa kuunda matrix moja, pana zaidi ya uzito wa matokeo. Kazi ya uanzishaji inatumika kwa kila kipengele ndani ya muundo huu mkubwa. Ujenzi huu unahakikisha kuwa FFN iliyounganishwa inafanya kazi kwenye pembejeo ya asili x kwa wakati mmoja kupitia njia sambamba zinazolingana na FFNs za asili. Matokeo kutoka kwa njia hizi sambamba kisha huunganishwa kwa njia isiyo dhahiri na muundo wa uzito wa matokeo uliounganishwa.

Msingi wa kinadharia unathibitisha kuwa muundo huu ulioounganishwa unaweza kudumisha uwezo sawa wa uwakilishi kama mfuatano wa asili wa FFNs, mradi tu utegemezi kati ya tabaka za asili ulikuwa mdogo kweli. Jambo kuu ni kutambua ni mfuatano upi unaofaa kwa fusion. Ili kufanya hivyo kwa utaratibu, watafiti wa NVIDIA walitumia mbinu ya uchambuzi wa utegemezi. Walipima umbali wa cosine kati ya hali fiche za matokeo za tabaka za FFN zinazofuatana kwa seti wakilishi ya tokens za pembejeo. Umbali mdogo wa cosine unaonyesha kuwa vekta ya matokeo ya FFN moja inaelekea katika mwelekeo unaofanana sana na vekta ya matokeo ya FFN inayofuata katika mfuatano. Ufanano huu unapendekeza utegemezi mdogo wa kiutendaji – FFN ya pili haibadilishi sana uwakilishi wa taarifa ulioanzishwa na ya kwanza. Mfuatano wa FFNs unaoonyesha umbali mdogo wa cosine mara kwa mara katika tabaka ulitambuliwa kama wagombea wakuu wa fusion, kwani kuunganisha kulikuwa na uwezekano mdogo wa kuvuruga uwakilishi uliojifunza wa mfumo na utendaji wa jumla. Njia hii inayoendeshwa na data inaruhusu matumizi yaliyolengwa ya FFN Fusion kwa sehemu za mfumo ambapo itakuwa na ufanisi zaidi na isiyo na usumbufu mdogo.

Kutoka Jitu hadi Mkimbiaji: Mabadiliko ya Ultra-253B-Base

Nguvu ya kivitendo ya FFN Fusion ilionyeshwa wazi kupitia matumizi yake kwa moja ya mifumo mikubwa inayojulikana hadharani wakati huo, Llama-3.1-405B-Instruct. Mfumo huu, wenye vigezo bilioni 405, uliwakilisha kazi kubwa ya kikokotozi kwa inference. Watafiti walianza mchakato wa uboreshaji wa usanifu, wakichanganya FFN Fusion na pruning ya kimkakati, ili kuunda mfumo mpya, wenye ufanisi zaidi uitwao Ultra-253B-Base.

Mchakato wa mabadiliko ulihusisha hatua kadhaa:

Uchambuzi: Kwa kutumia zana zao za uchambuzi wa utegemezi (kupima umbali wa cosine), watafiti walitambua mfuatano wa tabaka za FFN zinazofuatana ndani ya usanifu wa Llama-405B ambazo zilionyesha utegemezi mdogo kati ya tabaka.
Fusion: Mfuatano huu wa FFN uliotambuliwa kisha uliunganishwa kuwa tabaka moja, pana zaidi za FFN kama ilivyoelezwa hapo awali (kuunganisha uzito). Hii ilipunguza moja kwa moja idadi ya hatua za mfuatano katika mtandao.
Pruning: Wakati huo huo au baadaye, vigezo vilivyoonekana kuwa muhimu kidogo (labda vilitambuliwa kupitia mbinu za kawaida za pruning au kufahamishwa na mchakato wa fusion) viliondolewa kwenye mfumo.

Njia hii iliyojumuishwa ilisababisha Ultra-253B-Base, mfumo wenye vigezo bilioni 253. Hii inawakilisha upungufu mkubwa – zaidi ya 37% vigezo vichache kuliko mfumo wa asili wa 405B. Mabadiliko ya usanifu yaliyopatikana kupitia fusion yalikuwa muhimu katika kuwezesha upunguzaji mkubwa kama huo wa saizi huku ukilenga kuhifadhi utendaji. Lengo halikuwa tu mfumo mdogo, bali ule wa haraka zaidi na wenye matumizi madogo ya kikokotozi, shukrani kwa usambamba ulioongezeka uliofunguliwa na FFN Fusion. Uchunguzi huu wa kesi ulitumika kama uthibitisho muhimu wa dhana, ukionyesha kuwa mifumo mikubwa inaweza kurekebishwa kwa kiasi kikubwa kwa ufanisi.

Kupima Faida: Utendaji, Kasi, na Uokoaji wa Rasilimali

Jaribio la kweli la mbinu yoyote ya uboreshaji liko katika athari yake inayoweza kupimika. Kwa Ultra-253B-Base, matokeo yaliyotokana na kutumia FFN Fusion na pruning kwa msingi wa Llama-405B yalikuwa ya kuvutia, yakionyesha maboresho makubwa katika vipimo vingi bila maelewano makubwa katika uwezo.

Kasi ya Inference na Gharama: Faida kubwa zaidi zilionekana katika ufanisi wa inference. Ikilinganishwa na mfumo wa asili wa vigezo 405B, Ultra-253B-Base ilipata:

Uboreshaji wa 1.71x katika latency ya inference. Hii inamaanisha mfumo ungeweza kutoa majibu kwa haraka zaidi, muhimu kwa matumizi ya wakati halisi.
Upungufu wa 35x katika gharama ya kikokotozi kwa kila token ilipopimwa kwa saizi ya batch ya 32. Upungufu huu mkubwa wa shughuli za kikokotozi (FLOPs) kwa kila token unatafsiriwa moja kwa moja kuwa matumizi ya chini ya nishati na mahitaji yaliyopunguzwa ya vifaa vya kuendesha mfumo.

Vipimo vya Utendaji wa Mfumo: Muhimu zaidi, maboresho haya ya ufanisi hayakuja kwa gharama ya akili au uwezo wa mfumo. Ultra-253B-Base ilitathminiwa kwa ukali kwenye seti ya vipimo vya kawaida vya LLM, ikipata alama ambazo zilikuwa na ushindani mkubwa na, katika hali zingine zilizidi, mfumo wa asili, mkubwa zaidi:

MMLU (Massive Multitask Language Understanding): 85.17%
MMLU-Pro (Toleo lenye changamoto zaidi): 72.25%
Arena Hard (Tathmini ya upendeleo wa binadamu kwenye vidokezo vigumu): 84.92%
HumanEval (Uwezo wa kuzalisha msimbo): 86.58%
MT-Bench (Ubora wa mazungumzo ya zamu nyingi): 9.19

Alama hizi zinaonyesha kuwa mfumo ulioounganishwa na kupunguzwa ulihifadhi kiwango cha juu sana cha uelewa, hoja, uwezo wa kuandika msimbo, na ubora wa mazungumzo, ukilinganishwa na mtangulizi wake wa vigezo 405B licha ya kuwa na vigezo bilioni 253 tu.

Ufanisi wa Kumbukumbu: Zaidi ya kasi ya kikokotozi na gharama, FFN Fusion pia ilichangia katika uokoaji wa kumbukumbu. Mabadiliko ya usanifu, labda yakiunganishwa na uboreshaji mwingine uliowezeshwa na fusion, yalisababisha upungufu wa 2x katika saizi ya key-value (KV) cache inayohitajika wakati wa inference. KV cache huhifadhi uanzishaji wa kati (attention keys na values) na inaweza kutumia kumbukumbu kubwa ya GPU, hasa kwa mfuatano mrefu wa pembejeo. Kupunguza hitaji hili kwa nusu kunafanya iwezekane kuendesha mfumo kwenye vifaa visivyohitaji kumbukumbu nyingi au kuchakata muktadha mrefu ndani ya vikwazo sawa vya kumbukumbu.

Matokeo haya yanayoweza kupimika yanasisitiza ufanisi wa FFN Fusion. Iliruhusu kuundwa kwa mfumo ambao haukuwa mdogo tu bali kimsingi ulikuwa na ufanisi zaidi katika suala la kasi, shughuli za kikokotozi, na matumizi ya kumbukumbu, yote huku ukidumisha utendaji wa hali ya juu kwenye vipimo vyenye changamoto.

Kuhifadhi Maarifa: Jukumu Muhimu la Mafunzo na Urekebishaji Mzuri

Kubadilisha usanifu wa mfumo mkubwa wa lugha uliofunzwa awali kama Llama-405B kupitia mbinu kama FFN Fusion na pruning bila shaka huvuruga usawa dhaifu wa vigezo vyake vilivyojifunza. Ingawa usawa wa kihisabati unalenga kuhifadhi utendaji kazi ndani ya nchi, tabia ya kimataifa ya mtandao inaweza kubadilika. Ili kuhakikisha kuwa mfumo unaotokana wa Ultra-253B-Base haukuwa tu na ufanisi zaidi bali pia ulihifadhi kiwango chake cha juu cha utendaji, mchakato wa mafunzo ulioandaliwa kwa uangalifu baada ya mabadiliko ulikuwa muhimu.

Mchakato huu ulihusisha awamu kuu mbili:

Knowledge Distillation: Hatua ya kwanza ilikuwa kuhamisha maarifa kutoka kwa mfumo wa asili, mkubwa zaidi (au mfumo wa mwalimu unaofaa) kurudi kwenye usanifu uliobadilishwa. Hili lilifanikishwa kupitia distillation, ambapo mfumo wa Ultra-253B-Base ulifunzwa kuiga matokeo au uwakilishi wa ndani wa mfumo wa mwalimu. Awamu hii ilitumia hifadhidata kubwa, haswa tokens bilioni 54, zilizochakatwa na dirisha la muktadha la 8k. Distillation husaidia mfumo ulioounganishwa na kupunguzwa kurejesha nuances na uwezo ambao unaweza kuwa umevurugwa kidogo wakati wa mabadiliko ya usanifu.
Staged Fine-Tuning: Kufuatia distillation, mfumo ulipitia mfululizo wa hatua za fine-tuning zilizoundwa mahsusi kuuzoesha kushughulikia urefu wa muktadha unaoongezeka polepole. Hii ni muhimu kwa LLMs za kisasa, ambazo mara nyingi zinatarajiwa kuchakata na kuzalisha maandishi kulingana na pembejeo pana. Fine-tuning iliendelea kwa hatua:
- Fine-tuning kwenye dirisha la muktadha la 16k.
- Fine-tuning zaidi kwenye dirisha la muktadha la 32k.
- Hatua ya mwisho ya fine-tuning kwenye dirisha la muktadha la 128k.

Njia hii ya hatua kwa hatua inaruhusu mfumo kurekebisha polepole vigezo vyake, ikiwa ni pamoja na tabaka mpya za FFN zilizounganishwa na mifumo iliyoboreshwa ya KV cache, ili kusimamia kwa ufanisi utegemezi na mtiririko wa taarifa juu ya mfuatano mrefu sana. Kila hatua hujengwa juu ya ile iliyotangulia, kuhakikisha utulivu na utendaji thabiti katika saizi tofauti za muktadha.

Mpango huu wa mafunzo wa kina, unaochanganya distillation ya kiwango kikubwa na fine-tuning ya hatua kwa hatua, ya muktadha mrefu, ulikuwa muhimu katika kuziba pengo kati ya ufanisi wa usanifu na utendaji wa hali ya juu. Ilihakikisha kuwa faida za kasi, gharama, na kumbukumbu zilizotolewa na FFN Fusion hazikuathiri usahihi na uwezo wa mfumo kwenye vipimo vinavyohitaji sana.

Upeo Mpana: Uwezo wa Kujumlisha na Mwelekeo wa Baadaye

Mabadiliko yenye mafanikio ya Llama-405B kuwa Ultra-253B-Base yanatoa ushahidi thabiti wa uwezo wa FFN Fusion, lakini thamani yake halisi iko katika utumiaji wake mpana zaidi na ufahamu inaotoa kwa muundo wa LLM wa siku zijazo. Utafiti ulionyesha kuwa hii haikuwa tu hila ya mara moja inayotumika tu kwa mifumo mikubwa sana.

Uthibitishaji Katika Mizani Mbalimbali: Watafiti wa NVIDIA walijaribu wazi mbinu ya FFN Fusion kwenye mifumo ya ukubwa tofauti. Walifanikiwa kutumia mbinu hiyo kwa mifumo ya vigezo 70B, wakipata faida sawa za ufanisi ikilinganishwa na wenzao wa asili. Pia waliripoti uthibitishaji kwenye kiwango cha 49B, wakisisitiza zaidi wazo kwamba uhuru wa FFN na uwezekano wa fusion sio sifa za kipekee za mifumo mikubwa zaidi lakini inaweza kuwa mali ya jumla zaidi ya usanifu wa transformer, ikiwezekana kuwa dhahiri zaidi katika mizani mikubwa ambapo mfuatano wa kina wa FFN hutokea kiasili. Hii inapendekeza FFN Fusion inaweza kuwa zana ya kawaida katika ghala la uboreshaji la LLM, inayotumika katika anuwai ya saizi za mifumo.

FFN dhidi ya Fusion ya Block Kamili: Utafiti pia uliangazia jukumu maalum la tabaka za FFN ikilinganishwa na tabaka za attention ndani ya block ya transformer. Wakati tabaka za FFN zinazofuatana mara nyingi zilionyesha utegemezi mdogo, na kuzifanya kuwa bora kwa fusion, majaribio ya kufanya sambamba blocks nzima za transformer (pamoja na tabaka za attention na FFN) yalithibitika kuwa na changamoto zaidi. Uchambuzi ulionyesha utegemezi mkubwa zaidi unaohusisha mifumo ya attention. Kuunganisha blocks nzima kwa wakati mmoja kulisababisha uharibifu mkubwa zaidi wa utendaji, ikipendekeza kuwa tabaka za attention zina jukumu muhimu zaidi, linalotegemea mfuatano katika kuunganisha taarifa kwenye tokens. Ugunduzi huu husaidia kuainisha mipaka ya usambamba unaofaa – mfuatano wa FFN ni ardhi yenye rutuba, wakati mifumo ya attention inaweza kuhitaji mikakati tofauti ya uboreshaji.

Athari kwa Usanifu wa LLM: FFN Fusion inatoa zaidi ya mbinu tu ya uboreshaji baada ya ukweli; inatoa ufahamu muhimu kwa kubuni LLMs za baadaye. Ugunduzi kwamba mfuatano wa FFNs mara nyingi unaweza kuchukuliwa kama vitengo vinavyoweza kufanywa sambamba unapinga dhana kali ya mfuatano ambayo mara nyingi huunga mkono muundo wa transformer. Hii inaweza kuhamasisha usanifu mpya ambao kwa asili una urafiki zaidi na usambamba tangu mwanzo. Mifumo ya baadaye inaweza kubuniwa na miundo ya FFN iliyokusudiwa wazi kwa fusion au utekelezaji sambamba, ikiwezekana kusababisha muundo-shirikishi wa vifaa-programu ambapo usanifu wa GPU unaboreshwa zaidi ili kutumia aina hii ya usambamba. Njia ya kimfumo inayotumia umbali wa cosine kupima utegemezi kati ya tabaka pia hutoa zana muhimu ya uchambuzi kwa kuelewa na kubuni upya miundo ya mtandao wa neural. Kwa kuonyesha kuwa faida kubwa za ufanisi zinawezekana kupitia urekebishaji makini wa usanifu unaolenga kufanya sambamba vipengele vilivyopo, FFN Fusion inafungua njia

iliyosasishwa mnamo 2025-03-30

# AIGC # Llama # Nvidia