Teknolojia ya AI inavyozidi kukua kwa kasi, kama inavyoonekana kwa maendeleo ya DeepSeek, inahitaji tufikirie upya jinsi tunavyounda vituo vya data, chipsi, na mifumo ili kutoa nguvu ya kompyuta inayohitajika. Ubunifu wa uhandisi wa DeepSeek umepunguza gharama za kompyuta za AI kwa kiasi kikubwa, na kuchochea mjadala mpana kuhusu mustakabali wa miundombinu ya AI.
Ingawa DeepSeek huenda haijaongeza mipaka ya teknolojia ya AI kwa kiasi kikubwa, ushawishi wake kwenye soko la AI ni mkubwa. Teknolojia kama vile Mixture of Experts (MoE), Multi-Layer Attention (MLA), na Multi-Token Prediction (MTP) zimepata umaarufu pamoja na DeepSeek. Ingawa si teknolojia zote hizi zilianzishwa na DeepSeek, utekelezaji wake uliofanikiwa umechochea matumizi makubwa. MLA, haswa, imekuwa kitovu cha majadiliano katika majukwaa mbalimbali, kutoka kwa vifaa vya pembeni hadi kompyuta ya wingu.
MLA na Changamoto ya Ubunifu wa Algorithm
Elad Raz, Mkurugenzi Mkuu wa NextSilicon, hivi majuzi alieleza kuwa ingawa MLA inaboresha ufanisi wa kumbukumbu, inaweza pia kuongeza mzigo wa kazi kwa wasanidi programu na kuleta ugumu katika utumiaji wa AI katika mazingira ya uzalishaji. Watumiaji wa GPU wanaweza kuhitaji kushiriki katika uboreshaji wa ‘hand-code’ kwa MLA. Mfano huu unaangazia hitaji la kufikiria upya utekelezaji wa chipsi za AI na usanifu wa miundombinu katika enzi ya baada ya DeepSeek.
Ili kuelewa umuhimu wa MLA, ni muhimu kuelewa dhana za msingi za Large Language Models (LLMs). Wakati wa kutoa majibu kwa maingizo ya mtumiaji, LLMs hutegemea sana vekta za KV – funguo na thamani – ambazo zinawezesha modeli kuzingatia data muhimu. Katika mifumo ya umakini, modeli inalinganisha maombi mapya na funguo ili kubaini maudhui muhimu zaidi.
Elad Raz anatumia mfano wa kitabu, ufunguo ukiwa kama ‘vichwa vya sura vya kitabu, vinavyoonyesha kila sehemu inahusu nini, huku thamani ikiwa muhtasari wa kina zaidi chini ya vichwa hivyo. Kwa hivyo mtumiaji anapoingiza ombi, anauliza neno la utafutaji ili kusaidia kutoa jibu. Anauliza, ‘Chini ya hadithi hii, ni sura gani muhimu zaidi?’’
MLA inakandamiza vichwa hivi vya sura (funguo) na muhtasari (thamani), ikiharakisha mchakato wa kupata majibu na kuongeza ufanisi. Hatimaye, MLA husaidia DeepSeek kupunguza matumizi ya kumbukumbu kwa 5-13%. Habari zaidi za kina zinaweza kupatikana katika karatasi rasmi ya DeepSeek. Kongamano la wasanidi programu la MediaTek hata lilijadili msaada kwa MLA katika chipsi zao za rununu za Dimensity, ikisisitiza ushawishi mkubwa wa DeepSeek.
Teknolojia kama MLA zinawakilisha ubunifu wa kawaida wa algoriti katika enzi ya AI. Walakini, kasi ya haraka ya ukuzaji wa teknolojia ya AI inasababisha mkondo wa mara kwa mara wa ubunifu, ambao kwa upande wake huleta changamoto mpya, haswa wakati ubunifu huu umeundwa kwa majukwaa maalum. Katika kesi ya MLA, watumiaji wasio wa NVIDIA GPU wanahitaji usimbaji wa ziada wa mikono ili kutumia teknolojia hiyo.
Wakati teknolojia za DeepSeek zinaonyesha ubunifu na thamani ya enzi ya AI, vifaa na programu lazima zibadilike kulingana na ubunifu huu. Kulingana na Elad Raz, urekebishaji kama huo unapaswa kupunguza utata kwa wasanidi programu na mazingira ya uzalishaji. Vinginevyo, gharama ya kila ubunifu inakuwa kubwa sana.
Swali basi linakuwa: ‘Nini kitatokea ikiwa ubunifu wa algoriti unaofuata hautafsiri vizuri na kwa urahisi kwa usanifu uliopo?’
Mzozo Kati ya Usanifu wa Chip na Ubunifu wa Algorithm
Katika miaka michache iliyopita, watengenezaji wa chipsi za AI wameripoti mara kwa mara kuwa kubuni chipsi kubwa za AI inachukua angalau miaka 1-2. Hii inamaanisha kuwa muundo wa chip lazima uanze mapema kabla ya kutolewa kwa chip sokoni. Kwa kuzingatia maendeleo ya haraka katika teknolojia ya AI, muundo wa chip ya AI lazima uwe wa kuangalia mbele. Kuzingatia tu mahitaji ya sasa kutasababisha chipsi za AI zilizopitwa na wakati ambazo haziwezi kuzoea ubunifu wa hivi karibuni wa programu.
Ubunifu wa algorithm ya matumizi ya AI sasa hufanyika kila wiki. Kama ilivyotajwa katika nakala zilizopita, nguvu ya kompyuta inayohitajika kwa modeli za AI kufikia uwezo sawa hupungua kwa mara 4-10 kila mwaka. Gharama ya inference ya modeli za AI zinazopata ubora sawa na GPT-3 imepungua kwa mara 1200 katika miaka mitatu iliyopita. Hivi sasa, modeli zilizo na vigezo vya 2B zinaweza kufikia kiwango sawa na kigezo cha 170B GPT-3 cha zamani. Ubunifu huu wa haraka katika tabaka za juu za mkusanyiko wa teknolojia ya AI unaleta changamoto kubwa kwa upangaji na muundo wa usanifu wa chip ya jadi.
Elad Raz anaamini kuwa tasnia inahitaji kutambua ubunifu kama DeepSeek MLA kama kawaida kwa teknolojia ya AI. ‘Kompyuta ya kizazi kijacho inahitaji sio tu kuboresha kwa ajili ya mizigo ya kazi ya leo lakini pia kushughulikia mafanikio ya siku zijazo.’ Mtazamo huu hauhusu tu tasnia ya chip lakini kwa miundombinu yote ya kati hadi ya chini ya mkusanyiko wa teknolojia ya AI.
‘DeepSeek na ubunifu mwingine umeonyesha maendeleo ya haraka ya ubunifu wa algoriti,’ alisema Elad Raz. ‘Watafiti na wanasayansi wa data wanahitaji zana nyingi, zinazostahimili ili kuendesha maarifa na uvumbuzi mpya. Soko linahitaji majukwaa ya akili, yanayofafanuliwa na programu ambayo yanaruhusu wateja ‘kuacha-ndani kuchukua nafasi’ suluhisho zilizopo za accelerator, huku zikiwawezesha wasanidi programu kuhamisha kazi yao bila maumivu.’
Ili kukabiliana na hali hii, tasnia lazima iunde miundombinu ya kompyuta yenye akili zaidi, inayoweza kubadilika na inayoweza kunyumbulika.
Unyumbufu na ufanisi mara nyingi ni malengo yanayokinzana. CPU zina unyumbufu mwingi lakini zina ufanisi mdogo sana wa kompyuta sambamba kuliko GPU. GPU, pamoja na uwezo wao wa kupangwa, zinaweza kuwa na ufanisi mdogo kuliko chipsi za AI ASIC zilizojitolea.
Elad Raz alibainisha kuwa NVIDIA inatarajia racks za kituo cha data cha AI kufikia 600kW ya matumizi ya nguvu hivi karibuni. Kwa muktadha, 75% ya vituo vya data vya biashara vya kawaida vina matumizi ya kilele cha nguvu cha 15-20kW tu kwa kila rack. Bila kujali uwezekano wa kupata ufanisi katika AI, hii inaleta changamoto kubwa kwa vituo vya data vinavyojenga mifumo ya miundombinu ya kompyuta.
Kwa maoni ya Elad Raz, GPU za sasa na accelerators za AI zinaweza kuwa hazitoshi kukidhi mahitaji yanayowezekana ya AI na High-Performance Computing (HPC). ‘Ikiwa hatufikirii upya kimsingi jinsi tunavyoboresha ufanisi wa kompyuta, tasnia iko hatarini ya kufikia mipaka ya kimwili na kiuchumi. Ukuta huu pia utakuwa na athari za upande, ukizuia ufikiaji wa AI na HPC kwa mashirika mengi zaidi, na kuzuia uvumbuzi hata kwa maendeleo katika algorithms au usanifu wa jadi wa GPU.’
Mapendekezo na Mahitaji ya Miundombinu ya Kompyuta ya Kizazi Kijacho
Kulingana na uchunguzi huu, Elad Raz alipendekeza ‘nguzo nne’ za kufafanua miundombinu ya kompyuta ya kizazi kijacho:
(1) Ubadilishaji wa Plug-and-Play: ‘Historia imeonyesha kuwa mabadiliko magumu ya usanifu, kama vile uhamiaji kutoka CPU hadi GPU, yanaweza kuchukua miongo kadhaa kutekelezwa kikamilifu. Kwa hivyo, usanifu wa kompyuta wa kizazi kijacho unapaswa kusaidia uhamiaji laini.’ Kwa ubadilishaji wa ‘plug-and-play’, Elad Raz anapendekeza kwamba usanifu mpya wa kompyuta unapaswa kujifunza kutoka kwa mifumo ya ikolojia ya x86 na Arm, kufikia kupitishwa zaidi kupitia uoanifu wa nyuma.
Miundo ya kisasa pia inapaswa kuepuka kuwataka wasanidi programu kuandika upya kiasi kikubwa cha msimbo au kuunda utegemezi kwa wachuuzi maalum. ‘Kwa mfano, msaada kwa teknolojia zinazoibuka kama MLA unapaswa kuwa sanifu, badala ya kuhitaji marekebisho ya ziada ya mikono kama ilivyo kwa GPU zisizo za NVIDIA. Mifumo ya kizazi kijacho inapaswa kuelewa na kuboresha mizigo mipya ya kazi nje ya boksi, bila kuhitaji marekebisho ya msimbo wa mwongozo au marekebisho makubwa ya API.’
(2) Uboreshaji wa Utendaji Unaoweza Kubadilika, wa Wakati Halisi: Elad Raz anaamini kuwa tasnia inapaswa kuachana na accelerators za kazi zisizobadilika. ‘Tasnia inahitaji kujenga juu ya misingi ya akili, inayofafanuliwa na programu ambayo inaweza kujiboresha kiotomatiki wakati wa utekelezaji.’
‘Kwa kujifunza kila mara kutoka kwa mizigo ya kazi, mifumo ya siku zijazo inaweza kujirekebisha katika wakati halisi, na kuongeza matumizi na utendaji endelevu, bila kujali mzigo maalum wa kazi wa programu. Ubadilikaji huu unaobadilika unamaanisha kuwa miundombinu inaweza kutoa ufanisi thabiti katika hali halisi za ulimwengu, iwe inaendesha uigaji wa HPC, modeli ngumu za AI, au operesheni za hifadhidata ya vekta.’
(3) Ufanisi Unaoweza Kuongezeka: ‘Kwa kuondoa vifaa na programu na kuzingatia uboreshaji wa akili wa wakati halisi, mifumo ya siku zijazo inapaswa kufikia matumizi ya juu na kupunguza matumizi ya jumla ya nishati. Hii ingefanya miundombinu iwe na gharama nafuu na iweze kupanuka ili kukidhi mahitaji yanayoendelea ya mizigo mipya ya kazi.’
(4) Muundo wa Siku za Usioni: Pointi hii inalingana na mahitaji ya kuangalia mbele kwa miundombinu ya AI, haswa muundo wa chip. ‘Algorithms za leo za hali ya juu zinaweza kuwa zimepitwa na wakati kesho.’ ‘Iwe ni mitandao ya neva ya AI au modeli za LLM za msingi wa Transformer, miundombinu ya kompyuta ya kizazi kijacho inahitaji kubadilika, kuhakikisha kuwa uwekezaji wa teknolojia wa biashara unadumu kwa miaka ijayo.’
Mapendekezo haya yanatoa mtazamo uliorahisishwa lakini unaochochea mawazo. Mbinu hii ya mwongozo inapaswa kuzingatiwa kwa ajili ya maendeleo ya baadaye ya teknolojia za AI na HPC, hata kama utata fulani wa asili unabaki kuwa masuala ya muda mrefu katika tasnia. ‘Ili kutoa uwezo wa AI, HPC, na mizigo mingine ya kazi ya kompyuta na data ya siku zijazo, lazima tufikirie upya miundombinu na tukumbatie suluhisho zinazobadilika na zenye akili ili kusaidia uvumbuzi na waanzilishi.’