Uendelezaji usiokoma wa AI umeonyesha mara kwa mara kuwa model kubwa huwa na akili zaidi, lakini mahitaji yao ya uendeshaji pia yanaongezeka. Hii inaleta changamoto kubwa, haswa katika mikoa yenye ufikiaji mdogo wa chipsi za hali ya juu za AI. Hata hivyo, bila kujali vikwazo vya kijiografia, kuna mwelekeo unaokua miongoni mwa watengenezaji wa model wa kukumbatia usanifu wa Mixture of Experts (MoE) pamoja na mbinu za ubunifu za kubana. Lengo? Kupunguza kwa kiasi kikubwa rasilimali za kompyuta zinazohitajika kupeleka na kuendesha model hizi kubwa za Lugha (LLMs). Tunapokaribia kumbukumbu ya tatu ya mlipuko wa AI generati uliowashwa na ChatGPT, tasnia hatimaye inaanza kuzingatia kwa uzito athari za kiuchumi za kuweka model hizi zenye njaa ya nguvu.
Wakati model za MoE, kama zile kutoka Mistral AI, zimekuwepo kwa muda, mafanikio yao ya kweli yametokea katika mwaka uliopita. Tumeshuhudia kuongezeka kwa LLMs mpya za chanzo huria kutoka kwa makampuni makubwa ya teknolojia kama Microsoft, Google, IBM, Meta, DeepSeek, na Alibaba, zote zikitumia aina fulani ya usanifu wa MoE. Mvuto ni rahisi: usanifu wa MoE hutoa mbadala bora zaidi kuliko usanifu wa model wa "dense" wa jadi.
Kushinda Upungufu wa Kumbukumbu
Msingi wa usanifu wa MoE ulianza mwanzoni mwa miaka ya 1990, na uchapishaji wa "Adaptive Mixtures of Local Experts." Wazo kuu linahusu kusambaza kazi kwa sub-model moja au zaidi maalum au "wataalam," badala ya kutegemea model moja, kubwa iliyo fundishwa kwenye wigo mpana wa data.
Kimsingi, kila mtaalam anaweza kuboreshwa kwa uangalifu kwa kikoa maalum, kutoka kwa kuweka msimbo na hesabu hadi uandishi wa ubunifu. Hata hivyo, ni muhimu kuzingatia kwamba watengenezaji wengi wa model hutoa maelezo machache kuhusu wataalam maalum ndani ya model zao za MoE, na idadi ya wataalam inatofautiana kutoka model hadi model. Muhimu, sehemu ndogo tu ya model yote inahusika kikamilifu wakati wowote uliotolewa.
Fikiria model ya DeepSeek V3, ambayo inajumuisha wataalam 256 waliowasilishwa pamoja na mtaalam mmoja aliyeshirikiwa. Wakati wa usindikaji wa tokeni, wataalam wanane tu waliowasilishwa, pamoja na yule aliyeshirikiwa, huwashwa. Uamilishaji huu wa kuchagua unamaanisha kuwa model za MoE huenda zisipate kiwango sawa cha ubora kama model za dense zenye ukubwa sawa. Model ya Alibaba ya Qwen3-30B-A3B MoE, kwa mfano, ilifanya vibaya mara kwa mara kuliko model ya dense ya Qwen3-32B katika vipimo vya kigezo vya Alibaba.
Hata hivyo, ni muhimu kuweka muktadha wa kushuka huku kidogo kwa ubora dhidi ya faida kubwa za ufanisi zinazotolewa na usanifu wa MoE. Kupungua kwa vigezo vinavyotumika husababisha mahitaji ya bandwidth ya kumbukumbu ambayo hayalingani tena moja kwa moja na uwezo unaohitajika kuhifadhi uzani wa model. Kimsingi, wakati model za MoE zinaweza bado kuhitaji kumbukumbu kubwa, hazihitaji kuwa za haraka sana na kumbukumbu ya Bandwidth ya Juu (HBM) ya gharama kubwa.
Hebu tuonyeshe hili kwa kulinganisha. Fikiria model kubwa zaidi ya "dense" ya Meta, Llama 3.1 405B, na Llama 4 Maverick, model inayolinganishwa ambayo inatumia usanifu wa MoE na vigezo bilioni 17 vinavyotumika. Wakati mambo mengi, kama vile ukubwa wa kundi, utendaji wa nambari inayoelea, na akiba muhimu, huchangia utendaji wa ulimwengu halisi, tunaweza kukadiria mahitaji ya chini ya bandwidth kwa kuzidisha ukubwa wa model katika gigabaiti kwa usahihi uliopewa (byte 1 kwa kila parameter kwa model za biti 8) na tokeni lengwa kwa sekunde kwa ukubwa wa kundi moja.
Kuendesha toleo lililoainishwa la biti 8 la Llama 3.1 405B kungehitaji zaidi ya 405 GB ya vRAM na angalau 20 TB/s ya bandwidth ya kumbukumbu ili kutoa maandishi kwa tokeni 50 kwa sekunde. Mifumo ya Nvidia ya HGX H100, ambayo hadi hivi karibuni iliamuru bei ya $300,000 au zaidi, ilitoa tu 640 GB ya HBM3 na takriban 26.8 TB/s ya bandwidth ya jumla. Kuendesha model kamili ya biti 16 kungehitaji angalau mifumo miwili kati ya hii.
Kinyume chake, Llama 4 Maverick, huku ikitumia kiasi sawa cha kumbukumbu, inahitaji chini ya 1 TB/s ya bandwidth ili kufikia utendaji unaolinganishwa. Hii ni kwa sababu ni vigezo bilioni 17 tu vya wataalam wa model vinavyoshiriki kikamilifu katika kutoa matokeo. Hii inatafsiriwa kwa ongezeko la mpangilio wa ukubwa katika kasi ya utengenezaji wa maandishi kwenye maunzi sawa.
Kinyume chake, ikiwa utendaji wa hali ya juu sio wasiwasi wa msingi, model nyingi kati ya hizi sasa zinaweza kuendeshwa kwenye kumbukumbu ya GDDR6, GDDR7, au hata DDR ya bei rahisi, ingawa ni polepole, kama inavyoonekana katika Xeons za hivi karibuni za Intel.
Seva mpya za RTX Pro za Nvidia, zilizotangazwa huko Computex, zimeundwa kwa hali hii. Badala ya kutegemea HBM ya gharama kubwa na yenye njaa ya nguvu ambayo inahitaji ufungaji wa hali ya juu, kila moja ya GPUs nane za RTX Pro 6000 katika mifumo hii ina vifaa vya 96 GB ya kumbukumbu ya GDDR7, aina sawa inayopatikana katika kadi za kisasa za michezo ya kubahatisha.
Mifumo hii hutoa hadi 768 GB ya vRAM na 12.8 TB/s ya bandwidth ya jumla, zaidi ya kutosha kuendesha Llama 4 Maverick kwa mamia ya tokeni kwa sekunde. Wakati Nvidia haijaweka wazi bei, toleo la kituo cha kazi la kadi hizi huuzwa kwa karibu $8,500, ikionyesha kuwa seva hizi zinaweza kugharimu chini ya nusu ya gharama ya HGX H100 iliyotumika.
Hata hivyo, MoE haimaanishi mwisho wa GPUs zilizowekwa na HBM. Tarajia Llama 4 Behemoth, ukidhani kuwa itawahi kusafirishwa, kuhitaji rack kamili ya GPUs kwa sababu ya ukubwa wake mkubwa.
Wakati ina takriban nusu ya vigezo vinavyotumika kama Llama 3.1 405B, inajivunia jumla ya vigezo trilioni 2. Hivi sasa, hakuna seva moja ya kawaida ya GPU kwenye soko ambayo inaweza kubeba model kamili ya biti 16 na dirisha la muktadha la tokeni milioni moja au zaidi.
Uamsho wa CPU katika AI?
Kulingana na programu maalum, GPU inaweza isiwe muhimu kila wakati, haswa katika mikoa ambayo ufikiaji wa vipimo vya kasi vya hali ya juu umezuiwa.
Intel ilionyesha jukwaa la tundu mbili la Xeon 6 lililo na MCRDIMMs 8800 MT/s mnamo Aprili. Usanidi huu ulifikia upitishaji wa tokeni 240 kwa sekunde katika Llama 4 Maverick, na wastani wa ucheleweshaji wa pato la chini ya 100 ms kwa kila tokeni.
Kwa maneno rahisi, jukwaa la Xeon linaweza kuendeleza tokeni 10 kwa sekunde au zaidi kwa kila mtumiaji kwa takriban watumiaji 24 sawia.
Intel haikufichua takwimu za utendaji wa mtumiaji mmoja, kwani hazifai sana katika hali halisi. Hata hivyo, makadirio yanaonyesha utendaji wa kilele wa karibu tokeni 100 kwa sekunde.
Hata hivyo, isipokuwa hakuna njia mbadala bora au mahitaji maalum, uchumi wa inference inayotegemea CPU bado inategemea sana kesi ya matumizi.
Kupunguza Uzito: Kupogoa na Kuantisha
Usanifu wa MoE unaweza kupunguza bandwidth ya kumbukumbu muhimu kwa kuhudumia model kubwa, lakini haipunguzi kiasi cha kumbukumbu kinachohitajika kuhifadhi uzani wao. Hata kwa usahihi wa biti 8, Llama 4 Maverick inahitaji zaidi ya 400 GB ya kumbukumbu ili kuendeshwa, bila kujali idadi ya vigezo vinavyotumika.
Mbinu zinazojitokeza za upogoaji na mbinu za kuainisha zinaweza kupunguza mahitaji hayo bila kutoa ubora.
Nvidia imekuwa mtetezi wa upogoaji, ikitoa matoleo yaliyopogolewa ya model za Meta za Llama 3 ambazo zimeondoa uzani mwingi.
Nvidia pia ilikuwa kati ya kampuni za kwanza kusaidia aina za data za nambari inayoelea ya biti 8 mnamo 2022, na tena na nambari inayoelea ya biti 4 na uzinduzi wa usanifu wake wa Blackwell mnamo 2024. Chipsi za kwanza za AMD kutoa msaada asilia wa FP4 zinatarajiwa kutolewa hivi karibuni.
Wakati sio muhimu kabisa, msaada wa asili wa maunzi kwa aina hizi za data kwa ujumla hupunguza uwezekano wa kukutana na vikwazo vya hesabu, haswa wakati wa kuhudumia kwa kiwango.
Tumeshuhudia idadi inayoongezeka ya watengenezaji wa model wakikumbatia aina za data za usahihi wa chini, na Meta, Microsoft, na Alibaba wakitoa matoleo ya biti nane na hata biti nne yaliyoainishwa ya model zao.
Uainishaji unajumuisha kubana uzani wa model kutoka kwa usahihi wao asili, kawaida BF16, hadi FP8 au INT4. Hii hupunguza kwa ufanisi bandwidth ya kumbukumbu na mahitaji ya uwezo wa model kwa nusu au hata robo tatu, kwa gharama ya ubora fulani.
Hasara zinazohusiana na mpito kutoka biti 16 hadi biti nane mara nyingi hazina maana, na wajenzi kadhaa wa model, pamoja na DeepSeek, wameanza kufundisha kwa usahihi wa FP8 tangu mwanzo. Hata hivyo, kupunguza usahihi kwa biti nyingine nne kunaweza kusababisha uharibifu mkubwa wa ubora. Kwa hivyo, mbinu nyingi za kuainisha baada ya mafunzo, kama vile GGUF, hazibani uzani wote sawa, na kuacha zingine katika viwango vya juu vya usahihi ili kupunguza upotezaji wa ubora.
Hivi karibuni Google ilionyesha matumizi ya mafunzo ya ufahamu wa kuainisha (QAT) ili kupunguza model zake za Gemma 3 kwa sababu ya 4x huku ikidumisha viwango vya ubora karibu na BF16 asilia.
QAT huiga shughuli za usahihi wa chini wakati wa mafunzo. Kwa kutumia mbinu hii kwa takriban hatua 5,000 kwenye model isiyo na sifa, Google iliweza kupunguza kushuka kwa mshangao, metriki ya kupima hasara zinazohusiana na kuainisha, kwa asilimia 54 ilipobadilishwa kuwa INT4.
Mbinu nyingine ya msingi wa QAT ya kuainisha, inayojulikana kama Bitnet, inalenga viwango vya chini zaidi vya usahihi, ikibana model hadi biti 1.58 tu, au takriban theluthi moja ya ukubwa wao wa asili.
Mchanganyiko wa Teknolojia
Mchanganyiko wa MoE na kuainisha biti 4 hutoa faida kubwa, haswa wakati bandwidth imepunguzwa.
Kwa wengine ambao hawana vikwazo vya bandwidth, hata hivyo, mojawapo ya teknolojia hizo mbili, iwe MoE, au kuainisha, inaweza kupunguza kwa kiasi kikubwa gharama ya vifaa na uendeshaji kwa kuendesha model kubwa na zenye nguvu zaidi; hii inadhani kuwa huduma muhimu inaweza kupatikana kwao kufanya.
Na ikiwa sivyo, unaweza kufarijika angalau kwamba hauko peke yako–utafiti wa hivi karibuni wa IBM uligundua kuwa ni moja tu kati ya upelekaji wa AI nne ambao umeleta faida ya uwekezaji iliyoahidiwa.