Mkakati wa Vifaa: Kuongeza Ukubwa na Ufanisi
Nvidia inawekeza sana katika kuimarisha GPUs zake ili kukidhi mahitaji ya akili bandia inayotumia mawakala. Mkakati wao unajumuisha kuongeza uwezo wa GPUs moja moja (vertical scaling) na kuunganisha GPUs nyingi pamoja (horizontal scaling). Lengo sio tu kuwa na kompyuta kubwa ya akili bandia, bali pia kuwa na mfumo mzima wa kompyuta zilizounganishwa ambazo zinafanya kazi kama ‘kiwanda’ cha akili bandia. Hii itatoa nguvu ya kompyuta inayohitajika kwa kazi ngumu zaidi za akili bandia.
Kompyuta mpya ya Blackwell Ultra, iliyoonyeshwa kwenye mkutano wa GTC, ni mfano mzuri wa mkakati huu. Imeundwa ili kuharakisha mafunzo na ‘inference’, Blackwell Ultra inatumia usanifu wa Blackwell lakini ina GB300 NVL72 yenye nguvu zaidi. Mfumo huu una GPUs 72 za Blackwell Ultra zilizounganishwa kupitia NVLink, zikitoa nguvu ya kompyuta ya FP4 ya Exaflops 1.1. GB300 NVL72 inajivunia utendaji wa AI mara 1.5 zaidi ya GB200 NVL72. Mfumo mmoja wa DGS GB300 hutoa Exaflops 15 za kompyuta. Inatarajiwa kutolewa katika nusu ya pili ya 2025, Blackwell Ultra itasaidiwa na wauzaji mbalimbali wa vifaa vya seva, ikiwa ni pamoja na Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron, na Quanta. Zaidi ya hayo, watoa huduma za wingu kama AWS, GCP, na Azure watatoa huduma za kompyuta kulingana na Blackwell Ultra.
Zaidi ya mifumo hii mikubwa ya kiwanda cha AI, Nvidia pia imeanzisha kompyuta mpya zinazolenga mahitaji ya ‘inference’ ndani ya makampuni. Hizi ni pamoja na kompyuta za kibinafsi za DGX Spark na DGX Station. DGX Spark, ambayo ni ndogo kama Mac mini, hutoa hadi 1 PFlops ya nguvu ya kompyuta.
Ili kuelewa hili, supercomputer ya Taiwania 3, iliyozinduliwa mwaka 2021 na cores zaidi ya 50,000, hutoa tu PFlops 2.7 za utendaji. Katika miaka minne tu, nguvu ya kompyuta ya kompyuta tatu za kibinafsi za ukubwa wa dawati imezidi ile ya Taiwania 3. Zikiwa na bei ya $3,999 (takriban NT$130,000) kwa usanidi wa kumbukumbu ya 128GB, kompyuta hizi mpya za kibinafsi za AI zimeundwa ili kuimarisha mahitaji ya ndani ya AI ndani ya makampuni, zikifanya kazi kama viwanda vidogo vya AI au hata kufanya kazi katika mazingira ya AI ya pembeni.
Ramani ya Baadaye: Vera Rubin na Zaidi
Akiongea kuhusu mustakabali, Mkurugenzi Mkuu wa Nvidia, Jensen Huang, ameeleza ramani ya bidhaa kwa miaka miwili ijayo. Katika nusu ya pili ya 2026, kampuni inapanga kutolewa Vera Rubin NVL144, iliyopewa jina la mwanaastronomia wa Marekani aliyegundua dark matter. Vera Rubin NVL144 itatoa mara 3.3 ya utendaji wa GB300 NVL72, na uwezo wa kumbukumbu, bandwidth, na kasi za NVLink zitaongezeka kwa zaidi ya mara 1.6. Katika nusu ya pili ya 2027, Nvidia itazindua Rubin Ultra NVL576, ambayo itatoa mara 14 ya utendaji wa GB300 NVL72, na uwezo wa kumbukumbu ulioimarishwa sana na kasi za bandwidth kupitia NVLink7 na CX9.
Baada ya usanifu wa Vera Rubin, usanifu wa kizazi kijacho wa Nvidia utapewa jina la mwanafizikia mashuhuri wa Marekani Richard Feynman, anayejulikana kwa kazi yake kwenye uchunguzi wa maafa ya chombo cha anga cha Challenger.
Mkakati wa Programu: Nvidia Dynamo
Nvidia imekuwa ikizingatia programu, ikiona ni muhimu zaidi kuliko vifaa. Mtazamo huu wa kimkakati unaenea kwa mipango ya kiwanda cha AI cha kampuni.
Mbali na kupanua maktaba ya kuongeza kasi ya CUDA-X AI kwa nyanja mbalimbali na kuendeleza maktaba maalum za kuongeza kasi, Nvidia imeanzisha Nvidia Dynamo, mfumo mpya wa uendeshaji wa kiwanda cha AI. Muhimu, Nvidia imefungua mfumo huu wa uendeshaji.
Nvidia Dynamo ni mfumo wa huduma ya ‘inference’ wa chanzo huria iliyoundwa ili kujenga majukwaa ambayo hutoa huduma za ‘inference’ za LLM. Inaweza kupelekwa kwenye mazingira ya K8s na kutumika kupeleka na kusimamia kazi kubwa za ‘inference’ za AI. Nvidia inapanga kuunganisha Dynamo katika mfumo wake wa NIM microservices, na kuifanya kuwa sehemu ya mfumo wa Nvidia AI Enterprise.
Dynamo ni bidhaa ya kizazi kijacho ya jukwaa la seva ya ‘inference’ ya Nvidia, Triton. Kipengele chake muhimu ni mgawanyiko wa kazi za ‘inference’ za LLM katika hatua mbili, kuruhusu matumizi rahisi na bora zaidi ya GPUs ili kuboresha usindikaji wa ‘inference’, kuboresha ufanisi, na kuongeza matumizi ya GPU. Dynamo inaweza kugawa GPUs kwa nguvu kulingana na mahitaji ya ‘inference’ na kuharakisha uhamishaji wa data usiolingana kati ya GPUs, kupunguza muda wa majibu ya ‘inference’ ya mfumo.
Mifumo ya GAI inayotegemea Transformer hugawanya ‘inference’ katika hatua mbili: Prefill (kabla ya ingizo), ambayo hubadilisha data ya ingizo kuwa tokens za kuhifadhi, na Decode, mchakato wa mfuatano ambao hutoa token inayofuata kulingana na ile ya awali.
‘Inference’ ya jadi ya LLM hupeana kazi za Prefill na Decode kwa GPU moja. Hata hivyo, kutokana na sifa tofauti za hesabu za kazi hizi, Dynamo inazigawa, ikitoa rasilimali za GPU ipasavyo na kurekebisha mgao kwa nguvu kulingana na sifa za kazi. Hii inaboresha utendaji wa nguzo ya GPU.
Jaribio la Nvidia linaonyesha kuwa kutumia Dynamo na mfumo wa DeepSeek-R1 wenye vigezo bilioni 671 kwenye GB200 NVL72 kunaweza kuboresha utendaji wa ‘inference’ kwa mara 30. Utendaji kwenye Llama 70B inayoendesha kwenye Hopper GPUs pia unaweza kuboreshwa kwa zaidi ya mara mbili.
Kusimamia kazi za ‘inference’ ni ngumu kutokana na asili tata ya hesabu ya ‘inference’ na aina mbalimbali za mifumo ya usindikaji sambamba. Huang alisisitiza kuwa Nvidia ilizindua mfumo wa Dynamo ili kutoa mfumo wa uendeshaji kwa viwanda vya AI.
Vituo vya data vya jadi hutegemea mifumo ya uendeshaji kama VMware ili kupanga programu tofauti kwenye rasilimali za IT za kampuni. Mawakala wa AI ni programu za siku zijazo, na viwanda vya AI vinahitaji Dynamo, sio VMware.
Jina la Huang la mfumo mpya wa uendeshaji wa kiwanda cha AI baada ya Dynamo, injini iliyoanzisha mapinduzi ya viwanda, linaonyesha matarajio yake na malengo yake kwa jukwaa hilo.