Mabadiliko ya Nvidia: Ufafanuzi Mpya wa 'GPU' na Gharama

Marekebisho ya Kushangaza: Nvidia Yafikiria Upya Hesabu Yake ya GPU

Katika uwanja wenye ushindani mkubwa wa uvumbuzi wa semiconductor, Mkutano wa Teknolojia ya GPU (GTC) wa Nvidia hutumika kama jukwaa kuu la kufichua mustakabali. Wakati wa mkutano wake wa hivi karibuni, katikati ya shangwe zilizotarajiwa kuhusu maendeleo katika akili bandia (AI) na kompyuta iliyoharakishwa, kampuni ilianzisha mabadiliko madogo lakini yenye uwezekano wa kuwa na athari kubwa – mabadiliko katika jinsi inavyofafanua kimsingi Kitengo cha Uchakataji Michoro (GPU). Hii haikuwa tu dokezo la kiufundi; ilikuwa ni urekebishaji wenye athari kubwa zinazofuata, hasa kuhusu muundo wa gharama za kupeleka suluhisho za hali ya juu za AI za Nvidia.

Mkurugenzi Mtendaji Jensen Huang mwenyewe alizungumzia mabadiliko hayo moja kwa moja kutoka jukwaa la GTC, akiyaelezea kama marekebisho ya uangalizi wa awali kuhusu usanifu wao wa kisasa wa Blackwell. ‘Moja ya mambo niliyokosea: Blackwell kwa kweli ni GPU mbili katika chip moja ya Blackwell,’ alisema. Sababu iliyotolewa ililenga uwazi na uthabiti, hasa kuhusu mikataba ya majina inayohusiana na NVLink, teknolojia ya muunganisho wa kasi ya juu ya Nvidia. ‘Tuliita chip hiyo moja GPU na hilo lilikuwa kosa. Sababu ya hilo ni kwamba inaharibu majina yote ya NVLink,’ Huang alifafanua. Ingawa kurahisisha nambari za mfumo kunatoa kiwango cha mpangilio wa kimantiki, ufafanuzi huu mpya una uzito mkubwa zaidi ya maana tu.

Kiini cha mabadiliko hayo kiko katika kuhamia kutoka kuhesabu moduli za kimwili (hasa, umbo la SXM linalopatikana kwa wingi katika seva za utendaji wa juu) kama GPU binafsi hadi kuhesabu dies tofauti za silicon ndani ya moduli hizo. Marekebisho haya yanayoonekana kuwa madogo katika istilahi yana uwezo wa kubadilisha kwa kiasi kikubwa mazingira ya kifedha kwa mashirika yanayotumia mfumo wa programu wa Nvidia AI Enterprise.

Athari za Kifedha: Kuongeza Maradufu Leseni za AI Enterprise?

Nvidia AI Enterprise ni jukwaa kamili la programu lililoundwa kurahisisha uundaji na upelekaji wa matumizi ya AI. Linajumuisha zana mbalimbali, mifumo, na muhimu zaidi, ufikiaji wa Nvidia Inference Microservices (NIMs), ambazo ni kontena zilizoboreshwa kwa ajili ya kuendesha mifumo ya AI kwa ufanisi. Mfumo wa leseni kwa ajili ya jukwaa hili lenye nguvu kihistoria umefungamanishwa moja kwa moja na idadi ya GPU zilizotumika. Miundo ya sasa ya bei inaweka gharama kuwa takriban $4,500 kwa kila GPU kwa mwaka, au kiwango cha msingi wa wingu cha $1 kwa kila GPU kwa saa.

Fikiria kizazi kilichopita au usanidi fulani wa Blackwell. Seva ya Nvidia HGX B200, iliyo na moduli nane za SXM, ambapo kila moduli ilikuwa na kile kilichochukuliwa wakati huo kama GPU moja ya Blackwell, ingehitaji leseni nane za AI Enterprise. Hii ilitafsiriwa kuwa gharama ya usajili wa programu ya kila mwaka ya $36,000 (GPU 8 * $4,500/GPU) au gharama ya wingu ya kila saa ya $8 (GPU 8 * $1/GPU/saa).

Sasa, ingia katika mazingira mapya yaliyofafanuliwa na mifumo kama HGX B300 NVL16. Mfumo huu pia una moduli nane za kimwili za SXM. Hata hivyo, chini ya ufafanuzi uliorekebishwa, Nvidia sasa inahesabu kila ‘die’ ya silicon ndani ya moduli hizi kama GPU binafsi. Kwa kuwa kila moduli katika usanidi huu maalum ina dies mbili, jumla ya hesabu ya GPU kwa madhumuni ya leseni inaongezeka maradufu hadi GPU 16 (moduli 8 * dies 2/moduli).

Tukichukulia Nvidia inadumisha muundo wake wa sasa wa bei kwa kila GPU kwa ajili ya mfumo wa AI Enterprise – jambo ambalo kampuni imesema bado halijakamilika – athari ziko wazi. Mfumo huo huo wa moduli nane wa HGX B300 sasa ungeweza kuhitaji leseni 16, na kuongeza gharama ya programu ya kila mwaka hadi $72,000 (GPU 16 * $4,500/GPU) au $16 kwa saa katika wingu. Hii inawakilisha ongezeko la 100% katika gharama ya usajili wa programu kwa msongamano wa maunzi unaoonekana kulinganishwa, kutokana moja kwa moja na mabadiliko ya jinsi ‘GPU’ inavyohesabiwa.

Hadithi ya Usanifu Mbili: Kupatanisha Kauli za Zamani

Mabadiliko haya katika majina yanatoa tofauti ya kuvutia ikilinganishwa na maelezo ya awali ya Nvidia kuhusu usanifu wa Blackwell. Wakati Blackwell ilipozinduliwa awali, majadiliano yaliibuka kuhusu muundo wake, ambao unahusisha vipande vingi vya silicon (dies) vilivyounganishwa pamoja ndani ya kifurushi kimoja cha processor. Wakati huo, Nvidia ilipinga kikamilifu kuelezea Blackwell kwa kutumia neno ‘chiplet’ architecture – neno la kawaida la sekta kwa miundo inayotumia dies ndogo nyingi zilizounganishwa. Badala yake, kampuni ilisisitiza mtazamo tofauti.

Kama ilivyoripotiwa wakati wa utangazaji wa uzinduzi wa Blackwell, Nvidia ilidai kuwa ilitumia ‘usanifu wa die mbili zenye reticle ndogo ambazo hufanya kazi kama GPU moja iliyounganishwa.’ Maneno haya yalipendekeza kwa nguvu kwamba licha ya kuwepo kwa dies mbili kimwili, zilifanya kazi kwa pamoja kama kitengo kimoja cha kimantiki cha uchakataji. Njia mpya ya kuhesabu inayotumika kwa usanidi wa B300 inaonekana kugeuka kutoka dhana hii ya ‘GPU moja iliyounganishwa’, angalau kutoka kwa mtazamo wa leseni za programu, ikizichukulia dies kama vyombo tofauti. Hii inazua maswali kuhusu iwapo maelezo ya awali yalilenga zaidi uwezo wa utendaji wa maunzi au ikiwa mtazamo wa kimkakati kuhusu leseni umebadilika.

Faida za Utendaji dhidi ya Ongezeko Linalowezekana la Gharama: Kutathmini Pendekezo la B300

Wakati wa kuzingatia uwezekano wa kuongezeka maradufu kwa ada za leseni za programu kwa HGX B300 ikilinganishwa na watangulizi wake kama B200, ni muhimu kuchunguza maboresho ya utendaji yanayotolewa na maunzi mapya zaidi. Je, B300 inatoa nguvu maradufu ya uchakataji wa AI ili kuhalalisha uwezekano wa kuongezeka maradufu kwa gharama za programu? Vipimo vinaonyesha picha yenye utata zaidi.

HGX B300 inajivunia maboresho:

  • Uwezo wa Kumbukumbu Ulioongezeka: Inatoa takriban Terabytes 2.3 za kumbukumbu ya kasi ya juu (HBM) kwa kila mfumo, ongezeko kubwa la takriban mara 1.5 ikilinganishwa na 1.5TB inayopatikana kwenye B200. Hii ni muhimu kwa kushughulikia mifumo mikubwa ya AI na seti za data.
  • Utendaji Ulioboreshwa wa Usahihi wa Chini: B300 inaonyesha ongezeko kubwa la utendaji kwa mahesabu yanayotumia usahihi wa 4-bit floating-point (FP4). Uwezo wake wa FP4 unafikia zaidi ya petaFLOPS 105 kwa kila mfumo, ongezeko la takriban 50% juu ya B200. Uharakishaji huu ni wa manufaa hasa kwa kazi fulani za inference za AI ambapo usahihi wa chini unakubalika.

Hata hivyo, faida ya utendaji si ya jumla kwa mizigo yote ya kazi. Muhimu zaidi, kwa kazi zinazohitaji hesabu za floating-point za usahihi wa juu (kama vile FP8, FP16, au FP32), B300 haitoi faida kubwa ya operesheni za floating-point juu ya mfumo wa zamani wa B200. Kazi nyingi ngumu za mafunzo ya AI na kompyuta za kisayansi hutegemea sana fomati hizi za usahihi wa juu.

Kwa hivyo, mashirika yanayotathmini B300 yanakabiliwa na hesabu ngumu. Wanapata uwezo mkubwa wa kumbukumbu na ongezeko la utendaji wa FP4, lakini uwezekano wa kuongezeka maradufu kwa gharama za programu za AI Enterprise huenda usilingane na ongezeko linalolingana la utendaji kwa kazi zao maalum, za usahihi wa juu. Pendekezo la thamani linategemea sana asili ya kazi za AI zinazoendeshwa.

Uhalalishaji wa Kiufundi: Miunganisho na Uhuru

Kwa kushangaza, mbinu hii mpya ya kuhesabu die haitumiki kwa jumla katika mifumo yote mipya inayotegemea Blackwell iliyotangazwa kwenye GTC. Mifumo yenye nguvu zaidi, iliyopozwa kwa kimiminika ya GB300 NVL72, kwa mfano, inaendelea kufuata mkataba wa zamani, ikihesabu kifurushi kizima (kilicho na dies mbili) kama GPU moja kwa madhumuni ya leseni. Tofauti hii inazua swali: kwa nini kuna tofauti?

Nvidia inatoa sababu ya kiufundi inayotokana na teknolojia ya muunganisho ndani ya vifurushi vya GPU vyenyewe. Kulingana na Ian Buck, Makamu wa Rais wa Nvidia na Meneja Mkuu wa Hyperscale na HPC, tofauti iko katika kuwepo au kutokuwepo kwa muunganisho muhimu wa chip-to-chip (C2C) unaounganisha moja kwa moja dies mbili ndani ya kifurushi.

  • Usanidi wa HGX B300: Vifurushi maalum vya Blackwell vinavyotumika katika mifumo ya HGX B300 iliyopozwa kwa hewa havina muunganisho huu wa moja kwa moja wa C2C. Kama Buck alivyoelezea, chaguo hili la muundo lilifanywa ili kuboresha matumizi ya nguvu na usimamizi wa joto ndani ya vikwazo vya chasi iliyopozwa kwa hewa. Matokeo yake, hata hivyo, ni kwamba dies mbili kwenye moduli moja ya B300 hufanya kazi kwa kiwango kikubwa cha uhuru. Ikiwa die moja inahitaji kufikia data iliyohifadhiwa kwenye kumbukumbu ya kasi ya juu iliyounganishwa kimwili na die nyingine kwenye moduli hiyo hiyo, haiwezi kufanya hivyo moja kwa moja. Badala yake, ombi la data lazima lisafiri nje ya kifurushi, kupita kwenye mtandao wa nje wa NVLink (uwezekano kupitia chip ya swichi ya NVLink kwenye ubao mama wa seva), na kisha kurudi kwenye kidhibiti kumbukumbu cha die nyingine. Njia hii ya mzunguko inaimarisha dhana kwamba hizi ni vitengo viwili vya uchakataji vinavyofanya kazi tofauti vinavyoshiriki kifurushi kimoja lakini vinahitaji njia za mawasiliano za nje kwa ushiriki kamili wa kumbukumbu. Mgawanyiko huu, Nvidia inadai, unahalalisha kuvihesabu kama GPU mbili tofauti.

  • Usanidi wa GB300 NVL72: Kinyume chake, vifurushi vya ‘Superchip’ vinavyotumika katika mifumo ya hali ya juu ya GB300 vinabaki na muunganisho wa kasi ya juu wa C2C. Kiungo hiki cha moja kwa moja kinaruhusu dies mbili ndani ya kifurushi kuwasiliana na kushiriki rasilimali za kumbukumbu kwa ufanisi zaidi na moja kwa moja, bila hitaji la njia ya mzunguko ya nje ya kifurushi kupitia swichi ya NVLink. Kwa sababu zinaweza kufanya kazi kwa ushirikiano zaidi na kushiriki kumbukumbu bila mshono, zinachukuliwa, kutoka kwa mtazamo wa programu na leseni, kama GPU moja, iliyounganishwa, ikiendana na maelezo ya awali ya ‘iliyojumuishwa’ ya usanifu wa Blackwell.

Tofauti hii ya kiufundi inatoa msingi wa kimantiki kwa mbinu tofauti za kuhesabu. Dies za B300 zimetenganishwa zaidi kiutendaji kutokana na ukosefu wa kiungo cha C2C, na kutoa uaminifu kwa hesabu ya GPU mbili. Dies za GB300 zimeunganishwa kwa karibu, zikiunga mkono hesabu ya GPU moja.

Kuangalia Mustakabali: Vera Rubin Inaweka Mfano

Ingawa GB300 kwa sasa inawakilisha ubaguzi, mbinu ya kuhesabu die iliyopitishwa kwa B300 inaonekana kuwa dalili ya mwelekeo wa baadaye wa Nvidia. Kampuni tayari imetoa ishara kwamba jukwaa lake la kizazi kijacho, lenye jina la siri Vera Rubin, lililopangwa kutolewa baadaye, litakumbatia kikamilifu majina haya mapya.

Mkataba wa majina wenyewe unatoa kidokezo. Mifumo inayotegemea usanifu wa Rubin inateuliwa kwa nambari za juu, kama vile NVL144. Uteuzi huu unapendekeza kwa nguvu kuhesabu dies binafsi badala ya moduli. Kufuatia mantiki ya B300, mfumo wa NVL144 ungekuwa na idadi fulani ya moduli, kila moja ikiwa na dies nyingi, na kujumlisha hadi dies 144 za GPU zinazoweza kuhesabiwa kwa madhumuni ya leseni na vipimo.

Mwenendo huu unaonekana zaidi katika ramani ya barabara ya Nvidia kwa mwishoni mwa 2027 na jukwaa la Vera Rubin Ultra. Jukwaa hili linajivunia GPU 576 kwa kila rack ya kushangaza. Kama ilivyochambuliwa hapo awali, nambari hii ya kuvutia haipatikani kwa kupakia moduli 576 tofauti za kimwili kwenye rack. Badala yake, inaonyesha dhana mpya ya kuhesabu inayotumika kwa kuzidisha. Usanifu huo unawezekana unahusisha moduli 144 za kimwili kwa kila rack, lakini kila moduli ikiwa na dies nne tofauti za silicon. Kwa hivyo, moduli 144 zikizidishwa na dies 4 kwa kila moduli hutoa takwimu kuu ya ‘GPU’ 576.

Mtazamo huu wa mbele unapendekeza kuwa mbinu ya kuhesabu die ya B300 siyo tu marekebisho ya muda kwa mifumo maalum iliyopozwa kwa hewa bali ni kanuni ya msingi ya jinsi Nvidia inakusudia kupima rasilimali zake za GPU katika vizazi vijavyo. Wateja wanaowekeza katika mfumo ikolojia wa Nvidia wanahitaji kutarajia mabadiliko haya kuwa kiwango.

Sababu Isiyosemwa: Kuongeza Mapato ya Programu?

Ingawa maelezo ya kiufundi kuhusu muunganisho wa C2C yanatoa sababu ya kuhesabu tofauti kwa GPU za B300, muda na athari kubwa za kifedha bila shaka husababisha uvumi kuhusu motisha za msingi za biashara. Je, ufafanuzi huu mpya, uliowasilishwa awali kama marekebisho ya ‘kosa’ la majina, unaweza pia kutumika kama nyenzo ya kimkakati ya kuongeza mapato yanayojirudia ya programu?

Katika mwaka tangu Blackwell ilipoelezewa kwa mara ya kwanza na ujumbe wake wa ‘GPU moja iliyounganishwa’, inawezekana kwamba Nvidia ilitambua fursa kubwa ya mapato iliyokuwa ikiachwa bila kutumiwa. Mfumo wa AI Enterprise unawakilisha sehemu inayokua na yenye faida kubwa ya biashara ya Nvidia. Kufunga leseni yake moja kwa moja na idadi ya dies za silicon, badala ya moduli za kimwili, kunatoa njia ya kuongeza kwa kiasi kikubwa mapato ya programu yanayotokana na kila upelekaji wa maunzi, hasa kadiri hesabu za die kwa kila moduli zinavyoweza kuongezeka katika usanifu wa baadaye kama Vera Rubin Ultra.

Walipobanwa kuhusu jinsi mabadiliko haya katika ufafanuzi wa GPU yangeathiri hasa gharama za leseni za AI Enterprise kwa mifumo mipya ya B300, Nvidia ilidumisha kiwango cha utata. Msemaji wa kampuni aliwasilisha kwamba maelezo ya kifedha bado yalikuwa yakizingatiwa. ‘Maelezo ya bei bado yanakamilishwa kwa B300 na hakuna maelezo ya kushiriki kuhusu Rubinzaidi ya yale yaliyoonyeshwa katika hotuba kuu ya GTC kwa wakati huu,’ msemaji huyo alisema, akithibitisha waziwazi kuwa hii ilijumuisha muundo wa bei wa AI Enterprise kwenye majukwaa haya.

Ukosefu huu wa bei zilizokamilishwa, pamoja na kuongezeka maradufu kwa GPU zinazoweza kuhesabiwa kwenye usanidi fulani wa maunzi, kunaleta kutokuwa na uhakika kwa wateja wanaopanga uwekezaji wa baadaye wa miundombinu ya AI. Ingawa uhalalishaji wa kiufundi upo, uwezekano wa ongezeko kubwa la gharama za usajili wa programu unaonekana kuwa mkubwa. Mabadiliko hayo yanaangazia umuhimu unaoongezeka wa programu katika mnyororo wa thamani wa semiconductor na mkakati dhahiri wa Nvidia wa kutengeneza mapato kwa ufanisi zaidi kutoka kwa jukwaa lake kamili la AI kwa kuoanisha vipimo vya leseni kwa karibu zaidi na utata wa msingi wa silicon. Mashirika yanapopanga bajeti kwa ajili ya mifumo ya AI ya kizazi kijacho, ufafanuzi wa ‘GPU’ ghafla umekuwa kigezo muhimu, na chenye uwezekano wa kuwa ghali zaidi.