एक जिज्ञासू सुधारणा: Nvidia आपल्या GPU गणनेवर पुनर्विचार करत आहे
सेमीकंडक्टर नवोपक्रमाच्या उच्च-जोखमीच्या क्षेत्रात, Nvidia चे GPU Technology Conference (GTC) भविष्याचे अनावरण करण्यासाठी एक प्रमुख मंच म्हणून काम करते. त्याच्या सर्वात अलीकडील संमेलनात, कृत्रिम बुद्धिमत्ता (artificial intelligence) आणि वेगवान संगणन (accelerated computing) मधील प्रगतीबद्दलच्या अपेक्षित उत्साहादरम्यान, कंपनीने एक सूक्ष्म परंतु संभाव्यतः गंभीर बदल सादर केला – Graphics Processing Unit (GPU) ची मूलभूत व्याख्या कशी केली जाते यात बदल. ही केवळ तांत्रिक तळटीप नव्हती; हे एक पुनर्कॅलिब्रेशन होते ज्याचे महत्त्वपूर्ण परिणाम होते, विशेषतः Nvidia च्या प्रगत AI उपायांच्या उपयोजनासाठी खर्चाच्या संरचनेवर.
CEO Jensen Huang यांनी स्वतः GTC मंचावरून या बदलावर थेट भाष्य केले, त्यांच्या अत्याधुनिक Blackwell आर्किटेक्चर संदर्भात पूर्वीच्या एका चुकीची दुरुस्ती म्हणून याकडे पाहिले. ‘मी केलेल्या चुकांपैकी एक: Blackwell खऱ्या अर्थाने एका Blackwell चिपमध्ये दोन GPUs आहेत,’ असे ते म्हणाले. सादर केलेले तर्क स्पष्टता आणि सुसंगततेवर केंद्रित होते, विशेषतः NVLink, Nvidia च्या हाय-स्पीड इंटरकनेक्ट तंत्रज्ञानाशी संबंधित नावांच्या नियमांबद्दल. ‘आम्ही त्या एका चिपला GPU म्हटले आणि ते चुकीचे होते. याचे कारण असे की ते सर्व NVLink नामांकनात गोंधळ निर्माण करते,’ Huang यांनी स्पष्ट केले. मॉडेल क्रमांक सोपे करणे काही प्रमाणात तार्किक सुबकता देत असले तरी, या पुनर्परिभाषेचे वजन केवळ शब्दार्थाच्या पलीकडे आहे.
या बदलाचा गाभा फिजिकल मॉड्यूल्स (विशेषतः, उच्च-कार्यक्षम सर्व्हरमध्ये सामान्य असलेल्या SXM फॉर्म फॅक्टर) ला वैयक्तिक GPUs म्हणून मोजण्याऐवजी त्या मॉड्यूल्समधील विशिष्ट सिलिकॉन डाईज (dies) मोजण्याकडे वळला आहे. शब्दावलीतील हा वरवर पाहता किरकोळ बदल Nvidia च्या AI Enterprise सॉफ्टवेअर सूटचा लाभ घेणाऱ्या संस्थांसाठी आर्थिक परिदृश्य नाटकीयरित्या बदलण्याची क्षमता ठेवतो.
आर्थिक लहरी परिणाम: AI Enterprise लायसन्सिंगवर दुप्पट खर्च?
Nvidia चे AI Enterprise हे एक व्यापक सॉफ्टवेअर प्लॅटफॉर्म आहे जे AI ऍप्लिकेशन्सचा विकास आणि उपयोजन सुलभ करण्यासाठी डिझाइन केलेले आहे. यात साधनांची, फ्रेमवर्कची आणि गंभीरपणे, Nvidia Inference Microservices (NIMs) मध्ये प्रवेशाची विस्तृत श्रेणी समाविष्ट आहे, जे AI मॉडेल्स कार्यक्षमतेने चालविण्यासाठी ऑप्टिमाइझ केलेले कंटेनर आहेत. या शक्तिशाली सूटसाठी लायसन्सिंग मॉडेल ऐतिहासिकदृष्ट्या तैनात केलेल्या GPUs च्या संख्येवर थेट जोडलेले आहे. सध्याच्या किंमतींच्या रचनांनुसार, खर्च अंदाजे $4,500 प्रति GPU प्रति वर्ष किंवा क्लाउड-आधारित दर $1 प्रति GPU प्रति तास आहे.
मागील पिढी किंवा विशिष्ट Blackwell कॉन्फिगरेशन्सचा विचार करा. एक Nvidia HGX B200 सर्व्हर, आठ SXM मॉड्यूल्ससह सुसज्ज, जिथे प्रत्येक मॉड्यूलमध्ये त्यावेळी एकच Blackwell GPU मानले जात होते, त्यासाठी आठ AI Enterprise लायसन्स आवश्यक असतील. याचा अर्थ वार्षिक सॉफ्टवेअर सबस्क्रिप्शन खर्च $36,000 (8 GPUs * $4,500/GPU) किंवा ताशी क्लाउड खर्च $8 (8 GPUs * $1/GPU/तास) होता.
आता, HGX B300 NVL16 सारख्या सिस्टीमसह नव्याने परिभाषित केलेल्या परिस्थितीत प्रवेश करा. या सिस्टीममध्ये देखील आठ फिजिकल SXM मॉड्यूल्स आहेत. तथापि, सुधारित व्याख्येनुसार, Nvidia आता या मॉड्यूल्समधील प्रत्येक सिलिकॉन डाईला एक स्वतंत्र GPU म्हणून मोजते. या विशिष्ट कॉन्फिगरेशनमधील प्रत्येक मॉड्यूलमध्ये दोन डाईज असल्याने, लायसन्सिंगच्या उद्देशाने एकूण GPU संख्या प्रभावीपणे दुप्पट होऊन 16 GPUs (8 मॉड्यूल्स * 2 डाईज/मॉड्यूल) होते.
समजा Nvidia ने AI Enterprise सूटसाठी आपली विद्यमान प्रति-GPU किंमत रचना कायम ठेवली – एक मुद्दा ज्यावर कंपनीने अद्याप अंतिम निर्णय घेतलेला नाही असे म्हटले आहे – तर त्याचे परिणाम स्पष्ट आहेत. त्याच आठ-मॉड्यूल HGX B300 सिस्टीमला आता संभाव्यतः 16 लायसन्सची आवश्यकता असेल, ज्यामुळे वार्षिक सॉफ्टवेअर खर्च $72,000 (16 GPUs * $4,500/GPU) किंवा क्लाउडमध्ये $16 प्रति तास पर्यंत वाढेल. हे ‘GPU’ कसे मोजले जाते यातील बदलामुळे, वरवर पाहता तुलनात्मक हार्डवेअर घनतेसाठी सॉफ्टवेअर सबस्क्रिप्शन खर्चात 100% वाढ दर्शवते.
दोन आर्किटेक्चर्सची कहाणी: मागील विधानांचे सलोखा
नामांकनातील हा बदल Nvidia च्या Blackwell आर्किटेक्चरच्या मागील वर्णनांशी एक मनोरंजक विरोधाभास सादर करतो. जेव्हा Blackwell चे सुरुवातीला अनावरण केले गेले, तेव्हा त्याच्या डिझाइनबद्दल चर्चा सुरू झाली, ज्यात एकाच प्रोसेसर पॅकेजमध्ये अनेक सिलिकॉनचे तुकडे (डाईज) जोडलेले आहेत. त्यावेळी, Nvidia ने Blackwell चे वर्णन ‘चिपलेट’ (chiplet) आर्किटेक्चर – अनेक लहान, एकमेकांशी जोडलेल्या डाईज वापरणाऱ्या डिझाइनसाठी एक सामान्य उद्योग संज्ञा – वापरण्यास सक्रियपणे विरोध केला. त्याऐवजी, कंपनीने एका वेगळ्या दृष्टिकोनावर जोर दिला.
Blackwell च्या लॉन्च कव्हरेज दरम्यान नोंदवल्याप्रमाणे, Nvidia ने युक्तिवाद केला की त्यांनी ‘टू-रेटिकल लिमिटेड डाई आर्किटेक्चर’ वापरले आहे जे ‘एकत्रित, एकल GPU’ (unified, single GPU) म्हणून कार्य करते. या वाक्यांशाने जोरदारपणे सूचित केले की दोन डाईजच्या भौतिक उपस्थिती असूनही, ते एका तार्किक प्रोसेसिंग युनिट म्हणून एकत्रितपणे कार्य करतात. B300 कॉन्फिगरेशनवर लागू केलेली नवीन मोजणी पद्धत या ‘एकत्रित, एकल GPU’ संकल्पनेपासून दूर जात असल्याचे दिसते, किमान सॉफ्टवेअर लायसन्सिंगच्या दृष्टिकोनातून, डाईजला वेगळे घटक मानले जात आहे. यामुळे प्रश्न निर्माण होतो की सुरुवातीचे वर्णन प्रामुख्याने हार्डवेअरच्या कार्यात्मक क्षमतेवर केंद्रित होते की लायसन्सिंगवरील धोरणात्मक दृष्टिकोन विकसित झाला आहे.
कार्यक्षमतेतील वाढ विरुद्ध संभाव्य खर्च वाढ: B300 प्रस्तावाचे मूल्यांकन
HGX B300 साठी सॉफ्टवेअर लायसन्सिंग शुल्कात त्याच्या पूर्ववर्ती जसे की B200 च्या तुलनेत संभाव्य दुप्पट वाढीचा विचार करताना, नवीन हार्डवेअरद्वारे ऑफर केलेल्या कार्यक्षमतेतील सुधारणा तपासणे महत्त्वाचे आहे. संभाव्य दुप्पट सॉफ्टवेअर खर्चाचे समर्थन करण्यासाठी B300 दुप्पट AI प्रोसेसिंग पॉवर वितरीत करते का? तपशील अधिक सूक्ष्म चित्र सूचित करतात.
HGX B300 मध्ये सुधारणा आहेत:
- वाढलेली मेमरी क्षमता: हे प्रति सिस्टीम अंदाजे 2.3 टेराबाइट्स (Terabytes) हाय-बँडविड्थ मेमरी (HBM) ऑफर करते, जे B200 वर उपलब्ध असलेल्या 1.5TB च्या तुलनेत सुमारे 1.5 पट लक्षणीय वाढ आहे. मोठे AI मॉडेल्स आणि डेटासेट हाताळण्यासाठी हे महत्त्वपूर्ण आहे.
- वर्धित लो-प्रिसिजन परफॉर्मन्स: B300 4-बिट फ्लोटिंग-पॉइंट (FP4) प्रिसिजन वापरून गणनेसाठी कार्यक्षमतेत लक्षणीय वाढ दर्शवते. त्याची FP4 थ्रूपुट प्रति सिस्टीम 105 डेन्स पेटाफ्लॉप्स (petaFLOPS) पेक्षा थोडी जास्त पोहोचते, जी B200 पेक्षा अंदाजे 50% वाढ आहे. हे प्रवेग विशिष्ट AI इन्फरन्स कार्यांसाठी विशेषतः फायदेशीर आहे जिथे कमी प्रिसिजन स्वीकार्य आहे.
तथापि, कार्यक्षमतेचा फायदा सर्व वर्कलोड्समध्ये सार्वत्रिक नाही. महत्त्वाचे म्हणजे, उच्च प्रिसिजन फ्लोटिंग-पॉइंट अंकगणित (जसे की FP8, FP16, किंवा FP32) आवश्यक असलेल्या कार्यांसाठी, B300 जुन्या B200 सिस्टीमवर महत्त्वपूर्ण फ्लोटिंग-पॉइंट ऑपरेशन्सचा फायदा देत नाही. अनेक जटिल AI प्रशिक्षण आणि वैज्ञानिक संगणन कार्ये या उच्च प्रिसिजन फॉरमॅटवर मोठ्या प्रमाणावर अवलंबून असतात.
म्हणून, B300 चे मूल्यांकन करणाऱ्या संस्थांना एका जटिल गणनेचा सामना करावा लागतो. त्यांना भरीव मेमरी क्षमता आणि FP4 कार्यक्षमतेत वाढ मिळते, परंतु AI Enterprise सॉफ्टवेअर खर्चात संभाव्य दुप्पट वाढ त्यांच्या विशिष्ट, उच्च-प्रिसिजन वर्कलोड्ससाठी कार्यक्षमतेत संबंधित दुप्पट वाढीशी जुळणार नाही. मूल्य प्रस्ताव चालवल्या जाणाऱ्या AI कार्यांच्या स्वरूपावर अत्यंत अवलंबून असतो.
तांत्रिक समर्थन: इंटरकनेक्ट्स आणि स्वातंत्र्य
विशेष म्हणजे, ही नवीन डाई-मोजणी पद्धत GTC मध्ये घोषित केलेल्या सर्व नवीन Blackwell-आधारित सिस्टीमवर सार्वत्रिकपणे लागू केली जात नाही. उदाहरणार्थ, अधिक शक्तिशाली, लिक्विड-कूल्ड GB300 NVL72 सिस्टीम, जुन्या नियमांचे पालन करणे सुरू ठेवतात, संपूर्ण पॅकेज (ज्यात दोन डाईज असतात) लायसन्सिंगच्या उद्देशाने एकल GPU म्हणून मोजतात. या फरकामुळे प्रश्न पडतो: फरक का?
Nvidia GPU पॅकेजेसमध्ये असलेल्या इंटरकनेक्ट तंत्रज्ञानावर आधारित तांत्रिक कारण प्रदान करते. Nvidia चे उपाध्यक्ष आणि हायपरस्केल आणि HPC चे महाव्यवस्थापक Ian Buck यांच्या मते, फरक पॅकेजमधील दोन डाईजला थेट जोडणाऱ्या महत्त्वपूर्ण चिप-टू-चिप (C2C) इंटरकनेक्ट च्या उपस्थिती किंवा अनुपस्थितीत आहे.
HGX B300 कॉन्फिगरेशन: एअर-कूल्ड HGX B300 सिस्टीममध्ये वापरल्या जाणाऱ्या विशिष्ट Blackwell पॅकेजेसमध्ये या थेट C2C इंटरकनेक्टचा अभाव असतो. Buck यांनी स्पष्ट केल्याप्रमाणे, एअर-कूल्ड चेसिसच्या मर्यादेत वीज वापर आणि थर्मल व्यवस्थापन ऑप्टिमाइझ करण्यासाठी ही डिझाइन निवड केली गेली. तथापि, याचा परिणाम असा होतो की एकाच B300 मॉड्यूलवरील दोन डाईज अधिक प्रमाणात स्वातंत्र्याने कार्य करतात. जर एका डाईला त्याच मॉड्यूलवरील दुसऱ्या डाईशी भौतिकरित्या जोडलेल्या हाय-बँडविड्थ मेमरीमध्ये संग्रहित डेटा ऍक्सेस करण्याची आवश्यकता असेल, तर ते थेट करू शकत नाही. त्याऐवजी, डेटा विनंती पॅकेजच्या बाहेर प्रवास करणे आवश्यक आहे, बाह्य NVLink नेटवर्क (संभाव्यतः सर्व्हर मदरबोर्डवरील NVLink स्विच चिपद्वारे) पार करणे आवश्यक आहे आणि नंतर दुसऱ्या डाईच्या मेमरी कंट्रोलरकडे परत जाणे आवश्यक आहे. हा वळसा या कल्पनेला बळकटी देतो की हे दोन कार्यात्मकदृष्ट्या वेगळे प्रोसेसिंग युनिट्स आहेत जे एक सामान्य पॅकेज सामायिक करतात परंतु पूर्ण मेमरी शेअरिंगसाठी बाह्य कम्युनिकेशन मार्गांची आवश्यकता असते. हे वेगळेपण, Nvidia चा युक्तिवाद आहे, त्यांना दोन वेगळे GPUs म्हणून मोजण्याचे समर्थन करते.
GB300 NVL72 कॉन्फिगरेशन: याउलट, उच्च-स्तरीय GB300 सिस्टीममध्ये वापरल्या जाणाऱ्या ‘Superchip’ पॅकेजेसमध्ये हाय-स्पीड C2C इंटरकनेक्ट कायम असतो. हा थेट दुवा पॅकेजमधील दोन डाईजला NVLink स्विचद्वारे ऑफ-पॅकेज वळसा न घेता अधिक कार्यक्षमतेने आणि थेट संवाद साधण्यास आणि मेमरी संसाधने सामायिक करण्यास अनुमती देतो. कारण ते अधिक एकत्रितपणे कार्य करू शकतात आणि मेमरी अखंडपणे सामायिक करू शकतात, त्यांना सॉफ्टवेअर आणि लायसन्सिंगच्या दृष्टिकोनातून, एकल, एकत्रित GPU म्हणून मानले जाते, जे Blackwell आर्किटेक्चरच्या सुरुवातीच्या ‘एकत्रित’ वर्णनाशी जुळते.
हे तांत्रिक वेगळेपण भिन्न मोजणी पद्धतींसाठी तार्किक आधार प्रदान करते. B300 चे डाईज C2C लिंकच्या अभावामुळे कार्यात्मकदृष्ट्या अधिक विभक्त आहेत, ज्यामुळे दोन-GPU गणनेला विश्वासार्हता मिळते. GB300 चे डाईज घट्टपणे जोडलेले आहेत, जे एकल-GPU गणनेचे समर्थन करतात.
भविष्यात डोकावणे: Vera Rubin ने उदाहरण घालून दिले आहे
GB300 सध्या एक अपवाद दर्शवत असले तरी, B300 साठी स्वीकारलेला डाई-मोजणी दृष्टिकोन Nvidia च्या भविष्यातील दिशेचा सूचक असल्याचे दिसते. कंपनीने आधीच संकेत दिले आहेत की तिचे पुढील पिढीचे प्लॅटफॉर्म, ज्याचे सांकेतिक नाव Vera Rubin आहे, जे भविष्यात रिलीज होणार आहे, ते या नवीन नामांकनाला पूर्णपणे स्वीकारेल.
नामांकन पद्धत स्वतःच एक संकेत देते. Rubin आर्किटेक्चरवर आधारित सिस्टीम उच्च क्रमांकांसह नियुक्त केल्या जात आहेत, जसे की NVL144. हे पदनाम मॉड्यूल्सऐवजी वैयक्तिक डाईज मोजण्याचे जोरदारपणे सूचित करते. B300 च्या तर्काचे अनुसरण केल्यास, NVL144 सिस्टीममध्ये संभाव्यतः विशिष्ट संख्येचे मॉड्यूल्स असतील, प्रत्येकामध्ये अनेक डाईज असतील, जे लायसन्सिंग आणि स्पेसिफिकेशनच्या उद्देशाने 144 मोजण्यायोग्य GPU डाईजपर्यंत बेरीज करतील.
हा ट्रेंड Nvidia च्या 2027 च्या उत्तरार्धात Vera Rubin Ultra प्लॅटफॉर्मसाठीच्या रोडमॅपमध्ये आणखी स्पष्ट आहे. हे प्लॅटफॉर्म प्रति रॅक आश्चर्यकारक 576 GPUs चा अभिमान बाळगते. पूर्वी विश्लेषण केल्याप्रमाणे, ही प्रभावी संख्या एका रॅकमध्ये 576 वेगळे फिजिकल मॉड्यूल्स पॅक करून प्राप्त केली जात नाही. त्याऐवजी, ते गुणाकार पद्धतीने लागू केलेल्या नवीन मोजणी प्रतिमानाचे प्रतिबिंब आहे. आर्किटेक्चरमध्ये संभाव्यतः प्रति रॅक 144 फिजिकल मॉड्यूल्स समाविष्ट आहेत, परंतु प्रत्येक मॉड्यूलमध्ये चार वेगळे सिलिकॉन डाईज आहेत. अशा प्रकारे, 144 मॉड्यूल्स गुणिले 4 डाईज प्रति मॉड्यूल 576 ‘GPUs’ चा मुख्य आकडा देतात.
हा दूरगामी दृष्टीकोन सूचित करतो की B300 ची डाई-मोजणी पद्धत केवळ विशिष्ट एअर-कूल्ड सिस्टीमसाठी तात्पुरती समायोजन नाही तर Nvidia भविष्यातील पिढ्यांमध्ये आपल्या GPU संसाधनांचे प्रमाण कसे ठरवणार आहे यासाठीचे मूलभूत तत्त्व आहे. Nvidia च्या इकोसिस्टीममध्ये गुंतवणूक करणाऱ्या ग्राहकांना हा बदल मानक बनण्याची अपेक्षा करणे आवश्यक आहे.
न बोललेला घटक: सॉफ्टवेअर महसूल प्रवाह वाढवणे?
C2C इंटरकनेक्ट संदर्भातील तांत्रिक स्पष्टीकरण B300 च्या वेगळ्या GPU गणनेसाठी एक कारण प्रदान करत असले तरी, वेळ आणि महत्त्वपूर्ण आर्थिक परिणाम अपरिहार्यपणे अंतर्निहित व्यावसायिक प्रेरणांबद्दल अटकळ बांधण्यास कारणीभूत ठरतात. ही पुनर्परिभाषा, जी सुरुवातीला नामांकनातील ‘चूक’ सुधारणा म्हणून सादर केली गेली, ती आवर्ती सॉफ्टवेअर महसूल वाढविण्यासाठी एक धोरणात्मक लीव्हर म्हणून देखील काम करू शकते का?
Blackwell चे ‘एकत्रित, एकल GPU’ संदेशासह प्रथम तपशीलवार वर्णन केल्यापासूनच्या वर्षात, हे संभव आहे की Nvidia ने एक मोठी महसूल संधी ओळखली जी वापरली जात नव्हती. AI Enterprise सूट Nvidia च्या व्यवसायाचा वाढणारा आणि उच्च-मार्जिन घटक दर्शवतो. त्याचे लायसन्सिंग थेट सिलिकॉन डाईजच्या संख्येवर बांधणे, फिजिकल मॉड्यूल्सऐवजी, प्रत्येक हार्डवेअर उपयोजनातून मिळणारा सॉफ्टवेअर महसूल लक्षणीयरीत्या वाढवण्याचा मार्ग प्रदान करते, विशेषतः Vera Rubin Ultra सारख्या भविष्यातील आर्किटेक्चरमध्ये प्रति मॉड्यूल डाई संख्या संभाव्यतः वाढत असताना.
GPU व्याख्येतील हा बदल नवीन B300 सिस्टीमसाठी AI Enterprise लायसन्सिंग खर्चावर कसा परिणाम करेल यावर विचारले असता, Nvidia ने काही प्रमाणात संदिग्धता कायम ठेवली. कंपनीच्या प्रवक्त्याने सांगितले की आर्थिक तपशील अद्याप विचाराधीन आहेत. ‘B300 साठी किंमतीचे तपशील अद्याप अंतिम केले जात आहेत आणि Rubin बद्दल GTC कीनोटमध्ये दर्शविल्या गेलेल्या पलीकडे सध्या कोणतीही माहिती सामायिक करायची नाही,’ असे प्रवक्त्याने सांगितले, स्पष्टपणे पुष्टी केली की यात या प्लॅटफॉर्मवरील AI Enterprise साठी किंमत रचना समाविष्ट आहे.
अंतिम किंमतीचा हा अभाव, विशिष्ट हार्डवेअर कॉन्फिगरेशनवर मोजण्यायोग्य GPUs ची संख्या दुप्पट होण्यासह, भविष्यातील AI पायाभूत सुविधा गुंतवणुकीचे नियोजन करणाऱ्या ग्राहकांसाठी अनिश्चितता निर्माण करतो. तांत्रिक समर्थन उपस्थित असले तरी, सॉफ्टवेअर सबस्क्रिप्शन खर्चात भरीव वाढ होण्याची शक्यता मोठी आहे. हा बदल सेमीकंडक्टर व्हॅल्यू चेनमधील सॉफ्टवेअरचे वाढते महत्त्व आणि Nvidia ची स्पष्ट रणनीती अधोरेखित करतो, जी लायसन्सिंग मेट्रिक्सला अंतर्निहित सिलिकॉन जटिलतेशी अधिक जवळून जुळवून घेऊन आपल्या व्यापक AI प्लॅटफॉर्मचे अधिक प्रभावीपणे मुद्रीकरण करते. संस्था पुढील पिढीच्या AI सिस्टीमसाठी बजेट तयार करत असताना, ‘GPU’ ची व्याख्या अचानक एक गंभीर आणि संभाव्यतः अधिक महाग व्हेरिएबल बनली आहे.