एक जिज्ञासु सुधार: Nvidia अपने GPU गणना पर पुनर्विचार करता है
सेमीकंडक्टर नवाचार के उच्च-दांव वाले मंच पर, Nvidia का GPU Technology Conference (GTC) भविष्य का अनावरण करने के लिए एक प्रमुख मंच के रूप में कार्य करता है। अपनी सबसे हालिया सभा के दौरान, आर्टिफिशियल इंटेलिजेंस और त्वरित कंप्यूटिंग में प्रगति के आसपास अपेक्षित धूमधाम के बीच, कंपनी ने एक सूक्ष्म लेकिन संभावित रूप से गहरा बदलाव पेश किया - यह मौलिक रूप से Graphics Processing Unit (GPU) को कैसे परिभाषित करता है, इसमें एक संशोधन। यह केवल एक तकनीकी फुटनोट नहीं था; यह महत्वपूर्ण डाउनस्ट्रीम निहितार्थों के साथ एक पुन: अंशांकन था, विशेष रूप से Nvidia के उन्नत AI समाधानों को तैनात करने के लिए लागत संरचना के संबंध में।
CEO Jensen Huang ने स्वयं GTC मंच से सीधे बदलाव को संबोधित किया, इसे उनके अत्याधुनिक Blackwell आर्किटेक्चर के संबंध में पिछली चूक के सुधार के रूप में तैयार किया। “जिन चीजों में मैंने गलती की उनमें से एक: Blackwell वास्तव में एक Blackwell चिप में दो GPU हैं,” उन्होंने कहा। प्रस्तुत तर्क स्पष्टता और स्थिरता पर केंद्रित था, विशेष रूप से NVLink, Nvidia की हाई-स्पीड इंटरकनेक्ट तकनीक से जुड़े नामकरण सम्मेलनों के संबंध में। “हमने उस एक चिप को GPU कहा और वह गलत था। इसका कारण यह है कि यह सभी NVLink नामकरण को खराब कर देता है,” Huang ने विस्तार से बताया। जबकि मॉडल नंबरों को सरल बनाना तार्किक सुव्यवस्था की डिग्री प्रदान करता है, यह पुनर्परिभाषा केवल शब्दार्थ से कहीं अधिक वजन रखती है।
बदलाव का मूल भौतिक मॉड्यूल (विशेष रूप से, उच्च-प्रदर्शन सर्वर में सामान्य SXM फॉर्म फैक्टर) को व्यक्तिगत GPU के रूप में गिनने से उन मॉड्यूल के भीतर अलग-अलग सिलिकॉन डाई (dies) की गिनती करने में निहित है। शब्दावली में यह प्रतीत होता है कि मामूली समायोजन Nvidia के AI Enterprise सॉफ्टवेयर सूट का लाभ उठाने वाले संगठनों के लिए वित्तीय परिदृश्य को नाटकीय रूप से बदलने की क्षमता रखता है।
वित्तीय लहर प्रभाव: AI Enterprise लाइसेंसिंग पर दोगुना दांव?
Nvidia का AI Enterprise एक व्यापक सॉफ्टवेयर प्लेटफॉर्म है जिसे AI अनुप्रयोगों के विकास और परिनियोजन को सुव्यवस्थित करने के लिए डिज़ाइन किया गया है। इसमें उपकरणों, फ्रेमवर्क की एक विस्तृत श्रृंखला शामिल है, और गंभीर रूप से, Nvidia Inference Microservices (NIMs) तक पहुंच है, जो AI मॉडल को कुशलतापूर्वक चलाने के लिए अनुकूलित कंटेनर हैं। इस शक्तिशाली सूट के लिए लाइसेंसिंग मॉडल ऐतिहासिक रूप से तैनात GPU की संख्या से सीधे जुड़ा हुआ है। वर्तमान मूल्य निर्धारण संरचनाएं लागत लगभग $4,500 प्रति GPU प्रति वर्ष, या $1 प्रति GPU प्रति घंटा की क्लाउड-आधारित दर पर रखती हैं।
पिछली पीढ़ी या कुछ Blackwell कॉन्फ़िगरेशन पर विचार करें। एक Nvidia HGX B200 सर्वर, आठ SXM मॉड्यूल से सुसज्जित, जहां प्रत्येक मॉड्यूल में वह था जिसे तब एकल Blackwell GPU माना जाता था, आठ AI Enterprise लाइसेंस की आवश्यकता होगी। इसका अनुवाद वार्षिक सॉफ्टवेयर सदस्यता लागत $36,000 (8 GPUs * $4,500/GPU) या $8 प्रति घंटा क्लाउड लागत (8 GPUs * $1/GPU/hour) में हुआ।
अब, HGX B300 NVL16 जैसे सिस्टम के साथ नव परिभाषित परिदृश्य में प्रवेश करें। इस सिस्टम में आठ भौतिक SXM मॉड्यूल भी हैं। हालाँकि, संशोधित परिभाषा के तहत, Nvidia अब इन मॉड्यूल के भीतर प्रत्येक सिलिकॉन डाई को एक व्यक्तिगत GPU के रूप में गिनता है। चूंकि इस विशिष्ट कॉन्फ़िगरेशन में प्रत्येक मॉड्यूल में दो डाई होते हैं, लाइसेंसिंग उद्देश्यों के लिए कुल GPU गणना प्रभावी रूप से 16 GPUs (8 मॉड्यूल * 2 डाई/मॉड्यूल) तक दोगुनी हो जाती है।
यह मानते हुए कि Nvidia AI Enterprise सूट के लिए अपनी मौजूदा प्रति-GPU मूल्य निर्धारण संरचना बनाए रखता है - एक बिंदु जिसे कंपनी ने कहा है कि अभी तक अंतिम रूप नहीं दिया गया है - निहितार्थ स्पष्ट हैं। वही आठ-मॉड्यूल HGX B300 सिस्टम को अब संभावित रूप से 16 लाइसेंस की आवश्यकता होगी, जिससे वार्षिक सॉफ्टवेयर लागत $72,000 (16 GPUs * $4,500/GPU) या क्लाउड में $16 प्रति घंटा हो जाएगी। यह प्रतीत होता है कि तुलनीय हार्डवेयर घनत्व के लिए सॉफ्टवेयर सदस्यता लागत में 100% वृद्धि का प्रतिनिधित्व करता है, जो सीधे “GPU” की गणना कैसे की जाती है, में बदलाव से उपजा है।
दो आर्किटेक्चर की कहानी: पिछले बयानों का मिलान
नामकरण में यह बदलाव Nvidia के Blackwell आर्किटेक्चर के पिछले चरित्र-चित्रणों के साथ एक दिलचस्प विरोधाभास प्रस्तुत करता है। जब Blackwell का पहली बार अनावरण किया गया था, तो इसके डिजाइन के संबंध में चर्चाएँ उठीं, जिसमें एक एकल प्रोसेसर पैकेज के भीतर एक साथ जुड़े सिलिकॉन (डाई) के कई टुकड़े शामिल हैं। उस समय, Nvidia ने “चिपलेट” आर्किटेक्चर शब्द का उपयोग करके Blackwell का वर्णन करने के खिलाफ सक्रिय रूप से जोर दिया - कई छोटे, परस्पर जुड़े डाई को नियोजित करने वाले डिजाइनों के लिए एक सामान्य उद्योग शब्द। इसके बजाय, कंपनी ने एक अलग दृष्टिकोण पर जोर दिया।
जैसा कि Blackwell लॉन्च कवरेज के दौरान रिपोर्ट किया गया था, Nvidia ने तर्क दिया कि उसने “दो-रेटिकल सीमित डाई आर्किटेक्चर” नियोजित किया है जो एकीकृत, एकल GPU के रूप में कार्य करता है।” इस वाक्यांश ने दृढ़ता से सुझाव दिया कि दो डाई की भौतिक उपस्थिति के बावजूद, वे एक तार्किक प्रसंस्करण इकाई के रूप में एकजुट होकर कार्य करते थे। B300 कॉन्फ़िगरेशन पर लागू नई गिनती पद्धति इस “एकीकृत, एकल GPU” अवधारणा से दूर होती दिख रही है, कम से कम सॉफ्टवेयर लाइसेंसिंग दृष्टिकोण से, डाई को अलग-अलग संस्थाओं के रूप में मानती है। यह सवाल उठाता है कि क्या प्रारंभिक विवरण मुख्य रूप से हार्डवेयर की कार्यात्मक क्षमता पर केंद्रित था या लाइसेंसिंग पर रणनीतिक परिप्रेक्ष्य विकसित हुआ है।
प्रदर्शन लाभ बनाम संभावित लागत वृद्धि: B300 प्रस्ताव का मूल्यांकन
HGX B200 जैसे अपने पूर्ववर्तियों की तुलना में HGX B300 के लिए सॉफ्टवेयर लाइसेंसिंग शुल्क के संभावित दोहरीकरण पर विचार करते समय, नए हार्डवेयर द्वारा प्रदान किए गए प्रदर्शन संवर्द्धन की जांच करना महत्वपूर्ण है। क्या B300 सॉफ्टवेयर लागत के संभावित दोहरीकरण को सही ठहराने के लिए दोगुनी AI प्रसंस्करण शक्ति प्रदान करता है? विनिर्देश एक अधिक सूक्ष्म तस्वीर सुझाते हैं।
HGX B300 में सुधार हैं:
- बढ़ी हुई मेमोरी क्षमता: यह प्रति सिस्टम लगभग 2.3 टेराबाइट्स हाई-बैंडविड्थ मेमोरी (HBM) प्रदान करता है, जो B200 पर उपलब्ध 1.5TB की तुलना में लगभग 1.5 गुना की महत्वपूर्ण छलांग है। यह बड़े AI मॉडल और डेटासेट को संभालने के लिए महत्वपूर्ण है।
- उन्नत निम्न-परिशुद्धता प्रदर्शन: B300 4-बिट फ्लोटिंग-पॉइंट (FP4) परिशुद्धता का उपयोग करके गणना के लिए प्रदर्शन में एक उल्लेखनीय उत्थान प्रदर्शित करता है। इसका FP4 थ्रूपुट प्रति सिस्टम 105 डेंस पेटाFLOPS से थोड़ा अधिक तक पहुँचता है, जो B200 की तुलना में लगभग 50% अधिक है। यह त्वरण विशेष रूप से कुछ AI अनुमान कार्यों के लिए फायदेमंद है जहां कम परिशुद्धता स्वीकार्य है।
हालाँकि, प्रदर्शन लाभ सभी वर्कलोड में सार्वभौमिक नहीं है। महत्वपूर्ण रूप से, उच्च परिशुद्धता फ्लोटिंग-पॉइंट अंकगणित (जैसे FP8, FP16, या FP32) की आवश्यकता वाले कार्यों के लिए, B300 पुराने B200 सिस्टम पर महत्वपूर्ण फ्लोटिंग-पॉइंट संचालन लाभ प्रदान नहीं करता है। कई जटिल AI प्रशिक्षण और वैज्ञानिक कंप्यूटिंग कार्य इन उच्च परिशुद्धता प्रारूपों पर बहुत अधिक निर्भर करते हैं।
इसलिए, B300 का मूल्यांकन करने वाले संगठनों को एक जटिल गणना का सामना करना पड़ता है। वे पर्याप्त मेमोरी क्षमता और FP4 प्रदर्शन में वृद्धि प्राप्त करते हैं, लेकिन AI Enterprise सॉफ्टवेयर लागतों के संभावित दोहरीकरण का उनके विशिष्ट, उच्च-परिशुद्धता वर्कलोड के लिए प्रदर्शन के संगत दोहरीकरण से मेल नहीं खा सकता है। मूल्य प्रस्ताव चलाए जा रहे AI कार्यों की प्रकृति पर अत्यधिक निर्भर हो जाता है।
तकनीकी औचित्य: इंटरकनेक्ट्स और स्वतंत्रता
दिलचस्प बात यह है कि यह नई डाई-काउंटिंग पद्धति GTC में घोषित सभी नए Blackwell-आधारित सिस्टम पर सार्वभौमिक रूप से लागू नहीं होती है। उदाहरण के लिए, अधिक शक्तिशाली, लिक्विड-कूल्ड GB300 NVL72 सिस्टम, पुरानी परंपरा का पालन करना जारी रखते हैं, लाइसेंसिंग उद्देश्यों के लिए पूरे पैकेज (जिसमें दो डाई होते हैं) को एकल GPU के रूप में गिनते हैं। यह विचलन सवाल खड़ा करता है: अंतर क्यों?
Nvidia स्वयं GPU पैकेजों के भीतर इंटरकनेक्ट तकनीक में निहित एक तकनीकी तर्क प्रदान करता है। Ian Buck, Nvidia के वाइस प्रेसिडेंट और हाइपरस्केल और HPC के जनरल मैनेजर के अनुसार, अंतर पैकेज के भीतर दो डाई को सीधे जोड़ने वाले एक महत्वपूर्ण चिप-टू-चिप (C2C) इंटरकनेक्ट की उपस्थिति या अनुपस्थिति में निहित है।
HGX B300 कॉन्फ़िगरेशन: एयर-कूल्ड HGX B300 सिस्टम में उपयोग किए जाने वाले विशिष्ट Blackwell पैकेजों में इस प्रत्यक्ष C2C इंटरकनेक्ट का अभाव होता है। जैसा कि Buck ने समझाया, यह डिज़ाइन विकल्प एयर-कूल्ड चेसिस बाधाओं के भीतर बिजली की खपत और थर्मल प्रबंधन को अनुकूलित करने के लिए बनाया गया था। हालाँकि, परिणाम यह है कि एकल B300 मॉड्यूल पर दो डाई अधिक स्वतंत्रता के साथ काम करते हैं। यदि एक डाई को उसी मॉड्यूल पर दूसरे डाई से भौतिक रूप से जुड़े हाई-बैंडविड्थ मेमोरी में संग्रहीत डेटा तक पहुंचने की आवश्यकता होती है, तो वह सीधे ऐसा नहीं कर सकता है। इसके बजाय, डेटा अनुरोध को पैकेज से बाहर यात्रा करनी चाहिए, बाहरी NVLink नेटवर्क (संभवतः सर्वर मदरबोर्ड पर NVLink स्विच चिप के माध्यम से) को पार करना चाहिए, और फिर दूसरे डाई के मेमोरी कंट्रोलर पर वापस रूट करना चाहिए। यह चक्कर इस धारणा को पुष्ट करता है कि ये दो कार्यात्मक रूप से अलग प्रसंस्करण इकाइयाँ हैं जो एक सामान्य पैकेज साझा करती हैं लेकिन पूर्ण मेमोरी साझाकरण के लिए बाहरी संचार पथों की आवश्यकता होती है। यह अलगाव, Nvidia का तर्क है, उन्हें दो अलग-अलग GPU के रूप में गिनने को सही ठहराता है।
GB300 NVL72 कॉन्फ़िगरेशन: इसके विपरीत, उच्च-अंत GB300 सिस्टम में उपयोग किए जाने वाले “Superchip” पैकेज हाई-स्पीड C2C इंटरकनेक्ट को बनाए रखते हैं। यह सीधा लिंक पैकेज के भीतर दो डाई को NVLink स्विच के माध्यम से ऑफ-पैकेज चक्कर की आवश्यकता के बिना बहुत अधिक कुशलतापूर्वक और सीधे संवाद करने और मेमोरी संसाधनों को साझा करने की अनुमति देता है। क्योंकि वे अधिक एकजुट होकर कार्य कर सकते हैं और मेमोरी को निर्बाध रूप से साझा कर सकते हैं, उन्हें सॉफ्टवेयर और लाइसेंसिंग दृष्टिकोण से, एकल, एकीकृत GPU के रूप में माना जाता है, जो Blackwell आर्किटेक्चर के प्रारंभिक “एकीकृत” विवरण के साथ संरेखित होता है।
यह तकनीकी भेद अलग-अलग गिनती विधियों के लिए एक तार्किक आधार प्रदान करता है। B300 की डाई C2C लिंक की कमी के कारण कार्यात्मक रूप से अधिक अलग हैं, जो दो-GPU गणना को विश्वसनीयता प्रदान करती है। GB300 की डाई कसकर युग्मित हैं, जो एकल-GPU गणना का समर्थन करती हैं।
भविष्य में झांकना: Vera Rubin मिसाल कायम करता है
जबकि GB300 वर्तमान में एक अपवाद का प्रतिनिधित्व करता है, B300 के लिए अपनाई गई डाई-काउंटिंग दृष्टिकोण Nvidia की भविष्य की दिशा का संकेत प्रतीत होता है। कंपनी ने पहले ही संकेत दे दिया है कि उसका अगली पीढ़ी का प्लेटफॉर्म, कोडनेम Vera Rubin, जिसे आगे चलकर जारी किया जाना है, इस नए नामकरण को पूरी तरह से अपनाएगा।
नामकरण परंपरा स्वयं एक सुराग प्रदान करती है। Rubin आर्किटेक्चर पर आधारित सिस्टम को उच्च संख्याओं के साथ नामित किया जा रहा है, जैसे कि NVL144। यह पदनाम मॉड्यूल के बजाय व्यक्तिगत डाई की गिनती का दृढ़ता से तात्पर्य है। B300 तर्क के बाद, एक NVL144 सिस्टम में संभवतः मॉड्यूल की एक निश्चित संख्या होगी, प्रत्येक में कई डाई होंगे, जो लाइसेंसिंग और विनिर्देश उद्देश्यों के लिए 144 गणनीय GPU डाई तक होंगे।
यह प्रवृत्ति Nvidia के 2027 के अंत में Vera Rubin Ultra प्लेटफॉर्म के रोडमैप में और भी स्पष्ट है। यह प्लेटफॉर्म प्रति रैक आश्चर्यजनक 576 GPUs का दावा करता है। जैसा कि पहले विश्लेषण किया गया है, यह प्रभावशाली संख्या एक रैक में 576 अलग-अलग भौतिक मॉड्यूल पैक करके हासिल नहीं की जाती है। इसके बजाय, यह गुणात्मक रूप से लागू नए गिनती प्रतिमान को दर्शाता है। आर्किटेक्चर में संभवतः प्रति रैक 144 भौतिक मॉड्यूल शामिल हैं, लेकिन प्रत्येक मॉड्यूल में चार अलग-अलग सिलिकॉन डाई होते हैं। इस प्रकार, 144 मॉड्यूल को 4 डाई प्रति मॉड्यूल से गुणा करने पर 576 “GPUs” का शीर्षक आंकड़ा प्राप्त होता है।
यह दूरंदेशी परिप्रेक्ष्य बताता है कि B300 की डाई-काउंटिंग विधि केवल विशिष्ट एयर-कूल्ड सिस्टम के लिए एक अस्थायी समायोजन नहीं है, बल्कि यह आधारभूत सिद्धांत है कि Nvidia भविष्य की पीढ़ियों में अपने GPU संसाधनों की मात्रा निर्धारित करने का इरादा कैसे रखता है। Nvidia के इकोसिस्टम में निवेश करने वाले ग्राहकों को इस बदलाव के मानक बनने की उम्मीद करने की आवश्यकता है।
अनकहा कारक: सॉफ्टवेयर राजस्व धाराओं को अधिकतम करना?
जबकि C2C इंटरकनेक्ट के संबंध में तकनीकी स्पष्टीकरण B300 की अलग GPU गिनती के लिए एक तर्क प्रदान करता है, समय और महत्वपूर्ण वित्तीय निहितार्थ अनिवार्य रूप से अंतर्निहित व्यावसायिक प्रेरणाओं के बारे में अटकलों को जन्म देते हैं। क्या यह पुनर्परिभाषा, जिसे शुरू में नामकरण “गलती” के सुधार के रूप में प्रस्तुत किया गया था, आवर्ती सॉफ्टवेयर राजस्व को बढ़ाने के लिए एक रणनीतिक लीवर के रूप में भी काम कर सकती है?
उस वर्ष में जब Blackwell को पहली बार इसके “एकीकृत, एकल GPU” संदेश के साथ विस्तृत किया गया था, यह प्रशंसनीय है कि Nvidia ने एक पर्याप्त राजस्व अवसर को पहचाना जिसे अप्रयुक्त छोड़ा जा रहा था। AI Enterprise सूट Nvidia के व्यवसाय का एक बढ़ता हुआ और उच्च-मार्जिन वाला घटक दर्शाता है। इसके लाइसेंसिंग को सीधे सिलिकॉन डाई की संख्या से जोड़ना, भौतिक मॉड्यूल के बजाय, प्रत्येक हार्डवेयर परिनियोजन से प्राप्त सॉफ्टवेयर राजस्व को महत्वपूर्ण रूप से बढ़ाने का मार्ग प्रदान करता है, खासकर जब Vera Rubin Ultra जैसे भविष्य के आर्किटेक्चर में प्रति मॉड्यूल डाई की संख्या संभावित रूप से बढ़ती है।
जब इस बात पर दबाव डाला गया कि GPU परिभाषा में यह बदलाव विशेष रूप से नए B300 सिस्टम के लिए AI Enterprise लाइसेंसिंग लागतों को कैसे प्रभावित करेगा, तो Nvidia ने अस्पष्टता की डिग्री बनाए रखी। एक कंपनी के प्रवक्ता ने बताया कि वित्तीय विवरण अभी भी विचाराधीन थे। “B300 के लिए मूल्य निर्धारण विवरण अभी भी अंतिम रूप दिया जा रहा है और GTC कीनोट में इस समय दिखाए गए से परे Rubin पर साझा करने के लिए कोई विवरण नहीं है,” प्रवक्ता ने कहा, स्पष्ट रूप से पुष्टि करते हुए कि इसमें इन प्लेटफार्मों पर AI Enterprise के लिए मूल्य निर्धारण संरचना शामिल है।
अंतिम मूल्य निर्धारण की यह कमी, कुछ हार्डवेयर कॉन्फ़िगरेशन पर गणनीय GPU के दोहरीकरण के साथ मिलकर, भविष्य के AI बुनियादी ढांचे के निवेश की योजना बनाने वाले ग्राहकों के लिए अनिश्चितता पैदा करती है। जबकि तकनीकी औचित्य मौजूद हैं, सॉफ्टवेयर सदस्यता लागत में पर्याप्त वृद्धि की संभावना बड़ी है। यह बदलाव सेमीकंडक्टर मूल्य श्रृंखला में सॉफ्टवेयर के बढ़ते महत्व और अंतर्निहित सिलिकॉन जटिलता के साथ लाइसेंसिंग मेट्रिक्स को अधिक बारीकी से संरेखित करके अपने व्यापक AI प्लेटफॉर्म का अधिक प्रभावी ढंग से मुद्रीकरण करने के लिए Nvidia की स्पष्ट रणनीति पर प्रकाश डालता है। जैसे-जैसे संगठन अगली पीढ़ी के AI सिस्टम के लिए बजट बनाते हैं, “GPU” की परिभाषा अचानक एक महत्वपूर्ण, और संभावित रूप से बहुत अधिक महंगी, चर बन गई है।