Nvidia एजेंट-आधारित AI की भविष्य की लहर पर अपनी नज़रें जमाए हुए है, यह एक ऐसा क्षेत्र है जो अनुमान क्षमताओं पर अभूतपूर्व मांग रखने का वादा करता है। इस चुनौती का सामना करने के लिए, Nvidia ने हार्डवेयर और सॉफ्टवेयर नवाचारों को शामिल करते हुए एक व्यापक रणनीति का अनावरण किया है।
हार्डवेयर रणनीति: ऊपर और बाहर बढ़ाना
Nvidia की हार्डवेयर रणनीति के केंद्र में कभी-अधिक शक्तिशाली GPU की अथक खोज है। कंपनी एक दो-तरफ़ा दृष्टिकोण अपना रही है, पहले ऊर्ध्वाधर स्केलिंग पर ध्यान केंद्रित कर रही है, फिर क्षैतिज स्केलिंग पर। लक्ष्य सिर्फ एक, अति-शक्तिशाली AI सुपर कंप्यूटर को एक रैक में विकसित करना नहीं है, बल्कि परस्पर जुड़े रैक के पूरे पारिस्थितिकी तंत्र को बनाना है, जो एक विशाल AI सुपर कंप्यूटर परिसर का निर्माण करते हैं। यह ‘AI फैक्ट्री’ दृष्टिकोण सबसे ज़्यादा माँग वाले AI वर्कलोड के लिए आवश्यक कम्प्यूटेशनल मसल प्रदान करने के लिए डिज़ाइन किया गया है।
हाल ही में GTC सम्मेलन में अनावरण किया गया नया Blackwell Ultra रैक-माउंटेड AI सुपर कंप्यूटर इस रणनीति का उदाहरण है। प्रशिक्षण और परीक्षण-समय स्केलिंग अनुमान दोनों को गति देने के लिए डिज़ाइन किया गया, Blackwell Ultra मौजूदा Blackwell आर्किटेक्चर का लाभ उठाता है, लेकिन इसमें अधिक शक्तिशाली GB300 NVL72 शामिल है। इस कॉन्फ़िगरेशन में NVLink के माध्यम से इंटरकनेक्टेड 72 Blackwell Ultra GPU हैं, जो FP4 सटीक कंप्यूट शक्ति के 1.1 Exaflops की चौंका देने वाली गति प्रदान करते हैं। GB300 NVL72 में GB200 NVL72 की तुलना में 1.5 गुना अधिक AI प्रदर्शन है। एक एकल DGS GB300 सिस्टम 15 Exaflops कंप्यूट प्रदान करता है। 2025 की दूसरी छमाही में रिलीज़ होने के लिए स्लेटेड, Blackwell Ultra को Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron और Quanta सहित सर्वर उपकरण विक्रेताओं की एक विस्तृत श्रृंखला द्वारा समर्थित किया जाएगा। इसके अतिरिक्त, AWS, GCP और Azure जैसे क्लाउड सेवा प्रदाता Blackwell Ultra पर आधारित कंप्यूट सेवाएँ प्रदान करेंगे।
इन पावर प्लांट-लेवल AI फैक्ट्री सिस्टम से परे, Nvidia ने उद्यमों के भीतर अनुमान की ज़रूरतों को लक्षित करने वाले कंप्यूटरों की एक नई लाइन भी पेश की है। इनमें DGX स्पार्क और DGX स्टेशन पर्सनल AI कंप्यूटर शामिल हैं। DGX स्पार्क, आकार में एक Mac मिनी के समान, 1 PFlops तक कंप्यूट शक्ति प्रदान करता है।
इसे परिप्रेक्ष्य में रखने के लिए, 2021 में 50,000 से अधिक कोर के साथ लॉन्च किया गया ताइवानिया 3 सुपर कंप्यूटर, केवल 2.7 PFlops का प्रदर्शन प्रदान करता है। सिर्फ़ चार सालों में, तीन डेस्कटॉप-साइज़ वाले पर्सनल AI कंप्यूटरों की कंप्यूट शक्ति ताइवानिया 3 से ज़्यादा हो गई है। 128GB मेमोरी कॉन्फ़िगरेशन के लिए $3,999 (लगभग NT$130,000) की कीमत पर, इन नए पर्सनल AI कंप्यूटरों को उद्यमों के भीतर भविष्य की आंतरिक AI ज़रूरतों को पूरा करने के लिए डिज़ाइन किया गया है, जो मिनी-AI फ़ैक्टरी के रूप में या यहाँ तक कि एज AI वातावरण में भी काम करते हैं।
भविष्य का रोडमैप: वेरा रुबिन और उससे आगे
आगे देखते हुए, Nvidia के CEO जेन्सन हुआंग ने अगले दो वर्षों के लिए एक उत्पाद रोडमैप की रूपरेखा तैयार की है। 2026 की दूसरी छमाही में, कंपनी Vera Rubin NVL144 जारी करने की योजना बना रही है, जिसका नाम अमेरिकी खगोलशास्त्री के नाम पर रखा गया है जिन्होंने डार्क मैटर की खोज की थी। Vera Rubin NVL144 GB300 NVL72 की तुलना में 3.3 गुना अधिक प्रदर्शन प्रदान करेगा, जिसमें मेमोरी क्षमता, बैंडविड्थ और NVLink गति 1.6 गुना से अधिक बढ़ जाएगी। 2027 की दूसरी छमाही में, Nvidia Rubin Ultra NVL576 लॉन्च करेगा, जो GB300 NVL72 की तुलना में 14 गुना अधिक प्रदर्शन प्रदान करेगा, जिसमें NVLink7 और CX9 के माध्यम से मेमोरी क्षमता और बैंडविड्थ गति में उल्लेखनीय वृद्धि होगी।
Vera Rubin आर्किटेक्चर के बाद, Nvidia के अगली पीढ़ी के आर्किटेक्चर का नाम प्रसिद्ध अमेरिकी भौतिक विज्ञानी रिचर्ड फेनमैन के नाम पर रखा जाएगा, जो चैलेंजर स्पेस शटल आपदा जांच पर अपने काम के लिए जाने जाते हैं।
सॉफ्टवेयर रणनीति: Nvidia डायनेमो
Nvidia ने हमेशा सॉफ्टवेयर पर ज़ोर दिया है, यहाँ तक कि इसे हार्डवेयर से भी ज़्यादा अहमियत दी है। यह रणनीतिक फोकस कंपनी की AI फ़ैक्टरी पहलों तक भी फैला हुआ है।
विभिन्न डोमेन में CUDA-X AI एक्सीलरेशन लाइब्रेरी का विस्तार करने और विशेष एक्सीलरेशन लाइब्रेरी विकसित करने के अलावा, Nvidia ने Nvidia डायनेमो पेश किया है, जो एक नया AI फ़ैक्टरी ऑपरेटिंग सिस्टम है। महत्वपूर्ण रूप से, Nvidia ने इस ऑपरेटिंग सिस्टम को ओपन-सोर्स किया है।
Nvidia डायनेमो एक ओपन-सोर्स अनुमान सेवा फ़्रेमवर्क है जिसे ऐसे प्लेटफ़ॉर्म बनाने के लिए डिज़ाइन किया गया है जो LLM अनुमान सेवाएँ प्रदान करते हैं। इसे K8s वातावरण पर तैनात किया जा सकता है और बड़े पैमाने पर AI अनुमान कार्यों को तैनात और प्रबंधित करने के लिए उपयोग किया जा सकता है। Nvidia ने डायनेमो को अपने NIM माइक्रोसर्विसेज फ़्रेमवर्क में एकीकृत करने की योजना बनाई है, जिससे यह Nvidia AI एंटरप्राइज़ फ़्रेमवर्क का एक घटक बन जाएगा।
डायनेमो Nvidia के मौजूदा ओपन-सोर्स अनुमान सर्वर प्लेटफ़ॉर्म, Triton का अगली पीढ़ी का उत्पाद है। इसकी मुख्य विशेषता LLM अनुमान कार्यों को दो चरणों में विभाजित करना है, जिससे अनुमान प्रसंस्करण को अनुकूलित करने, दक्षता में सुधार करने और GPU उपयोग को अधिकतम करने के लिए GPU का अधिक लचीला और कुशल उपयोग किया जा सके। डायनेमो अनुमान आवश्यकताओं के आधार पर गतिशील रूप से GPU आवंटित कर सकता है और GPU के बीच अतुल्यकालिक डेटा स्थानांतरण को गति दे सकता है, जिससे मॉडल अनुमान प्रतिक्रिया समय कम हो जाता है।
ट्रांसफ़ॉर्मर-आधारित GAI मॉडल अनुमान को दो चरणों में विभाजित करते हैं: Prefill (प्री-इनपुट), जो इनपुट डेटा को स्टोरेज के लिए टोकन में परिवर्तित करता है, और Decode, एक क्रमिक प्रक्रिया जो पिछले एक के आधार पर अगला टोकन उत्पन्न करती है।
पारंपरिक LLM अनुमान Prefill और Decode दोनों कार्यों को एक ही GPU को सौंपता है। हालाँकि, इन कार्यों की अलग-अलग कम्प्यूटेशनल विशेषताओं के कारण, डायनेमो उन्हें विभाजित करता है, GPU संसाधनों को तदनुसार असाइन करता है और कार्य विशेषताओं के आधार पर आवंटन को गतिशील रूप से समायोजित करता है। यह GPU क्लस्टर प्रदर्शन को अनुकूलित करता है।
Nvidia के परीक्षण से पता चलता है कि GB200 NVL72 पर 671 बिलियन-पैरामीटर डीपसीक-R1 मॉडल के साथ डायनेमो का उपयोग करने से अनुमान प्रदर्शन में 30 गुना सुधार हो सकता है। हॉपर GPU पर चलने वाले Llama 70B पर भी प्रदर्शन को दोगुने से अधिक सुधारा जा सकता है।
अनुमान कार्यों का प्रबंधन जटिल है क्योंकि अनुमान गणना की जटिल प्रकृति और समानांतर प्रसंस्करण मॉडल की विविधता है। हुआंग ने इस बात पर ज़ोर दिया कि Nvidia ने AI कारखानों के लिए एक ऑपरेटिंग सिस्टम प्रदान करने के लिए डायनेमो फ़्रेमवर्क लॉन्च किया है।
पारंपरिक डेटा सेंटर उद्यम IT संसाधनों पर विभिन्न अनुप्रयोगों को व्यवस्थित करने के लिए VMware जैसे ऑपरेटिंग सिस्टम पर निर्भर करते हैं। AI एजेंट भविष्य के अनुप्रयोग हैं, और AI कारखानों को VMware नहीं, बल्कि डायनेमो की आवश्यकता है।
हुआंग द्वारा नए AI फ़ैक्टरी ऑपरेटिंग सिस्टम का नाम डायनेमो के नाम पर रखने से, जो औद्योगिक क्रांति को गति देने वाला इंजन है, प्लेटफ़ॉर्म के लिए उनकी उम्मीदों और महत्वाकांक्षाओं का पता चलता है।