Nvidia एजंट-आधारित AI च्या भविष्यावर लक्ष केंद्रित करत आहे, ज्यामुळे अनुमान क्षमतेवर अभूतपूर्व मागणी वाढणार आहे. हे आव्हान पेलण्यासाठी, Nvidia ने हार्डवेअर आणि सॉफ्टवेअर नवकल्पनांचा समावेश असलेली एक विस्तृत रणनीती उघड केली आहे.
हार्डवेअर रणनीती: स्केल अप आणि आउट
Nvidia च्या हार्डवेअर धोरणाच्या केंद्रस्थानी अधिकाधिक शक्तिशाली GPUs चा सतत पाठपुरावा आहे. कंपनी दोन-मार्गी दृष्टीकोन अवलंबत आहे, प्रथम उभ्या स्केलिंगवर लक्ष केंद्रित करणे, नंतर क्षैतिज स्केलिंगवर. उद्दिष्ट केवळ रॅकमध्ये एकच, अल्ट्रा-पॉवरफुल AI सुपरकॉम्प्युटर विकसित करणे नाही, तर इंटरकनेक्टेड रॅकचे संपूर्ण इकोसिस्टम तयार करणे आहे, जे एक प्रचंड AI सुपरकॉम्प्युटर कॉम्प्लेक्स तयार करते. हा ‘AI कारखाना’ दृष्टीकोन सर्वात जास्त मागणी असलेल्या AI वर्कलोडसाठी आवश्यक असलेली संगणकीय ताकद प्रदान करण्यासाठी डिझाइन केलेले आहे.
नवीन ब्लॅकवेल अल्ट्रा रॅक-माउंटेड AI सुपरकॉम्प्युटर, जे अलीकडेच GTC परिषदेत अनावरण करण्यात आले, हे या धोरणाचे उदाहरण आहे. प्रशिक्षण आणि चाचणी-वेळेच्या स्केलिंग अनुमानांना गती देण्यासाठी डिझाइन केलेले, ब्लॅकवेल अल्ट्रा विद्यमान ब्लॅकवेल आर्किटेक्चरचा वापर करते, परंतु त्यात अधिक शक्तिशाली GB300 NVL72 समाविष्ट आहे. या कॉन्फिगरेशनमध्ये NVLink द्वारे इंटरकनेक्ट केलेले 72 ब्लॅकवेल अल्ट्रा GPUs आहेत, जे FP4 अचूकतेच्या संगणकीय शक्तीचे 1.1 Exaflops प्रदान करतात. GB300 NVL72 मध्ये GB200 NVL72 पेक्षा 1.5 पट जास्त AI कार्यक्षमता आहे. एकच DGS GB300 सिस्टम 15 Exaflops ची गणना देते. 2025 च्या उत्तरार्धात रिलीझ होणार असलेल्या, ब्लॅकवेल अल्ट्राला सिस्को, डेल, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron आणि Quanta यांसारख्या सर्व्हर उपकरण विक्रेत्यांकडून मोठ्या प्रमाणावर समर्थन दिले जाईल. याव्यतिरिक्त, AWS, GCP आणि Azure सारख्या क्लाउड सेवा प्रदाते ब्लॅकवेल अल्ट्रावर आधारित संगणकीय सेवा देतील.
या पॉवर प्लांट-लेव्हल AI फॅक्टरी सिस्टम्सच्या पलीकडे, Nvidia ने उद्योगांमधील अनुमाना गरजा लक्ष्यित करणार्या संगणकांची एक नवीन ओळ देखील सादर केली आहे. यामध्ये DGX स्पार्क आणि DGX स्टेशन पर्सनल AI संगणकांचा समावेश आहे. DGX स्पार्क, आकारमानाने Mac mini सारखे, 1 PFlops पर्यंत संगणकीय शक्ती देते.
हे लक्षात घेण्यासाठी, 2021 मध्ये 50,000 हून अधिक कोअरसह लॉन्च केलेले तैवानिया 3 सुपरकॉम्प्युटर केवळ 2.7 PFlops कार्यप्रदर्शन प्रदान करते. केवळ चार वर्षांत, डेस्कटॉप-आकाराच्या तीन वैयक्तिक AI संगणकांची संगणकीय शक्ती तैवानिया 3 पेक्षा जास्त झाली आहे. 128GB मेमरी कॉन्फिगरेशनसाठी $3,999 (अंदाजे NT$130,000) किंमत असलेले, हे नवीन वैयक्तिक AI संगणक उद्योगांमधील भविष्यातील अंतर्गत AI गरजा पूर्ण करण्यासाठी, मिनी-AI कारखाने म्हणून किंवा अगदी Edge AI वातावरणात चालवण्यासाठी डिझाइन केलेले आहेत.
भविष्यातील रोडमॅप: वेरा रुबिन आणि त्यापुढे
पुढे पाहता, Nvidia चे CEO जेन्सन हुआंग यांनी पुढील दोन वर्षांसाठी उत्पादन रोडमॅपची रूपरेषा दिली आहे. 2026 च्या उत्तरार्धात, कंपनी अमेरिकन खगोलशास्त्रज्ञ वेरा रुबिन यांच्या नावावरून वेरा रुबिन NVL144 जारी करण्याची योजना आखत आहे, ज्यांनी डार्क मैटर शोधले. वेरा रुबिन NVL144 GB300 NVL72 पेक्षा 3.3 पट अधिक कार्यप्रदर्शन देईल, मेमरी क्षमता, बँडविड्थ आणि NVLink गती 1.6 पटीने वाढेल. 2027 च्या उत्तरार्धात, Nvidia रुबिन अल्ट्रा NVL576 लाँच करेल, जे GB300 NVL72 पेक्षा 14 पट अधिक कार्यक्षमतेचे प्रदर्शन करेल, NVLink7 आणि CX9 द्वारे लक्षणीय वाढलेली मेमरी क्षमता आणि बँडविड्थ गती असेल.
वेरा रुबिन आर्किटेक्चरनंतर, Nvidia चे पुढील-generation आर्किटेक्चर अमेरिकन भौतिकशास्त्रज्ञ रिचर्ड फेनमन यांच्या नावावर असेल, जे Challenger स्पेस शटल आपत्ती तपासावरील त्यांच्या कार्यासाठी ओळखले जातात.
सॉफ्टवेअर स्ट्रॅटेजी: Nvidia डायनॅमो
Nvidia ने नेहमीच सॉफ्टवेअरवर जोर दिला आहे, ते हार्डवेअरपेक्षाही अधिक महत्वाचे मानले आहे. हा धोरणात्मक फोकस कंपनीच्या AI फॅक्टरी उपक्रमांपर्यंत विस्तारित आहे.
CUDA-X AI प्रवेग लायब्ररी विविध डोमेनमध्ये विस्तारित करण्याव्यतिरिक्त आणि विशेष प्रवेग लायब्ररी विकसित करण्याव्यतिरिक्त, Nvidia ने Nvidia डायनॅमो सादर केले आहे, जे एक नवीन AI फॅक्टरी ऑपरेटिंग सिस्टम आहे. महत्त्वाचे म्हणजे, Nvidia ने हे ऑपरेटिंग सिस्टम ओपन-सोर्स केले आहे.
Nvidia डायनॅमो हे LLM अनुमान सेवा प्रदान करणारे प्लॅटफॉर्म तयार करण्यासाठी डिझाइन केलेले एक ओपन-सोर्स अनुमान सेवा फ्रेमवर्क आहे. हे K8s वातावरणात तैनात केले जाऊ शकते आणि मोठ्या प्रमाणात AI अनुमान कार्ये तैनात आणि व्यवस्थापित करण्यासाठी वापरले जाते. Nvidia डायनॅमोला त्याच्या NIM मायक्रोसर्व्हिसेस फ्रेमवर्कमध्ये समाकलित करण्याची योजना आखत आहे, ज्यामुळे ते Nvidia AI एंटरप्राइझ फ्रेमवर्कचा एक घटक बनेल.
डायनॅमो हे Nvidia च्या विद्यमान ओपन-सोर्स अनुमान सर्व्हर प्लॅटफॉर्म, Triton चे पुढील-generation उत्पादन आहे. LLM अनुमान कार्यांना दोन टप्प्यात विभाजित करणे हे त्याचे मुख्य वैशिष्ट्य आहे, ज्यामुळे GPU चा अधिक लवचिक आणि कार्यक्षम वापर करून अनुमान प्रक्रिया ऑप्टिमाइझ करता येते, कार्यक्षमता सुधारता येते आणि GPU वापर वाढवता येतो. डायनॅमो अनुमानाच्या आवश्यकतांवर आधारित GPUs गतिशीलपणे वाटप करू शकते आणि GPUs दरम्यान एसिंक्रोनस डेटा हस्तांतरण गती देऊ शकते, ज्यामुळे मॉडेल अनुमानाचा प्रतिसाद वेळ कमी होतो.
Transformer-आधारित GAI मॉडेल्स अनुमानाला दोन टप्प्यात विभाजित करतात: प्रीफिल (प्री-इनपुट), जे इनपुट डेटाला स्टोरेजसाठी टोकनमध्ये रूपांतरित करते आणि डीकोड, एक क्रमवार प्रक्रिया जी मागील टोकनवर आधारित पुढील टोकन तयार करते.
पारंपारिक LLM अनुमान प्रीफिल आणि डीकोड दोन्ही कार्ये एकाच GPU ला नियुक्त करते. तथापि, या कार्यांच्या भिन्न संगणकीय वैशिष्ट्यांमुळे, डायनॅमो त्यांना विभाजित करते, त्यानुसार GPU संसाधने नियुक्त करते आणि कार्यांच्या वैशिष्ट्यांवर आधारित वाटप गतिशीलपणे समायोजित करते. हे GPU क्लस्टर कार्यप्रदर्शन ऑप्टिमाइझ करते.
Nvidia च्या चाचणीमध्ये असे दिसून आले आहे की GB200 NVL72 वर 671 अब्ज-पॅरामीटर डीपसीक-R1 मॉडेलसह डायनॅमो वापरल्याने अनुमानाच्या कार्यक्षमतेत 30 पट सुधारणा होऊ शकते. हॉपर GPUs वर चालणाऱ्या Llama 70B वरील कार्यप्रदर्शन देखील दुप्पटपेक्षा जास्त सुधारले जाऊ शकते.
अनुमान कार्यांची गणना आणि विविध समांतर प्रक्रिया मॉडेलच्या गुंतागुंतीच्या स्वरूपामुळे अनुमान कार्ये व्यवस्थापित करणे क्लिष्ट आहे. हुआंग यांनी जोर दिला की Nvidia ने AI कारखान्यांसाठी ऑपरेटिंग सिस्टम प्रदान करण्यासाठी डायनॅमो फ्रेमवर्क लाँच केले आहे.
पारंपारिक डेटा सेंटर्स VMware सारख्या ऑपरेटिंग सिस्टमवर अवलंबून असतात जे एंटरप्राइझ IT संसाधनांवर विविध ऍप्लिकेशन्सचे आयोजन करतात. AI एजंट हे भविष्यातील ऍप्लिकेशन्स आहेत आणि AI कारखान्यांना VMware नव्हे तर डायनॅमोची आवश्यकता आहे.
हुआंग यांनी नवीन AI फॅक्टरी ऑपरेटिंग सिस्टमला डायनॅमो असे नाव दिले आहे, हे इंजिन औद्योगिक क्रांतीला प्रेरणा देत आहे, यावरून प्लॅटफॉर्मसाठी त्यांच्या अपेक्षा आणि महत्वाकांक्षा दिसून येतात.