डीपसीक की प्रगति से प्रेरित AI प्रौद्योगिकी में तेजी से नवाचार के कारण, हमें डेटा सेंटर, चिप्स और सिस्टम के निर्माण के तरीके का मौलिक रूप से पुनर्मूल्यांकन करने की आवश्यकता है ताकि आवश्यक कंप्यूटिंग शक्ति प्रदान की जा सके। डीपसीक के इंजीनियरिंग नवाचारों ने AI कंप्यूटिंग लागत को काफी कम कर दिया है, जिससे AI इंफ्रास्ट्रक्चर के भविष्य के बारे में एक व्यापक चर्चा शुरू हो गई है।
जबकि डीपसीक ने AI प्रौद्योगिकी की सीमाओं का विस्तार नहीं किया होगा, लेकिन AI बाजार पर इसका प्रभाव गहरा है। मिक्सचर ऑफ एक्सपर्ट्स (MoE), मल्टी-लेयर अटेंशन (MLA), और मल्टी-टोकन प्रेडिक्शन (MTP) जैसी तकनीकों ने डीपसीक के साथ प्रमुखता हासिल की है। हालांकि इनमें से सभी तकनीकों का आविष्कार डीपसीक द्वारा नहीं किया गया था, लेकिन उनके सफल कार्यान्वयन ने व्यापक रूप से स्वीकृति को बढ़ावा दिया है। MLA, विशेष रूप से, एज डिवाइस से लेकर क्लाउड कंप्यूटिंग तक विभिन्न प्लेटफार्मों पर चर्चा का केंद्र बन गया है।
MLA और एल्गोरिथम नवाचार की चुनौती
नेक्स्टसिलिकॉन के सीईओ एलाद राज ने हाल ही में बताया कि MLA मेमोरी दक्षता में सुधार करता है, लेकिन यह डेवलपर्स के लिए कार्यभार भी बढ़ा सकता है और उत्पादन वातावरण में AI के अनुप्रयोग को जटिल बना सकता है। GPU उपयोगकर्ताओं को MLA के लिए ‘हैंड-कोड’ अनुकूलन में संलग्न होने की आवश्यकता हो सकती है। यह उदाहरण डीपसीक के बाद के युग में AI चिप्स और इंफ्रास्ट्रक्चर आर्किटेक्चर के कार्यान्वयन पर पुनर्विचार करने की आवश्यकता को रेखांकित करता है।
MLA के महत्व को समझने के लिए, लार्ज लैंग्वेज मॉडल (LLM) की अंतर्निहित अवधारणाओं को समझना आवश्यक है। उपयोगकर्ता इनपुट के जवाब उत्पन्न करते समय, LLM भारी मात्रा में KV वेक्टर - कुंजी और मान - पर निर्भर करते हैं, जो मॉडल को प्रासंगिक डेटा पर ध्यान केंद्रित करने में सक्षम बनाते हैं। ध्यान तंत्र में, मॉडल सबसे प्रासंगिक सामग्री निर्धारित करने के लिए नए अनुरोधों की कुंजियों के साथ तुलना करता है।
एलाद राज एक पुस्तक की सादृश्यता का उपयोग करते हैं, कुंजी ‘पुस्तक के अध्याय शीर्षकों की तरह है, जो इंगित करता है कि प्रत्येक भाग किस बारे में है, जिसमें मान उन शीर्षकों के तहत अधिक विस्तृत सारांश हैं। इसलिए जैसे ही कोई उपयोगकर्ता अनुरोध डालता है, वह उत्तर उत्पन्न करने में मदद करने के लिए एक खोज शब्द मांगता है। यह पूछ रहा है, ‘इस कहानी के तहत, कौन सा अध्याय सबसे अधिक प्रासंगिक है?’
MLA इन अध्याय शीर्षकों (कुंजियों) और सारांशों (मानों) को संपीड़ित करता है, जिससे उत्तर खोजने की प्रक्रिया तेज होती है और दक्षता बढ़ती है। अंततः, MLA डीपसीक को मेमोरी उपयोग को 5-13% तक कम करने में मदद करता है। अधिक विस्तृत जानकारी डीपसीक के आधिकारिक पेपर में पाई जा सकती है। मीडियाटेक के डेवलपर सम्मेलन में यहां तक कि उनके डाइमेंशन मोबाइल चिप्स में MLA के लिए समर्थन पर चर्चा की गई, जो डीपसीक के व्यापक प्रभाव को रेखांकित करता है।
MLA जैसी तकनीकें AI युग में विशिष्ट एल्गोरिथम नवाचारों का प्रतिनिधित्व करती हैं। हालांकि, AI प्रौद्योगिकी के तेजी से विकास के कारण लगातार नवाचारों की धारा बनी रहती है, जो बदले में नई चुनौतियां पैदा करती है, खासकर जब ये नवाचार विशिष्ट प्लेटफार्मों के अनुरूप होते हैं। MLA के मामले में, गैर-NVIDIA GPU उपयोगकर्ताओं को तकनीक का लाभ उठाने के लिए अतिरिक्त मैनुअल कोडिंग की आवश्यकता होती है।
जबकि डीपसीक की तकनीकें AI युग के नवाचार और मूल्य को प्रदर्शित करती हैं, हार्डवेयर और सॉफ्टवेयर को इन नवाचारों के अनुकूल होना चाहिए। एलाद राज के अनुसार, इस तरह के अनुकूलन से डेवलपर्स और उत्पादन वातावरण के लिए जटिलता कम होनी चाहिए। अन्यथा, प्रत्येक नवाचार की लागत निषेधात्मक रूप से अधिक हो जाती है।
फिर सवाल उठता है: ‘क्या होगा यदि अगला एल्गोरिथम नवाचार अच्छी तरह से अनुवाद नहीं करता है और मौजूदा आर्किटेक्चर के लिए सरलता से?’
चिप डिजाइन और एल्गोरिथम नवाचार के बीच संघर्ष
पिछले कुछ वर्षों में, AI चिप निर्माताओं ने लगातार बताया है कि बड़े AI चिप्स को डिजाइन करने में कम से कम 1-2 साल लगते हैं। इसका मतलब है कि चिप डिजाइन को चिप की बाजार में रिलीज से पहले अच्छी तरह से शुरू करना होगा। AI प्रौद्योगिकी में तेजी से प्रगति को देखते हुए, AI चिप डिजाइन दूरदर्शी होना चाहिए। केवल वर्तमान आवश्यकताओं पर ध्यान केंद्रित करने से अप्रचलित AI चिप्स प्राप्त होंगे जो नवीनतम एप्लिकेशन नवाचारों के अनुकूल नहीं हो सकते हैं।
AI एप्लिकेशन एल्गोरिथम नवाचार अब साप्ताहिक आधार पर होता है। जैसा कि पिछले लेखों में उल्लेख किया गया है, AI मॉडल को समान क्षमताओं को प्राप्त करने के लिए आवश्यक कंप्यूटिंग शक्ति प्रति वर्ष 4-10 गुना कम हो जाती है। GPT-3 के समान गुणवत्ता प्राप्त करने वाले AI मॉडल की अनुमानित लागत पिछले तीन वर्षों में 1200 गुना कम हो गई है। वर्तमान में, 2B मापदंडों वाले मॉडल कल के 170B पैरामीटर GPT-3 के समान स्तर को प्राप्त कर सकते हैं। AI प्रौद्योगिकी स्टैक की ऊपरी परतों में यह तेजी से नवाचार पारंपरिक चिप आर्किटेक्चर योजना और डिजाइन के लिए महत्वपूर्ण चुनौतियां प्रस्तुत करता है।
एलाद राज का मानना है कि उद्योग को डीपसीक MLA जैसे नवाचारों को AI प्रौद्योगिकी के लिए आदर्श के रूप में पहचानने की आवश्यकता है। ‘अगली पीढ़ी की कंप्यूटिंग को न केवल आज के वर्कलोड के लिए अनुकूलित करने की आवश्यकता है, बल्कि भविष्य की सफलताओं को भी समायोजित करने की आवश्यकता है।’ यह परिप्रेक्ष्य न केवल चिप उद्योग पर लागू होता है बल्कि AI प्रौद्योगिकी स्टैक के पूरे मध्य-से-निचले स्तर के बुनियादी ढांचे पर भी लागू होता है।
‘डीपसीक और अन्य नवाचारों ने एल्गोरिथम नवाचार की तेजी से प्रगति का प्रदर्शन किया है,’ एलाद राज ने कहा। ‘शोधकर्ताओं और डेटा वैज्ञानिकों को नई अंतर्दृष्टि और खोजों को चलाने के लिए अधिक बहुमुखी, लचीले उपकरणों की आवश्यकता है। बाजार को बुद्धिमान, सॉफ्टवेयर-परिभाषित हार्डवेयर कंप्यूटिंग प्लेटफार्मों की आवश्यकता है जो ग्राहकों को मौजूदा एक्सेलेरेटर समाधानों को ‘ड्रॉप-इन रिप्लेस’ करने की अनुमति देते हैं, जबकि डेवलपर्स को अपने काम को दर्द रहित तरीके से पोर्ट करने में सक्षम बनाते हैं।’
इस स्थिति को संबोधित करने के लिए, उद्योग को अधिक बुद्धिमान, अनुकूलनीय और लचीला कंप्यूटिंग बुनियादी ढांचा डिजाइन करना चाहिए।
लचीलापन और दक्षता अक्सर विरोधाभासी लक्ष्य होते हैं। CPU अत्यधिक लचीले होते हैं लेकिन GPU की तुलना में समानांतर कंप्यूटिंग दक्षता काफी कम होती है। GPU, अपनी प्रोग्रामिंग क्षमता के साथ, समर्पित AI ASIC चिप्स की तुलना में कम कुशल हो सकते हैं।
एलाद राज ने उल्लेख किया कि NVIDIA को उम्मीद है कि AI डेटा सेंटर रैक जल्द ही 600kW बिजली की खपत तक पहुंच जाएंगे। संदर्भ के लिए, 75% मानक एंटरप्राइज डेटा सेंटर में प्रति रैक केवल 15-20kW की चरम बिजली की खपत होती है। AI में संभावित दक्षता लाभों के बावजूद, यह कंप्यूटिंग इंफ्रास्ट्रक्चर सिस्टम बनाने वाले डेटा सेंटर के लिए एक महत्वपूर्ण चुनौती है।
एलाद राज के विचार में, वर्तमान GPU और AI एक्सेलेरेटर AI और हाई-परफॉर्मेंस कंप्यूटिंग (HPC) की संभावित मांगों को पूरा करने के लिए पर्याप्त नहीं हो सकते हैं। ‘अगर हम कंप्यूटिंग दक्षता में सुधार करने के तरीके पर मौलिक रूप से पुनर्विचार नहीं करते हैं, तो उद्योग भौतिक और आर्थिक सीमाओं तक पहुंचने का जोखिम उठाता है। इस दीवार के दुष्प्रभाव भी होंगे, जो AI और HPC तक अधिक संगठनों की पहुंच को सीमित करते हैं, एल्गोरिदम या पारंपरिक GPU आर्किटेक्चर में प्रगति के बावजूद नवाचार में बाधा डालते हैं।’
अगली पीढ़ी के कंप्यूटिंग इंफ्रास्ट्रक्चर के लिए सिफारिशें और आवश्यकताएं
इन टिप्पणियों के आधार पर, एलाद राज ने अगली पीढ़ी के कंप्यूटिंग इंफ्रास्ट्रक्चर को परिभाषित करने के लिए ‘चार स्तंभ’ प्रस्तावित किए:
(1) प्लग-एंड-प्ले रिप्लेसबिलिटी: ‘इतिहास ने दिखाया है कि जटिल आर्किटेक्चर संक्रमण, जैसे CPU से GPU में माइग्रेशन, को पूरी तरह से लागू करने में दशकों लग सकते हैं। इसलिए, अगली पीढ़ी के कंप्यूटिंग आर्किटेक्चर को सुचारू माइग्रेशन का समर्थन करना चाहिए।’ ‘प्लग-एंड-प्ले’ प्रतिस्थापनशीलता के लिए, एलाद राज का सुझाव है कि नए कंप्यूटिंग आर्किटेक्चर को x86 और आर्म पारिस्थितिक तंत्र से सीखना चाहिए, पिछड़े संगतता के माध्यम से व्यापक स्वीकृति प्राप्त करना चाहिए।
आधुनिक डिजाइनों को डेवलपर्स को बड़ी मात्रा में कोड को फिर से लिखने या विशिष्ट विक्रेताओं पर निर्भरता बनाने की आवश्यकता से भी बचना चाहिए। ‘उदाहरण के लिए, MLA जैसी उभरती प्रौद्योगिकियों के लिए समर्थन को मानकीकृत किया जाना चाहिए, न कि गैर-NVIDIA GPU के मामले में अतिरिक्त मैनुअल समायोजन की आवश्यकता हो। अगली पीढ़ी के सिस्टम को मैनुअल कोड संशोधनों या महत्वपूर्ण API समायोजन की आवश्यकता के बिना, नए वर्कलोड को आउट-ऑफ-द-बॉक्स समझना और अनुकूलित करना चाहिए।’
(2) अनुकूलनीय, रीयल-टाइम प्रदर्शन अनुकूलन: एलाद राज का मानना है कि उद्योग को फिक्स्ड-फंक्शन एक्सेलेरेटर से दूर जाना चाहिए। ‘उद्योग को बुद्धिमान, सॉफ्टवेयर-परिभाषित हार्डवेयर नींव पर निर्माण करने की आवश्यकता है जो रनटाइम पर गतिशील रूप से स्व-अनुकूलित हो सके।’
‘वर्कलोड से लगातार सीखने से, भविष्य के सिस्टम वास्तविक समय में खुद को समायोजित कर सकते हैं, उपयोग और निरंतर प्रदर्शन को अधिकतम कर सकते हैं, चाहे विशिष्ट एप्लिकेशन वर्कलोड कुछ भी हो। यह गतिशील अनुकूलनशीलता का मतलब है कि बुनियादी ढांचा वास्तविक दुनिया के परिदृश्यों में लगातार दक्षता प्रदान कर सकता है, चाहे वह HPC सिमुलेशन, जटिल AI मॉडल या वेक्टर डेटाबेस संचालन चला रहा हो।’
(3) स्केलेबल दक्षता: ‘हार्डवेयर और सॉफ्टवेयर को अलग करके और बुद्धिमान रीयल-टाइम अनुकूलन पर ध्यान केंद्रित करके, भविष्य के सिस्टम को उच्च उपयोग और समग्र ऊर्जा खपत कम होनी चाहिए। इससे बुनियादी ढांचा अधिक लागत प्रभावी और नए वर्कलोड की विकसित मांगों को पूरा करने के लिए स्केलेबल हो जाएगा।’
(4) भविष्य-डिजाइन: यह बिंदु AI इंफ्रास्ट्रक्चर के लिए दूरदर्शी आवश्यकता से मेल खाता है, खासकर चिप डिजाइन। ‘आज के अत्याधुनिक एल्गोरिदम कल अप्रचलित हो सकते हैं।’ ‘चाहे वह AI न्यूरल नेटवर्क हो या ट्रांसफॉर्मर-आधारित LLM मॉडल, अगली पीढ़ी के कंप्यूटिंग इंफ्रास्ट्रक्चर को अनुकूलनीय होने की आवश्यकता है, यह सुनिश्चित करते हुए कि उद्यमों का प्रौद्योगिकी निवेश आने वाले वर्षों तक लचीला बना रहे।’
ये सुझाव एक अपेक्षाकृत आदर्शवादी अभी तक विचारोत्तेजक दृष्टिकोण प्रदान करते हैं। इस मार्गदर्शक पद्धति पर AI और HPC प्रौद्योगिकियों के भविष्य के विकास के लिए विचार किया जाना चाहिए, भले ही कुछ अंतर्निहित विरोधाभास उद्योग में लंबे समय से चले आ रहे मुद्दे बने रहें। ‘AI, HPC और अन्य भविष्य की कंप्यूटिंग और डेटा-गहन वर्कलोड की क्षमता को उजागर करने के लिए, हमें बुनियादी ढांचे पर पुनर्विचार करना चाहिए और नवाचार और अग्रदूतों का समर्थन करने के लिए गतिशील और बुद्धिमान समाधानों को अपनाना चाहिए।’