DeepSeek च्या युगातील एआय चिप्स आणि इन्फ्रास्ट्रक्चरवर पुनर्विचार
DeepSeek च्या प्रगतीमुळे एआय तंत्रज्ञानात वेगाने बदल होत आहेत. त्यामुळे डेटा सेंटर्स, चिप्स आणि आवश्यक संगणकीय क्षमता पुरवण्यासाठी सिस्टीममध्ये मूलभूत बदल करणे गरजेचे आहे. DeepSeek च्या अभियांत्रिकी नवकल्पनांमुळे एआय संगणकीय खर्च लक्षणीयरीत्या कमी झाला आहे, ज्यामुळे एआय इन्फ्रास्ट्रक्चरच्या भविष्याबद्दल चर्चा सुरू झाली आहे.
DeepSeek ने एआय तंत्रज्ञानाच्या सीमा मोठ्या प्रमाणात वाढवल्या नसत्या तरी, एआय मार्केटवर त्याचा प्रभाव खूप आहे. मिक्सचर ऑफ एक्सपर्ट्स (MoE), मल्टी-लेयर अटेंशन (MLA) आणि मल्टी-टोकन प्रेडिक्शन (MTP) यांसारख्या तंत्रज्ञानाला DeepSeek मुळे महत्त्व प्राप्त झाले आहे. ही सर्व तंत्रज्ञान DeepSeek ने शोधलेली नसली तरी, त्यांच्या यशस्वी अंमलबजावणीमुळे त्यांचा मोठ्या प्रमाणावर वापर सुरू झाला आहे. MLA हे विशेषतः एज डिव्हाइसेसपासून क्लाउड کمپیوटिंगपर्यंत विविध प्लॅटफॉर्मवर चर्चेचा विषय बनले आहे.
MLA आणि अल्गोरिदममधील बदलांचे आव्हान
NextSilicon चे सीईओ एलॅड राझ यांनी अलीकडेच सांगितले की MLA मेमरी कार्यक्षमतेत सुधारणा करते, परंतु त्यामुळे डेव्हलपर्सवरील कामाचा भार वाढू शकतो आणि एआय ॲप्लिकेशन्सच्या उत्पादनात गुंतागुंत निर्माण होऊ शकते. GPU वापरकर्त्यांना MLA साठी ‘हँड-कोड’ ऑप्टिमायझेशनमध्ये व्यस्त राहावे लागू शकते. हे उदाहरण एआय चिप्स आणि इन्फ्रास्ट्रक्चर आर्किटेक्चरच्या अंमलबजावणीवर पुनर्विचार करण्याची गरज अधोरेखित करते.
MLA चे महत्त्व समजून घेण्यासाठी, लार्ज लँग्वेज मॉडेल (LLM) ची मूलभूत संकल्पना समजून घेणे आवश्यक आहे. LLM वापरकर्त्यांच्या इनपुटला प्रतिसाद देताना KV वेक्टर – की (key) आणि व्हॅल्यू (value) वर अवलंबून असते, जे मॉडेलला संबंधित डेटावर लक्ष केंद्रित करण्यास सक्षम करते. अटेंशन मेकॅनिझममध्ये, मॉडेल सर्वात योग्य आशय निर्धारित करण्यासाठी नवीन विनंत्यांची ‘की’ बरोबर तुलना करते.
एलॅड राझ यांनी एका पुस्तकाचे उदाहरण दिले आहे, ज्यामध्ये ‘की’ म्हणजे ‘पुस्तकाच्या प्रकरणांची शीर्षके, जी प्रत्येक भाग कशाबद्दल आहे हे दर्शवतात आणि ‘व्हॅल्यू’ म्हणजे त्या शीर्षकांखालील अधिक तपशीलवार सारांश. त्यामुळे, जेव्हा एखादा वापरकर्ता उत्तर शोधण्यासाठी सर्च टर्म टाकतो, तेव्हा तो विचारतो, ‘या कथानकानुसार, कोणते प्रकरण सर्वात संबंधित आहे?’
MLA या प्रकरणांची शीर्षके (की) आणि सारांश (व्हॅल्यू) कॉम्प्रेस करते, ज्यामुळे उत्तरे शोधण्याची प्रक्रिया वेगवान होते आणि कार्यक्षमता वाढते. DeepSeek ला MLA मुळे मेमरीचा वापर 5-13% पर्यंत कमी करण्यात मदत होते. MediaTek च्या डेव्हलपर कॉन्फरन्समध्ये त्यांच्या Dimensity मोबाइल चिप्समध्ये MLA साठी सपोर्ट देण्याबाबत चर्चा करण्यात आली, ज्यामुळे DeepSeek चा प्रभाव दिसून येतो.
MLA सारखी तंत्रज्ञान एआय युगातील अल्गोरिदममधील बदलांचे प्रतिनिधित्व करतात. एआय तंत्रज्ञानाच्या विकासाच्या गतीमुळे सतत नवीन बदल घडत आहेत, ज्यामुळे विशेषत: विशिष्ट प्लॅटफॉर्मसाठी तयार केलेल्या बदलांमुळे नवीन समस्या निर्माण होतात. MLA च्या बाबतीत, नॉन-NVIDIA GPU वापरकर्त्यांना तंत्रज्ञानाचा लाभ घेण्यासाठी अतिरिक्त मॅन्युअल कोडिंगची आवश्यकता असते.
DeepSeek च्या तंत्रज्ञानामुळे एआय युगातील नवकल्पना आणि मूल्य दिसून येते, हार्डवेअर आणि सॉफ्टवेअरने या बदलांना स्वीकारणे आवश्यक आहे. एलॅड राझ यांच्या मते, अशा बदलांमुळे डेव्हलपर्स आणि उत्पादन वातावरणासाठी गुंतागुंत कमी झाली पाहिजे. अन्यथा, प्रत्येक बदलाची किंमत खूप जास्त होईल.
मग प्रश्न असा आहे: ‘जर पुढील अल्गोरिदममधील बदल चांगल्या प्रकारे रूपांतरित झाले नाहीत, तर त्याचे परिणाम काय होतील?’
चिप डिझाइन आणि अल्गोरिदम बदलांमधील संघर्ष
गेल्या काही वर्षांपासून, एआय चिप उत्पादकांनी सातत्याने सांगितले आहे की मोठी एआय चिप डिझाइन करण्यासाठी किमान 1-2 वर्षे लागतात. याचा अर्थ चिप बाजारात येण्यापूर्वीच तिची डिझाइन प्रक्रिया सुरू करावी लागते. एआय तंत्रज्ञानातील जलद प्रगती लक्षात घेता, एआय चिप डिझाइन दूरदृष्टी ठेवून केले पाहिजे. केवळ वर्तमान गरजांवर लक्ष केंद्रित केल्यास, एआय चिप्स जुन्या होतील आणि नवीनतम ॲप्लिकेशन बदलांना स्वीकारू शकणार नाहीत.
एआय ॲप्लिकेशन अल्गोरिदममध्ये आता दर आठवड्याला बदल होतात. पूर्वीच्या लेखांमध्ये नमूद केल्याप्रमाणे, एआय मॉडेल्सला समान क्षमता प्राप्त करण्यासाठी आवश्यक असलेली संगणकीय शक्ती दरवर्षी 4-10 पटीने कमी होते. GPT-3 च्या तुलनेत समान गुणवत्ता मिळवणाऱ्या एआय मॉडेल्सची अनुमान किंमत मागील तीन वर्षांत 1200 पटीने घटली आहे. सध्या, 2B पॅरामीटर्स असलेले मॉडेल 170B पॅरामीटर GPT-3 च्या बरोबरीचे कार्य करू शकतात. एआय तंत्रज्ञान स्तरावरील जलद बदलांमुळे पारंपारिक चिप आर्किटेक्चर प्लॅनिंग आणि डिझाइनसाठी महत्त्वपूर्ण आव्हाने निर्माण झाली आहेत.
एलॅड राझ यांचा असा विश्वास आहे की उद्योगाने DeepSeek MLA सारख्या बदलांना एआय तंत्रज्ञानाचा एक सामान्य भाग म्हणून ओळखले पाहिजे. ‘पुढील पिढीतील संगणकीय प्रणाली केवळ आजच्या वर्कलोडसाठीच अनुकूल नसावी, तर भविष्यातील प्रगतीसाठीही तयार असावी.’ हा दृष्टिकोन केवळ चिप उद्योगालाच नाही, तर एआय तंत्रज्ञान स्तरावरील मध्यम ते निम्न स्तरावरील इन्फ्रास्ट्रक्चरलाही लागू होतो.
एलॅड राझ म्हणाले, ‘DeepSeek आणि इतर नवकल्पनांनी अल्गोरिदम बदलांची गती दर्शविली आहे. संशोधक आणि डेटा वैज्ञानिकांना नवीन अंतर्दृष्टी आणि शोध घेण्यासाठी अधिक बहुमुखी साधनांची आवश्यकता आहे. बाजारात बुद्धिमान, सॉफ्टवेअर-डिफाइन्ड हार्डवेअर کمپیوटिंग प्लॅटफॉर्मची गरज आहे, जे ग्राहकांना विद्यमान एक्सीलरेटर सोल्यूशन्स ‘ड्रॉप-इन रिप्लेस’ करण्याची परवानगी देईल, तसेच डेव्हलपर्सना त्यांचे काम सहजपणे पोर्ट करण्यास सक्षम करेल.’
या परिस्थितीला तोंड देण्यासाठी, उद्योगाने अधिक बुद्धिमान, जुळवून घेण्यायोग्य आणि लवचिक कंप्यूटिंग इन्फ्रास्ट्रक्चर डिझाइन केले पाहिजे.
लवचिकता आणि कार्यक्षमता हे अनेकदा विरोधाभासी ध्येय असतात. CPU अत्यंत लवचिक असतात, परंतु GPU पेक्षा त्यांची समांतर संगणकीय कार्यक्षमता लक्षणीयरीत्या कमी असते. GPU त्यांच्या प्रोग्राम करण्याच्या क्षमतेमुळे, समर्पित एआय ASIC चिप्सपेक्षा कमी कार्यक्षम असू शकतात.
एलॅड राझ यांनी नमूद केले की NVIDIA लवकरच एआय डेटा सेंटर रॅक्स 600kW पर्यंत वीज वापरण्याची अपेक्षा करते. संदर्भासाठी, 75% मानक एंटरप्राइज डेटा सेंटर्समध्ये प्रति रॅक केवळ 15-20kW चा पीक वीज वापर असतो. एआयमधील संभाव्य कार्यक्षमतेत वाढ विचारात न घेता, हे कंप्यूटिंग इन्फ्रास्ट्रक्चर सिस्टीम तयार करणार्या डेटा सेंटर्ससाठी एक महत्त्वपूर्ण आव्हान आहे.
एलॅड राझ यांच्या दृष्टिकोनातून, सध्याचे GPU आणि एआय एक्सीलरेटर एआय आणि उच्च-कार्यक्षमता کمپیوटिंगच्या (HPC) संभाव्य मागण्या पूर्ण करण्यासाठी पुरेसे नसू शकतात. ‘जर आपण संगणकीय कार्यक्षमता सुधारण्याच्या पद्धतीवर मूलभूतपणे पुनर्विचार केला नाही, तर उद्योगाला शारीरिक आणि आर्थिक मर्यादा येण्याचा धोका आहे. याचा नकारात्मक परिणाम AI आणि HPC पर्यंत पोहोचण्यावर होईल आणि अल्गोरिदम किंवा पारंपारिक GPU आर्किटेक्चरमधील प्रगती असूनही, अनेक संस्थांसाठी नवकल्पना थांबतील.’
पुढील पिढीतील कंप्यूटिंग इन्फ्रास्ट्रक्चरसाठी शिफारसी आणि आवश्यकता
या निरीक्षणांवर आधारित, एलॅड राझ यांनी पुढील पिढीतील कंप्यूटिंग इन्फ्रास्ट्रक्चरसाठी ‘चार आधारस्तंभ’ प्रस्तावित केले:
(1) प्लग-एंड-प्ले रिप्लेसेबिलिटी: ‘इतिहासाने दाखवून दिले आहे की CPU ते GPU मध्ये केलेले गुंतागुंतीचे बदल पूर्णपणे अंमलात आणण्यासाठी दशके लागू शकतात. त्यामुळे, पुढील पिढीतील कंप्यूटिंग आर्किटेक्चरने सुरळीत बदलांना सपोर्ट केला पाहिजे.’ ‘प्लग-एंड-प्ले’ रिप्लेसेबिलिटीसाठी, एलॅड राझ यांनी असे सुचवले आहे की नवीन कंप्यूटिंग आर्किटेक्चरने x86 आणि Arm इकोसिस्टममधून शिकावे आणि मागास सुसंगततेद्वारे (backward compatibility) व्यापक स्वीकारार्हता मिळवावी.
आधुनिक डिझाइनमध्ये डेव्हलपर्सना मोठ्या प्रमाणात कोड पुन्हा लिहिण्याची किंवा विशिष्ट विक्रेत्यांवर अवलंबून राहण्याची आवश्यकता नसावी. ‘उदाहरणार्थ, MLA सारख्या उदयोन्मुख तंत्रज्ञानासाठी सपोर्ट प्रमाणित केला पाहिजे, जसा की नॉन-NVIDIA GPU च्या बाबतीत अतिरिक्त मॅन्युअल ॲडजस्टमेंटची आवश्यकता असते. पुढील पिढीतील सिस्टीमने मॅन्युअल कोड बदल किंवा महत्त्वपूर्ण API ॲडजस्टमेंटची आवश्यकता न ठेवता नवीन वर्कलोड्स समजून घेतले पाहिजे आणि ऑप्टिमाइझ केले पाहिजे.’
(2) जुळवून घेण्यायोग्य, रिअल-टाइम परफॉरमन्स ऑप्टिमायझेशन: एलॅड राझ यांचा विश्वास आहे की उद्योगाने फिक्स्ड-फंक्शन एक्सीलरेटरपासून दूर जावे. ‘उद्योगाला बुद्धिमान, सॉफ्टवेअर-डिफाइन्ड हार्डवेअर पाया तयार करणे आवश्यक आहे, जे रनटाइममध्ये गतिशीलपणे स्वतःला ऑप्टिमाइझ करू शकतील.’
‘वर्कलोड्समधून सतत शिकून, भविष्यातील सिस्टीम रिअल-टाइममध्ये स्वतःला ॲडजस्ट करू शकतात, ज्यामुळे विशिष्ट ॲप्लिकेशन वर्कलोड पर्वा न करता जास्तीत जास्त उपयोग आणि निरंतर कार्यक्षमतेची खात्री होते. या डायनॅमिक ॲडॉप्टेबिलिटीचा अर्थ असा आहे की इन्फ्रास्ट्रक्चर HPC सिम्युलेशन, कॉम्प्लेक्स एआय मॉडेल किंवा वेक्टर डेटाबेस ऑपरेशन्समध्ये सातत्यपूर्ण कार्यक्षमता प्रदान करू शकते.’
(3) स्केलेबल कार्यक्षमता: ‘हार्डवेअर आणि सॉफ्टवेअर वेगळे करून आणि बुद्धिमान रिअल-टाइम ऑप्टिमायझेशनवर लक्ष केंद्रित करून, भविष्यातील सिस्टीमने जास्त उपयोग आणि कमी ऊर्जा वापर साध्य केला पाहिजे. यामुळे इन्फ्रास्ट्रक्चर अधिक किफायतशीर आणि नवीन वर्कलोड्सच्या मागणीनुसार स्केलेबल होईल.’
(4) फ्यूचर-डिझाइन: हा मुद्दा एआय इन्फ्रास्ट्रक्चरसाठी दूरदृष्टीची आवश्यकता दर्शवतो, विशेषत: चिप डिझाइनसाठी. ‘आजचे अत्याधुनिक अल्गोरिदम उद्या कालबाह्य होऊ शकतात.’ ‘एआय न्यूरल नेटवर्क्स असोत किंवा ट्रान्सफॉर्मर-आधारित LLM मॉडेल, पुढील पिढीतील कंप्यूटिंग इन्फ्रास्ट्रक्चर जुळवून घेण्यायोग्य असणे आवश्यक आहे, जेणेकरून उद्योगांचे तंत्रज्ञानमधील गुंतवणूक अनेक वर्षे टिकून राहील.’
या सूचना तुलनेने आदर्शवादी पण विचार करायला लावणाऱ्या आहेत. एआय आणि HPC तंत्रज्ञानाच्या भविष्यातील विकासासाठी या मार्गदर्शन पद्धतीचा विचार केला पाहिजे, जरी काही अंतर्निहित विरोधाभास उद्योगात दीर्घकाळ टिकून राहतील. ‘एआय, HPC आणि भविष्यातील कंप्यूटिंग आणि डेटा-इंटेंसिव्ह वर्कलोड्सची क्षमता वाढवण्यासाठी, आपण इन्फ्रास्ट्रक्चरवर पुनर्विचार करणे आणि नवकल्पना व प्रगतीला समर्थन देण्यासाठी गतिशील आणि बुद्धिमान सोल्यूशन्स स्वीकारणे आवश्यक आहे.’