AI दक्षता: हर समय 100% ब्रेनपावर नहीं

AI विकास की अथक प्रगति ने लगातार दिखाया है कि बड़े मॉडल ज़्यादा स्मार्ट होते हैं, लेकिन उनकी परिचालन संबंधी मांगें भी बढ़ जाती हैं। इससे एक महत्वपूर्ण चुनौती पैदा होती है, खासकर उन क्षेत्रों में जहाँ उन्नत AI चिप्स की सीमित पहुंच है। हालाँकि, भौगोलिक बाधाओं के बावजूद, मॉडल डेवलपर्स के बीच Mixture of Experts (MoE) आर्किटेक्चर और नवीन संपीड़न तकनीकों को अपनाने की बढ़ती प्रवृत्ति है। इसका लक्ष्य? इन विशाल Large Language Models (LLM) को तैनात करने और चलाने के लिए आवश्यक कम्प्यूटेशनल संसाधनों को ज़बरदस्त तरीके से कम करना। ChatGPT द्वारा शुरू किए गए जेनरेटिव AI बूम की तीसरी वर्षगांठ के नजदीक आते ही, उद्योग आखिरकार इन बिजली-भूखे मॉडलों को चालू रखने के आर्थिक निहितार्थों पर गंभीरता से विचार करना शुरू कर रहा है।

जबकि Mistral AI जैसे MoE मॉडल कुछ समय से हैं, उनकी वास्तविक सफलता पिछले वर्ष में हुई है। हमने Microsoft, Google, IBM, Meta, DeepSeek और Alibaba जैसी तकनीकी दिग्गजों से नए ओपन-सोर्स LLM की एक लहर देखी है, जो सभी किसी न किसी रूप में MoE आर्किटेक्चर का लाभ उठा रहे हैं। आकर्षण सीधा है: MoE आर्किटेक्चर पारंपरिक "घने" मॉडल आर्किटेक्चर की तुलना में कहीं अधिक कुशल विकल्प प्रदान करते हैं।

मेमोरी सीमाओं पर काबू पाना

MoE आर्किटेक्चर का आधार 1990 के दशक की शुरुआत का है, जब "Adaptive Mixtures of Local Experts" का प्रकाशन हुआ था। मूल विचार एक व्यापक स्पेक्ट्रम डेटा पर प्रशिक्षित एक एकल, विशाल मॉडल पर निर्भर रहने के बजाय, कार्यों को एक या एक से अधिक विशेष उप-मॉडल या "विशेषज्ञों" को वितरित करने के इर्द-गिर्द घूमता है।

सैद्धांतिक रूप से, प्रत्येक विशेषज्ञ को कोडिंग और गणित से लेकर रचनात्मक लेखन तक, एक विशिष्ट डोमेन के लिए सावधानीपूर्वक अनुकूलित किया जा सकता है। हालाँकि, यह ध्यान देने योग्य है कि अधिकांश मॉडल डेवलपर अपने MoE मॉडलों के भीतर विशिष्ट विशेषज्ञों के बारे में सीमित जानकारी प्रदान करते हैं और विशेषज्ञों की संख्या मॉडल से मॉडल में भिन्न होती है। महत्वपूर्ण रूप से, पूरे मॉडल का केवल एक अंश ही किसी भी समय सक्रिय रूप से लगा रहता है।

DeepSeek के V3 मॉडल पर विचार करें, जिसमें एक साझा विशेषज्ञ के साथ 256 रूट किए गए विशेषज्ञ शामिल हैं। टोकन प्रोसेसिंग के दौरान, केवल आठ रूट किए गए विशेषज्ञ, साथ ही साझा विशेषज्ञ, सक्रिय होते हैं। इस चयनात्मक सक्रियण का मतलब है कि MoE मॉडल शायद हमेशा समान आकार के घने मॉडलों के समान स्तर की गुणवत्ता प्राप्त नहीं कर सकते हैं। उदाहरण के लिए, Alibaba का Qwen3-30B-A3B MoE मॉडल Alibaba के बेंचमार्क परीक्षणों में घने Qwen3-32B मॉडल से लगातार ख़राब प्रदर्शन करता है।

हालाँकि, MoE आर्किटेक्चर द्वारा दी जाने वाली पर्याप्त दक्षता लाभ के मुकाबले गुणवत्ता में इस मामूली गिरावट को प्रासंगिक बनाना आवश्यक है। सक्रिय मापदंडों में कमी के परिणामस्वरूप मेमोरी बैंडविड्थ आवश्यकताएँ होती हैं जो अब सीधे मॉडल के भार को संग्रहीत करने के लिए आवश्यक क्षमता के आनुपातिक नहीं होती हैं। अनिवार्य रूप से, जबकि MoE मॉडल को अभी भी पर्याप्त मेमोरी की आवश्यकता हो सकती है, उन्हें आवश्यक रूप से सबसे तेज़ और सबसे महंगी High Bandwidth Memory (HBM) होने की आवश्यकता नहीं है।

आइए इसे एक तुलना से समझाते हैं। Meta के सबसे बड़े "घने" मॉडल, Llama 3.1 405B, और Llama 4 Maverick पर विचार करें, एक तुलनीय मॉडल जो 17 बिलियन सक्रिय मापदंडों के साथ MoE आर्किटेक्चर का उपयोग करता है। जबकि बैच आकार, फ़्लोटिंग-पॉइंट प्रदर्शन और कुंजी-मान कैशिंग जैसे कई कारक वास्तविक दुनिया के प्रदर्शन में योगदान करते हैं, हम एक बैच आकार पर प्रति सेकंड लक्षित टोकन द्वारा एक निश्चित सटीकता (8-बिट मॉडल के लिए प्रति पैरामीटर 1 बाइट) पर गीगाबाइट में मॉडल के आकार को गुणा करके न्यूनतम बैंडविड्थ आवश्यकताओं का अनुमान लगा सकते हैं।

Llama 3.1 405B के 8-बिट क्वांटीकृत संस्करण को चलाने के लिए 405 GB से अधिक vRAM और 50 टोकन प्रति सेकंड की दर से टेक्स्ट जेनरेट करने के लिए कम से कम 20 TB/s मेमोरी बैंडविड्थ की आवश्यकता होगी। Nvidia के HGX H100-आधारित सिस्टम, जिनकी हाल ही में $300,000 या उससे अधिक की कीमतें थीं, ने केवल 640 GB HBM3 और लगभग 26.8 TB/s का कुल बैंडविड्थ प्रदान किया। पूर्ण 16-बिट मॉडल को चलाने के लिए इनमें से कम से कम दो सिस्टम की आवश्यकता होगी।

इसके विपरीत, Llama 4 Maverick, समान मात्रा में मेमोरी का उपयोग करने के बाद, तुलनीय प्रदर्शन प्राप्त करने के लिए 1 TB/s से कम बैंडविड्थ की आवश्यकता होती है। ऐसा इसलिए है क्योंकि मॉडल विशेषज्ञों के केवल 17 बिलियन पैरामीटर ही सक्रिय रूप से आउटपुट जेनरेट करने में शामिल होते हैं। यह उसी हार्डवेयर पर टेक्स्ट जेनरेट करने की गति में एक क्रम-की-परिमाण वृद्धि में तब्दील हो जाता है।

इसके विपरीत, यदि सरासर प्रदर्शन प्राथमिक चिंता नहीं है, तो इनमें से कई मॉडलों को अब सस्ते, यद्यपि धीमे, GDDR6, GDDR7 या यहां तक कि DDR मेमोरी पर भी चलाया जा सकता है, जैसा कि Intel के नवीनतम Xeons में देखा गया है।

Nvidia के नए RTX Pro सर्वर, जिसकी घोषणा Computex में की गई थी, इसी परिदृश्य के अनुरूप हैं। उन्नत पैकेजिंग की आवश्यकता वाले महंगे और बिजली-भूखे HBM पर निर्भर रहने के बजाय, इन प्रणालियों में प्रत्येक आठ RTX Pro 6000 GPU आधुनिक गेमिंग कार्ड में पाए जाने वाले समान प्रकार, GDDR7 मेमोरी के 96 GB से लैस है।

ये सिस्टम 768 GB तक vRAM और 12.8 TB/s का एग्रीगेट बैंडविड्थ प्रदान करते हैं, जो Llama 4 Maverick को सैकड़ों टोकन प्रति सेकंड पर चलाने के लिए पर्याप्त से अधिक है। जबकि Nvidia ने कीमतों का खुलासा नहीं किया है, इन कार्डों के वर्कस्टेशन संस्करण की खुदरा कीमत लगभग $8,500 है, जिससे पता चलता है कि इन सर्वरों की कीमत इस्तेमाल किए गए HGX H100 की लागत से आधी से कम हो सकती है।

हालाँकि, MoE HBM-स्टैक्ड GPU के अंत का प्रतीक नहीं है। मान लीजिए कि Llama 4 Behemoth, अगर कभी जारी होता है, तो अपने विशाल आकार के कारण GPU से भरे रैक की आवश्यकता होगी।

हालाँकि इसमें Llama 3.1 405B के सक्रिय मापदंडों का लगभग आधा हिस्सा है, लेकिन इसमें कुल 2 ट्रिलियन पैरामीटर हैं। वर्तमान में, बाज़ार में कोई भी पारंपरिक GPU सर्वर नहीं है जो पूर्ण 16-बिट मॉडल और एक मिलियन टोकन या उससे अधिक के संदर्भ विंडो को समायोजित कर सके।

AI में CPU का पुनर्जागरण?

विशिष्ट एप्लिकेशन के आधार पर, GPU हमेशा ज़रूरी नहीं हो सकता है, खासकर उन क्षेत्रों में जहाँ हाई-एंड एक्सेलेरेटर तक पहुंच प्रतिबंधित है।

Intel ने अप्रैल में 8800 MT/s MCRDIMM से लैस एक डुअल-सॉकेट Xeon 6 प्लेटफ़ॉर्म का प्रदर्शन किया। इस सेटअप ने Llama 4 Maverick में 240 टोकन प्रति सेकंड की थ्रूपुट हासिल की, जिसमें प्रति टोकन 100 ms से कम का औसत आउटपुट विलंबता थी।

सरल शब्दों में, Xeon प्लेटफ़ॉर्म लगभग 24 समवर्ती उपयोगकर्ताओं के लिए प्रति उपयोगकर्ता 10 टोकन प्रति सेकंड या उससे अधिक बनाए रख सकता है।

Intel ने एकल-उपयोगकर्ता प्रदर्शन आंकड़े का खुलासा नहीं किया, क्योंकि वे वास्तविक दुनिया के परिदृश्यों में कम प्रासंगिक हैं। हालाँकि, अनुमान लगभग 100 टोकन प्रति सेकंड के शिखर प्रदर्शन का सुझाव देते हैं।

फिर भी, जब तक कि कोई बेहतर विकल्प या विशिष्ट आवश्यकताएँ न हों, CPU-आधारित निष्कर्ष का अर्थशास्त्र उपयोग के मामले पर अत्यधिक निर्भर करता है।

भार में कमी: प्रूनिंग और क्वांटिज़ेशन

MoE आर्किटेक्चर बड़े मॉडलों को परोसने के लिए आवश्यक मेमोरी बैंडविड्थ को कम कर सकते हैं, लेकिन वे उनके भार को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा को कम नहीं करते हैं। 8-बिट परिशुद्धता पर भी, Llama 4 Maverick को सक्रिय मापदंडों की संख्या से कोई फर्क नहीं पड़ता, चलाने के लिए 400 GB से अधिक मेमोरी की आवश्यकता होती है।

उभरती हुई प्रूनिंग तकनीक और क्वांटिज़ेशन विधियाँ गुणवत्ता का त्याग किए बिना संभावित रूप से उस आवश्यकता को आधा कर सकती हैं।

Nvidia प्रूनिंग का एक प्रस्तावक रहा है, Meta के Llama 3 मॉडल के प्रून किए गए संस्करण जारी कर रहा है, जिनमें से अनावश्यक भार हटा दिए गए हैं।

Nvidia 2022 में 8-बिट फ़्लोटिंग-पॉइंट डेटा प्रकारों और 2024 में अपने Blackwell आर्किटेक्चर के लॉन्च के साथ फिर से 4-बिट फ़्लोटिंग पॉइंट का समर्थन करने वाली पहली कंपनियों में से एक थी। AMD के पहले चिप्स जो मूल FP4 समर्थन प्रदान करते हैं, उनके जल्द ही जारी होने की उम्मीद है।

कड़ाई से ज़रूरी नहीं होने पर, इन डेटा प्रकारों के लिए मूल हार्डवेयर समर्थन आम तौर पर कम्प्यूटेशनल बाधाओं का सामना करने की संभावना को कम करता है, खासकर पैमाने पर परोसते समय।

हमने मॉडल डेवलपर्स की कम परिशुद्धता वाले डेटा प्रकारों को अपनाने की बढ़ती संख्या देखी है, Meta, Microsoft और Alibaba अपने मॉडल के आठ-बिट और यहां तक कि चार-बिट क्वांटीकृत संस्करण भी पेश करते हैं।

क्वांटिज़ेशन में मॉडल वेट को उनकी मूल परिशुद्धता, आमतौर पर BF16 से FP8 या INT4 तक संपीड़ित करना शामिल है। यह अनिवार्य रूप से कुछ गुणवत्ता की कीमत पर मॉडल की मेमोरी बैंडविड्थ और क्षमता आवश्यकताओं को आधा या यहां तक कि तीन-चौथाई तक कम कर देता है।

16 बिट्स से आठ बिट्स में संक्रमण से जुड़ी हानियाँ अक्सर नगण्य होती हैं, और DeepSeek सहित कई मॉडल बिल्डरों ने शुरुआत से ही FP8 परिशुद्धता पर प्रशिक्षण शुरू कर दिया है। हालाँकि, परिशुद्धता को और चार बिट्स कम करने से गुणवत्ता में महत्वपूर्ण गिरावट आ सकती है। नतीजतन, GGUF जैसे कई पोस्ट-ट्रेनिंग क्वांटिज़ेशन दृष्टिकोण, सभी वेट को समान रूप से संपीड़ित नहीं करते हैं, जिससे गुणवत्ता के नुकसान को कम करने के लिए कुछ को उच्च परिशुद्धता स्तर पर छोड़ दिया जाता है।

Google ने हाल ही में नेटिव BF16 के करीब गुणवत्ता स्तर बनाए रखते हुए Gemma 3 मॉडल को 4x तक कम करने के लिए क्वांटाइज़ेशन-अवेयर ट्रेनिंग (QAT) के उपयोग का प्रदर्शन किया।

QAT प्रशिक्षण के दौरान कम-परिशुद्धता वाले कार्यों का अनुकरण करता है। एक गैर-योग्य मॉडल पर लगभग 5,000 चरणों के लिए तकनीक लागू करके, Google INT4 में परिवर्तित होने पर क्वांटाइज़ेशन संबंधी नुकसान को मापने के लिए एक मीट्रिक, व्याकुलता में गिरावट को 54 प्रतिशत तक कम करने में सक्षम था।

क्वांटिज़ेशन के लिए एक अन्य QAT-आधारित दृष्टिकोण, जिसे Bitnet के रूप में जाना जाता है, का उद्देश्य और भी कम परिशुद्धता स्तरों का है, जो मॉडलों को केवल 1.58 बिट्स तक संपीड़ित करता है, या लगभग उनके मूल आकार का दसवां हिस्सा।

प्रौद्योगिकियों का तालमेल

MoE और 4-बिट क्वांटिज़ेशन के संयोजन से महत्वपूर्ण लाभ मिलते हैं, खासकर जब बैंडविड्थ सीमित हो।

दूसरों के लिए जो बैंडविड्थ-बाधित नहीं हैं, हालाँकि, दोनों में से कोई भी तकनीक, चाहे MoE हो या क्वांटिज़ेशन, बड़े और अधिक शक्तिशाली मॉडल चलाने के लिए उपकरण और संचालन की लागत को काफी कम कर सकती है; यह मानते हुए कि उनके प्रदर्शन के लिए एक मूल्यवान सेवा पाई जा सकती है।

और अगर नहीं, तो आप कम से कम इस बात से संतुष्ट हो सकते हैं कि आप अकेले नहीं हैं–IBM के हालिया सर्वेक्षण में पता चला है कि केवल चार में से एक AI तैनाती ने निवेश पर वह रिटर्न दिया है जिसका वादा किया गया था।