AI कार्यक्षमतेवर पुनर्विचार: मेंदूशक्ती नव्हे!

AI विकासाच्या अथक वाटचालीत हे सातत्याने दिसून आले आहे की मोठे मॉडेल अधिक स्मार्ट असतात, परंतु त्यांच्या कार्यात्मक मागण्या देखील वाढतात. यामुळे एक महत्त्वपूर्ण आव्हान निर्माण होते, विशेषत: प्रगत AI चिप्सपर्यंत मर्यादित प्रवेश असलेल्या प्रदेशांमध्ये. तथापि, भौगोलिक मर्यादांकडे दुर्लक्ष करून, मॉडेल डेव्हलपर्समध्ये Mixture of Experts (MoE) आर्किटेक्चर आणि innovative compression तंत्रांचा स्वीकार करण्याचा कल वाढत आहे. यामागचा उद्देश काय आहे? तर या मोठ्या Large Language Models (LLMs) तैनात करण्यासाठी आणि चालवण्यासाठी आवश्यक computational resources मोठ्या प्रमाणात कमी करणे. ChatGPT द्वारे प्रज्वलित generative AI तेजीच्या तिसऱ्या वर्धापनदिनाकडे आपण वाटचाल करत असताना, उद्योग या power-hungry मॉडेल चालू ठेवण्याच्या आर्थिक परिणामांचा गांभीर्याने विचार करू लागला आहे.

Mixtral AI सारखी MoE मॉडेल, काही काळापासून अस्तित्वात आहेत, परंतु त्यांचा खरा breakthrough गेल्या वर्षी झाला. Microsoft, Google, IBM, Meta, DeepSeek आणि Alibaba यांसारख्या tech giants कडून नवीन open-source LLMs चा उदय झाला आहे, हे सर्व MoE आर्किटेक्चरचा काहीतरी प्रकार वापरत आहेत. याचे आकर्षण अगदी सरळ आहे: MoE आर्किटेक्चर पारंपरिक "dense" मॉडेल आर्किटेक्चरला अधिक कार्यक्षम पर्याय देतात.

स्मरणशक्ती मर्यादांवर मात करणे

MoE आर्किटेक्चरचा पाया 1990 च्या दशकाच्या सुरुवातीला "Adaptive Mixtures of Local Experts." च्या प्रकाशनाने घातला गेला. याचा मूळ विचार हा विस्तृत data spectrum वर प्रशिक्षित असलेल्या एका मोठ्या मॉडेलवर अवलंबून न राहता, कार्ये एका विशिष्ट sub-models किंवा "experts" ला वितरित करणे आहे.

सैद्धांतिकदृष्ट्या, प्रत्येक expert coding आणि mathematics पासून creative writing पर्यंत विशिष्ट domain साठी meticulously optimized केले जाऊ शकते. तथापि, हे लक्षात घेण्यासारखे आहे की बहुतेक मॉडेल डेव्हलपर्स त्यांच्या MoE मॉडेलमधील विशिष्ट experts बद्दल मर्यादित तपशील पुरवतात आणि experts ची संख्या मॉडेलनुसार बदलते. महत्त्वाचे म्हणजे, संपूर्ण मॉडेलचा फक्त एक भाग कोणत्याही विशिष्ट वेळी सक्रिय असतो.

DeepSeek च्या V3 मॉडेलचा विचार करा, ज्यात shared expert सोबत 256 routed experts आहेत. टोकन प्रोसेसिंग दरम्यान, फक्त आठ routed experts, अधिक shared expert सक्रिय केले जातात. या निवडक ऍक्टिवेशनचा अर्थ असा आहे की MoE मॉडेल नेहमी तितक्याच आकाराच्या dense मॉडेलच्या बरोबरीची गुणवत्ता प्राप्त करू शकत नाहीत. उदाहरणार्थ, Alibaba चे Qwen3-30B-A3B MoE मॉडेल, Alibaba च्या बेंचमार्क चाचण्यांमध्ये dense Qwen3-32B मॉडेलपेक्षा कमी performance देत होते.

तथापि, MoE आर्किटेक्चरद्वारे देऊ केलेल्या substantial efficiency gains च्या तुलनेत गुणवत्तेतील ही किंचित घट contextualize करणे आवश्यक आहे. सक्रिय parameters मध्ये घट झाल्यामुळे memory bandwidth आवश्यकता यापुढे मॉडेलचे weights store करण्यासाठी आवश्यक असलेल्या क्षमतेच्या प्रमाणात नसतात. मूलत:, MoE मॉडेलला अजूनही substantial memory ची आवश्यकता असली तरी, ती सर्वात वेगवान आणि महाग High Bandwidth Memory (HBM) असणे आवश्यक नाही.

चला याची तुलना करून स्पष्ट करूया. Meta चे सर्वात मोठे "dense" मॉडेल Llama 3.1 405B, आणि Llama 4 Maverick, एक तुलনীয় मॉडेल जे 17 billion सक्रिय parameters सह MoE आर्किटेक्चर वापरते. batch size, floating-point performance आणि key-value caching यासारखे अनेक घटक वास्तविक जगात performance मध्ये योगदान देत असले तरी, आपण दिलेल्या precision (8-bit मॉडेलसाठी 1 byte per parameter) मध्ये gigabytes मधील मॉडेलचा आकार batch size एक असताना target tokens per second ने गुणाकार करून किमान bandwidth आवश्यकता approximate करू शकतो.

Llama 3.1 405B चे 8-bit quantized version चालवण्यासाठी 405 GB पेक्षा जास्त vRAM आणि 50 tokens per second ने text generate करण्यासाठी किमान 20 TB/s memory bandwidth लागेल. Nvidia च्या HGX H100-based systems, ज्यांची किंमत अलीकडेपर्यंत $300,000 किंवा त्याहून अधिक होती, त्यामध्ये फक्त 640 GB HBM3 आणि अंदाजे 26.8 TB/s aggregate bandwidth होते. संपूर्ण 16-bit मॉडेल चालवण्यासाठी यापैकी किमान दोन systems ची आवश्यकता असेल.

याउलट, Llama 4 Maverick, तितकीच memory consume करत असताना, comparable performance मिळवण्यासाठी 1 TB/s पेक्षा कमी bandwidth ची आवश्यकता आहे. कारण output generate करण्यासाठी फक्त 17 billion parameters किमतीचे मॉडेल experts सक्रियपणे involved असतात. याचा अर्थ असा आहे की त्याच hardware वर text generation speed मध्ये एक order-of-magnitude वाढ होते.

याउलट, जर sheer performance ही प्राथमिक चिंता नसेल, तर यापैकी बरीच मॉडेल आता स्वस्त, जरी हळू, GDDR6, GDDR7, किंवा Intel च्या नवीनतम Xeons मध्ये दिसणाऱ्या DDR memory वर चालवता येऊ शकतात.

Computex मध्ये घोषित केलेले Nvidia चे नवीन RTX Pro Servers, याच scenario साठी तयार केले आहेत. प्रगत packaging आवश्यक असलेल्या महागड्या आणि power-hungry HBM वर अवलंबून राहण्याऐवजी, या systems मधील प्रत्येक आठ RTX Pro 6000 GPUs 96 GB GDDR7 memory ने सुसज्ज आहे, जो आधुनिक gaming cards मध्ये आढळतो.

हे systems 768 GB पर्यंत vRAM आणि 12.8 TB/s aggregate bandwidth deliver करतात, जे Llama 4 Maverick ला शेकडो tokens per second ने चालवण्यासाठी पुरेसे आहे. Nvidia ने किंमत उघड केली नसली तरी, या cards ची workstation edition सुमारे $8,500 मध्ये retail होते, याचा अर्थ असा आहे की या servers ची किंमत वापरलेल्या HGX H100 च्या अर्ध्या किमतीपेक्षा कमी असू शकते.

तथापि, MoE म्हणजे HBM-stacked GPUs चा शेवट नाही. Llama 4 Behemoth, जर ते कधी पाठवले गेले, तर त्याच्या sheer size मुळे GPUs च्या रॅकची आवश्यकता असेल अशी अपेक्षा आहे.

Llama 3.1 405B च्या तुलनेत active parameters अंदाजे निम्मे असले तरी, त्यात एकूण 2 trillion parameters आहेत. सध्या, बाजारात एकही conventional GPU server नाही जी संपूर्ण 16-bit मॉडेल आणि million tokens किंवा त्याहून अधिक context window सामावून घेऊ शकेल.

AI मध्ये CPU पुनर्जागरण?

विशिष्ट application नुसार, GPU नेहमी आवश्यक नसू शकतो, विशेषत: ज्या प्रदेशात high-end accelerators चा प्रवेश मर्यादित आहे.

Intel ने एप्रिलमध्ये 8800 MT/s MCRDIMMs सुसज्ज असलेले dual-socket Xeon 6 platform showcase केले. या सेटअपने Llama 4 Maverick मध्ये 240 tokens per second चा throughput मिळवला, ज्यामध्ये सरासरी output latency 100 ms प्रति टोकनपेक्षा कमी होता.

सोप्या भाषेत सांगायचे झाल्यास, Xeon platform अंदाजे 24 concurrent users साठी प्रति user 10 tokens per second किंवा त्याहून अधिक sustain करू शकते.

Intel ने single-user performance आकडे उघड केले नाहीत, कारण ते वास्तविक जगात scenario मध्ये कमी relevant आहेत. तथापि, अंदाजे 100 tokens per second च्या आसपास peak performance दिसून येते.

तरीही, जोपर्यंत कोणताही चांगला पर्याय किंवा विशिष्ट आवश्यकता नसेल, तोपर्यंत CPU-based inference चे अर्थशास्त्र use case वर अत्यंत अवलंबून असते.

वजन घटवणे: Pruning आणि Quantization

MoE आर्किटेक्चर मोठ्या मॉडेल serving साठी आवश्यक memory bandwidth कमी करू शकतात, परंतु ते त्यांचे weights store करण्यासाठी आवश्यक memory ची मात्रा कमी करत नाहीत. 8-bit precision मध्ये देखील, Llama 4 Maverick ला चालवण्यासाठी 400 GB पेक्षा जास्त memory ची आवश्यकता असते, active parameters ची संख्या काहीही असो.

उदयोन्मुख pruning techniques आणि quantization methods संभाव्यपणे गुणवत्ता न गमावता ती आवश्यकता निम्मी करू शकतात.

Nvidia pruning चा समर्थक आहे, Meta च्या Llama 3 मॉडेलची pruned versions release करत आहे, ज्यातून redundant weights काढले गेले आहेत.

Nvidia 2022 मध्ये 8-bit floating-point data types ला support करणारी पहिली कंपनी होती, आणि पुन्हा 2024 मध्ये Blackwell आर्किटेक्चर लाँच करताना 4-bit floating point ला support करत आहे. AMD चे पहिले chips जे native FP4 support देतात ते लवकरच release होण्याची अपेक्षा आहे.

अत्यंत आवश्यक नसले तरी, या data types साठी native hardware support सामान्यत: computational bottlenecks येण्याची शक्यता कमी करते, विशेषत: scale वर serving करताना.

आम्ही मॉडेल डेव्हलपर्सची कमी-precision data types स्वीकारण्याची वाढती संख्या पाहिली आहे, Meta, Microsoft आणि Alibaba त्यांच्या मॉडेलची आठ-bit आणि अगदी four-bit quantized versions offer करत आहेत.

Quantization मध्ये मॉडेल weights त्यांच्या native precision, सामान्यत: BF16, पासून FP8 किंवा INT4 मध्ये compress करणे समाविष्ट आहे. हे काही गुणवत्तेच्या किंमतीत मॉडेलच्या memory bandwidth आणि capacity आवश्यकता प्रभावीपणे निम्म्याने किंवा तीन-चतुर्थांशने कमी करते.

16 bits मधून आठ bits मध्ये transition केल्याने होणारे नुकसान बहुतेक वेळा negligible असते आणि DeepSeek सह अनेक मॉडेल builders नी सुरुवातीपासूनच FP8 precision वर training सुरू केले आहे. तथापि, आणखी चार bits ने precision कमी केल्याने गुणवत्तेत लक्षणीय घट होऊ शकते. परिणामी, GGUF सारखे अनेक post-training quantization approaches सर्व weights समान रीतीने compress करत नाहीत, काही उच्च precision levels वर ठेवून गुणवत्तेचे नुकसान कमी करतात.

Google ने अलीकडेच quantization-aware training (QAT) चा वापर करून त्याचे Gemma 3 मॉडेल 4x ने कमी केले, तर गुणवत्ता पातळी native BF16 च्या जवळपास राखली.

QAT training दरम्यान low-precision operations simulate करते. non-qualified मॉडेलवर अंदाजे 5,000 steps साठी हे तंत्र apply करून, Google INT4 मध्ये convert केल्यावर perplexity मधील घट 54 टक्क्यांनी कमी करण्यास सक्षम होते, हे quantization-related नुकसान मोजण्याचे metric आहे.

quantization साठी आणखी एक QAT-based approach, ज्याला Bitnet म्हणून ओळखले जाते, आणखी कमी precision levels चे उद्दिष्ट ठेवते, मॉडेलला फक्त 1.58 bits पर्यंत compress करते, किंवा त्यांच्या मूळ आकाराच्या अंदाजे दहापट.

तंत्रज्ञानाचा समन्वय

MoE आणि 4-bit quantization चे संयोजन महत्त्वपूर्ण फायदे देते, विशेषत: जेव्हा bandwidth मर्यादित असते.

इतरांसाठी जे bandwidth-constrained नाहीत, तथापि, MoE असो वा quantization यापैकी कोणतेही एक तंत्रज्ञान मोठ्या आणि अधिक powerful मॉडेल चालवण्यासाठी आवश्यक उपकरणे आणि ऑपरेशनचा खर्च मोठ्या प्रमाणात कमी करू शकते; गृहीत धरून चला की त्यांच्यासाठी perform करण्यासाठी एक मौल्यवान service मिळू शकते.

आणि तसे नसल्यास, तुम्हाला दिलासा मिळू शकतो की तुम्ही एकटे नाही आहात - IBM च्या अलीकडील सर्वेक्षणात असे दिसून आले आहे की केवळ चारपैकी एका AI deployments ने दिलेले investment वरचे return deliver केले आहे.