AI ترقی کی مسلسل پیش رفت نے مسلسل دکھایا ہے کہ بڑے ماڈلز زیادہ ذہین ہوتے ہیں، لیکن ان کے عملی تقاضے بھی بڑھتے ہیں۔ یہ ایک اہم چیلنج پیدا کرتا ہے، خاص طور پر ان علاقوں میں جہاں جدید AI چپس تک رسائی محدود ہے۔ تاہم، جغرافیائی رکاوٹوں سے قطع نظر، ماڈل ڈویلپرز کے درمیان Mixture of Experts (MoE) آرکیٹیکچرز اور جدید کمپریشن تکنیکوں کو اپنانے کا رجحان بڑھ رہا ہے۔ مقصد کیا ہے؟ ان وسیع Large Language Models (LLMs) کو تعینات اور چلانے کے لیے درکار کمپیوٹیشنل وسائل کو ڈرامائی طور پر کم کرنا۔ ChatGPT کے ذریعے بھڑکائی گئی جنریٹو AI بوم کی تیسری سالگرہ قریب آنے کے ساتھ ہی، صنعت آخر کار ان بجلی سے چلنے والے ماڈلز کو چلانے کے معاشی مضمرات پر سنجیدگی سے غور کرنا شروع کر رہی ہے۔
جب کہ MoE ماڈلز، جیسے کہ Mistral AI کے ماڈلز، کچھ عرصے سے موجود ہیں، لیکن ان کی اصل کامیابی گزشتہ سال میں ہوئی ہے۔ ہم نے Microsoft، Google، IBM، Meta، DeepSeek، اور Alibaba جیسے ٹیک جنات کی جانب سے نئے اوپن سورس LLMs کی ایک لہر دیکھی ہے، یہ سب کسی نہ کسی شکل میں MoE آرکیٹیکچر سے فائدہ اٹھا رہے ہیں۔ لالچ سیدھا ہے: MoE آرکیٹیکچرز روایتی "ڈینس" ماڈل آرکیٹیکچرز کے مقابلے میں کہیں زیادہ موثر متبادل پیش کرتے ہیں۔
یادداشت کی حدود پر قابو پانا
MoE آرکیٹیکچر کی بنیاد 1990 کی دہائی کے اوائل میں، "Adaptive Mixtures of Local Experts" کی اشاعت کے ساتھ ملتی ہے۔ بنیادی خیال ایک واحد، بڑے ماڈل پر انحصار کرنے کے بجائے، جو ڈیٹا کے ایک وسیع اسپیکٹرم پر تربیت یافتہ ہے، کاموں کو ایک یا زیادہ خصوصی ذیلی ماڈلز یا "ماہرین" میں تقسیم کرنے کے گرد گھومتا ہے۔
نظریاتی طور پر، ہر ماہر کو کوڈنگ اور ریاضی سے لے کر تخلیقی تحریر تک، ایک مخصوص ڈومین کے لیے باریک بینی سے بہتر بنایا جا سکتا ہے۔ تاہم، یہ بات قابل غور ہے کہ زیادہ تر ماڈل ڈویلپرز اپنے MoE ماڈلز کے اندر موجود مخصوص ماہرین کے بارے میں محدود تفصیلات فراہم کرتے ہیں، اور ماہرین کی تعداد ماڈل سے ماڈل میں مختلف ہوتی ہے۔ اہم بات یہ ہے کہ مجموعی ماڈل کا صرف ایک حصہ کسی بھی وقت فعال طور پر مصروف ہوتا ہے۔
DeepSeek کے V3 ماڈل پر غور کریں، جو 256 روٹڈ ماہرین اور ایک مشترکہ ماہر پر مشتمل ہے۔ ٹوکن پروسیسنگ کے دوران، صرف آٹھ روٹڈ ماہرین، نیز مشترکہ ایک، فعال ہوتے ہیں۔ اس منتخب ایکٹیویشن کا مطلب ہے کہ MoE ماڈلز اسی طرح کے سائز کے ڈینس ماڈلز کی طرح ہمیشہ ایک ہی سطح کا معیار حاصل نہیں کر پاتے۔ مثال کے طور پر، Alibaba کا Qwen3-30B-A3B MoE ماڈل، Alibaba کے بینچ مارک ٹیسٹ میں مسلسل ڈینس Qwen3-32B ماڈل سے کم کارکردگی کا مظاہرہ کرتا ہے۔
تاہم، MoE آرکیٹیکچرز کی جانب سے پیش کی جانے والی ٹھوس کارکردگی میں اضافے کے خلاف معیار میں اس معمولی کمی کو سیاق و سباق میں رکھنا ضروری ہے۔ فعال پیرامیٹرز میں کمی کے نتیجے میں میموری بینڈوڈتھ کی ضروریات ہوتی ہیں جو اب ماڈل کے وزن کو ذخیرہ کرنے کے لیے درکار صلاحیت کے براہ راست متناسب نہیں ہیں۔ ضروری طور پر، جب کہ MoE ماڈلز کو اب بھی کافی میموری کی ضرورت پڑ سکتی ہے، لیکن انھیں ضروری نہیں کہ تیز ترین اور مہنگی ہائی بینڈوڈتھ میموری (HBM) کی ضرورت ہو۔
آئیے اس کا موازنہ کرکے واضح کرتے ہیں۔ Meta کے سب سے بڑے "ڈینس" ماڈل، Llama 3.1 405B، اور Llama 4 Maverick پر غور کریں، جو ایک موازنہ ماڈل ہے جو 17 بلین فعال پیرامیٹرز کے ساتھ MoE آرکیٹیکچر کو استعمال کرتا ہے۔ جب کہ متعدد عوامل، جیسے کہ بیچ سائز، فلوٹنگ پوائنٹ پرفارمنس، اور کلیدی قدر کیشنگ، حقیقی دنیا کی کارکردگی میں حصہ ڈالتے ہیں، ہم ایک بیچ سائز پر فی سیکنڈ ہدف ٹوکنوں کے ذریعے ایک دی گئی درستگی (8 بٹ ماڈلز کے لیے فی پیرامیٹر 1 بائٹ) پر گیگا بائٹس میں ماڈل کے سائز کو ضرب دے کر کم از کم بینڈوڈدتھ کی ضروریات کا تخمینہ لگا سکتے ہیں۔
Llama 3.1 405B کے 8 بٹ quantized ورژن کو چلانے کے لیے 405 GB سے زیادہ vRAM اور کم از کم 20 TB/s میموری بینڈوڈدتھ کی ضرورت ہوگی تاکہ 50 ٹوکن فی سیکنڈ کی شرح سے ٹیکسٹ تیار کیا جا سکے۔ Nvidia کے HGX H100-based سسٹمز، جو حال ہی میں $300,000 یا اس سے زیادہ کی قیمتوں پر فروخت ہوئے تھے، نے صرف 640 GB HBM3 اور تقریباً 26.8 TB/s مجموعی بینڈوڈدتھ فراہم کی۔ مکمل 16 بٹ ماڈل کو چلانے کے لیے ان میں سے کم از کم دو سسٹمز کی ضرورت ہوگی۔
اس کے برعکس، Llama 4 Maverick، میموری کی اتنی ہی مقدار استعمال کرتے ہوئے، موازنہ کارکردگی حاصل کرنے کے لیے 1 TB/s سے کم بینڈوڈدتھ کی ضرورت ہے۔ اس کی وجہ یہ ہے کہ ماڈل کے ماہرین کے صرف 17 بلین پیرامیٹرز فعال طور پر آؤٹ پٹ پیدا کرنے میں شامل ہیں۔ یہ اسی ہارڈ ویئر پر ٹیکسٹ جنریشن کی رفتار میں ایک ترتیب وار اضافہ کا ترجمہ کرتا ہے۔
اس کے برعکس، اگر محض کارکردگی بنیادی تشویش نہیں ہے، تو ان میں سے بہت سے ماڈلز کو اب سستی، اگرچہ سست، GDDR6، GDDR7، یا یہاں تک کہ DDR میموری پر چلایا جا سکتا ہے، جیسا کہ Intel کے تازہ ترین Xeons میں دیکھا گیا ہے۔
Computex میں اعلان کردہ Nvidia کے نئے RTX Pro سرورز، خاص طور پر اسی منظر نامے کے مطابق تیار کیے گئے ہیں۔ مہنگی اور بجلی سے چلنے والی HBM پر انحصار کرنے کے بجائے، جس کے لیے جدید پیکیجنگ کی ضرورت ہوتی ہے، ان سسٹمز میں سے ہر ایک میں آٹھ RTX Pro 6000 GPUs میں سے ہر ایک 96 GB GDDR7 میموری سے لیس ہے، وہی قسم جو جدید گیمنگ کارڈز میں پائی جاتی ہے۔
یہ سسٹمز 768 GB تک vRAM اور 12.8 TB/s مجموعی بینڈوڈدتھ فراہم کرتے ہیں، جو Llama 4 Maverick کو سیکڑوں ٹوکن فی سیکنڈ کی رفتار سے چلانے کے لیے کافی سے زیادہ ہے۔ جب کہ Nvidia نے قیمتوں کا انکشاف نہیں کیا ہے، ان کارڈز کا ورک سٹیشن ایڈیشن تقریباً $8,500 میں فروخت ہوتا ہے، جو یہ بتاتا ہے کہ ان سرورز کی قیمتیں استعمال شدہ HGX H100 کی قیمت سے بھی کم ہوسکتی ہیں۔
تاہم، MoE کا مطلب HBM-stacked GPUs کا خاتمہ نہیں ہے۔ Llama 4 Behemoth کی توقع کریں، یہ فرض کرتے ہوئے کہ یہ کبھی بھی بھیجا جائے، اس کے خالص سائز کی وجہ سے GPUs سے بھری ہوئی ایک ریک کی ضرورت ہے۔
جب کہ اس میں Llama 3.1 405B کے مقابلے میں تقریباً نصف فعال پیرامیٹرز ہیں، لیکن اس میں کل 2 ٹریلین پیرامیٹرز ہیں۔ فی الحال، مارکیٹ میں کوئی بھی روایتی GPU سرور ایسا نہیں ہے جو مکمل 16 بٹ ماڈل اور دس لاکھ یا اس سے زیادہ ٹوکن کی سیاق و سباق ونڈو کو ایڈجسٹ کر سکے۔
AI میں CPU کی نشاۃ ثانیہ؟
مخصوص ایپلیکیشن پر منحصر ہے، GPU ہمیشہ ضروری نہیں ہو سکتا، خاص طور پر ان علاقوں میں جہاں ہائی اینڈ ایکسلریٹرز تک رسائی محدود ہے۔
Intel نے اپریل میں 8800 MT/s MCRDIMMs سے لیس ایک ڈوئل ساکٹ Xeon 6 پلیٹ فارم کی نمائش کی۔ اس سیٹ اپ نے Llama 4 Maverick میں 240 ٹوکن فی سیکنڈ کی تھرو پٹ حاصل کی، جس میں اوسط آؤٹ پٹ لیٹنسی 100 ms فی ٹوکن سے کم تھی۔
سادہ الفاظ میں، Xeon پلیٹ فارم تقریباً 24 بیک وقت صارفین کے لیے فی صارف 10 ٹوکن فی سیکنڈ یا اس سے زیادہ برقرار رکھ سکتا ہے۔
Intel نے سنگل صارف کی کارکردگی کے اعداد و شمار ظاہر نہیں کیے، کیونکہ وہ حقیقی دنیا کے منظر ناموں میں کم متعلقہ ہیں۔ تاہم، تخمینوں سے تقریباً 100 ٹوکن فی سیکنڈ کی چوٹی کی کارکردگی کا پتہ چلتا ہے۔
اس کے باوجود، جب تک کہ کوئی بہتر متبادل یا مخصوص تقاضے موجود نہ ہوں، CPU پر مبنی انفرنس کی معاشیات استعمال کے معاملے پر بہت زیادہ منحصر ہے۔
وزن میں کمی: پروننگ اور کوانٹائزیشن
MoE آرکیٹیکچرز بڑے ماڈلز کی خدمت کے لیے ضروری میموری بینڈوڈتھ کو کم کر سکتے ہیں، لیکن وہ ان کے وزن کو ذخیرہ کرنے کے لیے درکار میموری کی مقدار کو کم نہیں کرتے ہیں۔ یہاں تک کہ 8 بٹ درستگی پر بھی، Llama 4 Maverick کو چلانے کے لیے 400 GB سے زیادہ میموری کی ضرورت ہوتی ہے، قطع نظر فعال پیرامیٹرز کی تعداد کے۔
نئی پروننگ تکنیکیں اور کوانٹائزیشن کے طریقے ممکنہ طور پر معیار کو قربان کیے بغیر اس ضرورت کو آدھا کر سکتے ہیں۔
Nvidia پروننگ کا حامی رہا ہے، Meta کے Llama 3 ماڈلز کے تراشے ہوئے ورژن جاری کر رہا ہے جن میں سے زائد وزن کو ہٹا دیا گیا ہے۔
Nvidia 2022 میں 8 بٹ فلوٹنگ پوائنٹ ڈیٹا کی اقسام کو سپورٹ کرنے والی پہلی کمپنیوں میں سے بھی تھا، اور پھر 2024 میں اپنے Blackwell آرکیٹیکچر کے آغاز کے ساتھ 4 بٹ فلوٹنگ پوائنٹ کے ساتھ۔ مقامی FP4 سپورٹ پیش کرنے والے AMD کے پہلے چپس کے جلد ہی جاری ہونے کی توقع ہے۔
اگرچہ سختی سے لازمی نہیں ہے، لیکن ان ڈیٹا کی اقسام کے لیے مقامی ہارڈویئر سپورٹ عموماً کمپیوٹیشنل رکاوٹوں کا سامنا کرنے کے امکان کو کم کرتا ہے، خاص طور پر اسکیل پر خدمت کرتے وقت۔
ہم نے کم درستگی والی ڈیٹا کی اقسام کو اپنانے والے ماڈل ڈویلپرز کی تعداد میں اضافہ دیکھا ہے، Meta، Microsoft اور Alibaba اپنے ماڈلز کے آٹھ بٹ اور یہاں تک کہ چار بٹ quantized ورژن پیش کر رہے ہیں۔
Quantization میں ماڈل کے وزن کو ان کی مقامی درستگی سے کمپریس کرنا شامل ہے، عام طور پر BF16، سے FP8 یا INT4 تک۔ یہ مؤثر طریقے سے ماڈلز کی میموری بینڈوڈدتھ اور صلاحیت کی ضروریات کو آدھا یا یہاں تک کہ تین چوتھائی تک کم کر دیتا ہے، کچھ معیار کی قیمت پر۔
16 بٹس سے 8 بٹس میں منتقلی سے وابستہ نقصانات اکثر کم ہوتے ہیں، اور کئی ماڈل بنانے والوں، بشمول DeepSeek، نے شروع سے ہی FP8 کی درستگی پر تربیت شروع کر دی ہے۔ تاہم، درستگی کو مزید چار بٹس تک کم کرنے کے نتیجے میں معیار میں نمایاں کمی واقع ہو سکتی ہے۔ نتیجے کے طور پر، بہت سے پوسٹ ٹریننگ کوانٹائزیشن کے طریقے، جیسے کہ GGUF، تمام وزن کو یکساں طور پر کمپریس نہیں کرتے ہیں، معیار کے نقصان کو کم کرنے کے لیے کچھ کو اعلیٰ درستگی کی سطح پر چھوڑ دیتے ہیں۔
Google نے حال ہی میں کوانٹائزیشن-آگاہ تربیت (QAT) کا استعمال کرتے ہوئے اپنے Gemma 3 ماڈلز کو 4x کے عنصر سے کم کرنے کا مظاہرہ کیا جب کہ معیار کی سطح کو مقامی BF16 کے قریب برقرار رکھا گیا۔
QAT تربیت کے دوران کم درستگی والے آپریشن کی نقل تیار کرتا ہے۔ ایک غیر اہل ماڈل پر تقریباً 5,000 مراحل تک اس تکنیک کو لاگو کرنے سے Google INT4 میں تبدیل کیے جانے پر جہالت سے متعلق نقصانات کی پیمائش کے لیے ایک میٹرک، پیچیدگی میں کمی کو 54 فیصد تک کم کرنے میں کامیاب رہا۔
کوانٹائزیشن کا ایک اور QAT پر مبنی طریقہ، جسے Bitnet کہا جاتا ہے، اور بھی کم درستگی کی سطحوں کا مقصد رکھتا ہے، ماڈلز کو صرف 1.58 بٹس تک کمپریس کرنا، یا تقریباً ان کے اصل سائز کا دسواں حصہ۔
ٹیکنالوجیز کی ہم آہنگی
MoE اور 4 بٹ کوانٹائزیشن کا مجموعہ نمایاں فوائد پیش کرتا ہے، خاص طور پر جب بینڈوڈدتھ محدود ہو۔
دوسروں کے لیے جو بینڈوڈدتھ سے محدود نہیں ہیں، تاہم، دو ٹیکنالوجیز میں سے کوئی بھی، چاہے MoE ہو، یا کوانٹائزیشن، بڑے اور زیادہ طاقتور ماڈلز کو چلانے کے لیے آلات اور آپریشن کی لاگت کو کافی حد تک کم کر سکتی ہے۔ یہ فرض کرتے ہوئے کہ انھیں انجام دینے کے لیے ایک قیمتی سروس مل سکتی ہے۔
اور اگر نہیں، تو آپ کم از کم اس بات پر تسلی دے سکتے ہیں کہ آپ اکیلے نہیں ہیں–ایک حالیہ IBM سروے میں انکشاف ہوا ہے کہ صرف چوتھائی AI تعیناتیوں نے سرمایہ کاری پر وہ منافع فراہم کیا ہے جس کا وعدہ کیا گیا تھا۔