NVIDIA کا FFN Fusion: LLM کارکردگی میں انقلاب

جدید AI کی حسابی تنگ رسی

Large language models (LLMs) معاصر مصنوعی ذہانت کے ستون کے طور پر کھڑے ہیں، جو قابل ذکر صلاحیتوں کا مظاہرہ کر رہے ہیں جو صنعتوں اور سائنسی دریافتوں کو نئی شکل دے رہے ہیں۔ ان کی انسانی جیسی متن تیار کرنے، پیچیدہ بات چیت کرنے والے ایجنٹوں کو طاقت دینے، اور یہاں تک کہ پیچیدہ تحقیقی کاموں میں مدد کرنے کی مہارت نے انہیں ناگزیر اوزار بنا دیا ہے۔ ان طاقتور ماڈلز کے دل میں transformer آرکیٹیکچر دھڑکتا ہے، ایک ڈیزائن جو اس کی متبادل تہوں سے پہچانا جاتا ہے۔ ان پٹ ڈیٹا، جسے tokens میں توڑا جاتا ہے، attention میکانزم کے ایک سلسلے سے گزرتا ہے، جو مختلف tokens کی اہمیت کا وزن کرتے ہیں، جس کے بعد feed-forward networks (FFNs) آتے ہیں، جو حاصل کردہ معلومات پر کارروائی کرتے ہیں۔ یہ تہہ دار، sequential پروسیسنگ اس بات کے لیے بنیادی ہے کہ transformers کیسے سیکھتے اور آؤٹ پٹ تیار کرتے ہیں۔

تاہم، یہی آرکیٹیکچر، اگرچہ مؤثر ہے، ایک بڑھتا ہوا چیلنج پیش کرتا ہے کیونکہ ماڈلز سائز اور پیچیدگی میں بڑھتے ہیں۔ sequential نوعیت کا مطلب ہے کہ ہر تہہ کو عام طور پر پچھلی تہہ کے حساب کتاب مکمل کرنے کا انتظار کرنا پڑتا ہے اس سے پہلے کہ وہ شروع کر سکے۔ یہ قدم بہ قدم پروسیسنگ ایک موروثی رکاوٹ پیدا کرتی ہے، خاص طور پر inference مرحلے کے دوران - وہ مرحلہ جہاں ایک تربیت یافتہ ماڈل اصل میں پیشین گوئیاں یا متن تیار کرنے کے لیے استعمال ہوتا ہے۔ جیسے جیسے جدید AI معاونین کو طاقت دینے والے ماڈلز میں اربوں، یا یہاں تک کہ کھربوں، پیرامیٹرز شامل ہوتے ہیں، inference کے لیے درکار حسابی وسائل اور وقت ڈرامائی طور پر بڑھ جاتا ہے۔ یہ بڑھتی ہوئی مانگ نمایاں latency (جواب میں تاخیر)، کم throughput (وقت کے ساتھ سنبھالے جانے والے درخواستوں کی تعداد)، اور بڑھتے ہوئے آپریشنل اخراجات میں ترجمہ ہوتی ہے، جو سب سے طاقتور LLMs کی وسیع پیمانے پر تعیناتی اور حقیقی وقت کے اطلاق میں رکاوٹ بنتی ہے۔ نتیجتاً، inference کی کارکردگی کو بڑھانا AI تحقیقی برادری کے اندر ایک اہم تشویش بن گیا ہے، جس نے جدید حکمت عملیوں کی تلاش کو فروغ دیا ہے جو ان ماڈلز کی پیش کردہ قابل ذکر کارکردگی پر سمجھوتہ کیے بغیر حساب کتاب کو ہموار کر سکتی ہیں۔ مرکزی چیلنج sequential عمل درآمد کی طرف سے عائد کردہ رکاوٹوں کو کم کرنے میں ہے، خاص طور پر تقسیم شدہ ماحول میں جہاں حساب کتاب متعدد GPUs پر پھیلا ہوا ہے، پروسیسنگ کے وقت میں مواصلاتی اوور ہیڈ شامل کرتا ہے۔

اصلاح کے منظر نامے پر تشریف لانا: موجودہ اوزار اور ان کی حدود

LLMs کو دبلا اور تیز بنانے کی جاری کوشش میں، محققین نے اصلاحی تکنیکوں کا ایک ٹول کٹ تیار کیا ہے۔ ہر ایک کارکردگی کا راستہ پیش کرتا ہے، لیکن اکثر اس کے اپنے سمجھوتوں کے ساتھ آتا ہے، جو کسی ایک طریقے کو عالمی حل بننے سے روکتا ہے۔ ان سمجھوتوں کو سمجھنا FFN Fusion جیسی نئی حکمت عملیوں کی ضرورت کو سراہنے کے لیے اہم ہے۔

ایک نمایاں تکنیک quantization ہے۔ اس میں ماڈل کے وزن اور ایکٹیویشنز کی نمائندگی کے لیے استعمال ہونے والی عددی درستگی کو کم کرنا شامل ہے۔ معیاری 32-بٹ فلوٹنگ پوائنٹ نمبرز استعمال کرنے کے بجائے، ماڈلز 16-بٹ، 8-بٹ، یا اس سے بھی کم بٹ نمائندگی استعمال کر سکتے ہیں۔ یہ براہ راست ماڈل کے میموری فوٹ پرنٹ کو کم کرتا ہے اور حساب کتاب کو نمایاں طور پر تیز کر سکتا ہے، کیونکہ کم درستگی والے نمبروں پر آپریشن عام طور پر تیز ہوتے ہیں اور کم توانائی کی ضرورت ہوتی ہے۔ تاہم، quantization خطرے سے خالی نہیں ہے۔ درستگی کو کم کرنے سے معلومات کا نقصان ہو سکتا ہے، ممکنہ طور پر ماڈل کی درستگی کو کم کیا جا سکتا ہے۔ یہ خطرہ بہت کم بٹ چوڑائیوں پر زیادہ واضح ہو جاتا ہے، جس کے لیے محتاط عمل درآمد اور بعض اوقات درستگی کے قطروں کو کم کرنے کے لیے دوبارہ تربیت کی ضرورت ہوتی ہے۔ چیلنج اس میٹھے مقام کو تلاش کرنے میں ہے جو کارکردگی کے فوائد کو زیادہ سے زیادہ کرتا ہے جبکہ کارکردگی کے انحطاط کو قابل قبول حدود میں رکھتا ہے۔

ایک اور عام حکمت عملی pruning ہے۔ یہ تکنیک اس اصول پر کام کرتی ہے کہ ایک بڑے نیورل نیٹ ورک کے اندر بہت سے پیرامیٹرز بے کار ہو سکتے ہیں یا حتمی آؤٹ پٹ میں کم سے کم حصہ ڈال سکتے ہیں۔ Pruning الگورتھم ان کم اہم کنکشنز یا نیورانز کی شناخت کرتے اور انہیں ہٹاتے ہیں، جس کے نتیجے میں ایک چھوٹا، کم گھنا ماڈل بنتا ہے۔ quantization کی طرح، pruning میموری کی ضروریات اور حسابی بوجھ کو کم کرتا ہے۔ تاہم، یہ درست طور پر شناخت کرنا کہ کون سے پیرامیٹرز ہٹانے کے لیے ‘محفوظ’ ہیں پیچیدہ ہے۔ جارحانہ pruning نادانستہ طور پر اہم اجزاء کو ہٹا سکتی ہے، جس سے درستگی کا کافی نقصان ہوتا ہے۔ pruning کے بعد ماڈل کو ٹھیک کرنا اکثر کارکردگی کو بحال کرنے کے لیے ضروری ہوتا ہے، جس سے ورک فلو میں پیچیدگی شامل ہوتی ہے۔ یہ یقینی بنانے کے لیے محتاط کیلیبریشن ضروری ہے کہ pruned ماڈل مؤثر رہے۔

ایک زیادہ آرکیٹیکچرل طور پر الگ نقطہ نظر Mixture-of-Experts (MoE) ماڈل ہے۔ ہر ان پٹ کو پورے نیٹ ورک کے ذریعے پروسیس کرنے کے بجائے، MoE ماڈلز متعدد ‘ماہر’ سب نیٹ ورکس (عام طور پر FFNs) پر مشتمل ہوتے ہیں۔ ہر ان پٹ token کے لیے، ایک گیٹنگ میکانزم متحرک طور پر ان ماہرین کے ایک چھوٹے سے ذیلی سیٹ کو حساب کتاب کرنے کے لیے منتخب کرتا ہے۔ اس مشروط حساب کتاب کا مطلب ہے کہ کسی بھی دیئے گئے ان پٹ کے لیے ماڈل کے کل پیرامیٹرز کا صرف ایک حصہ فعال ہوتا ہے، جس سے خاص طور پر بہت بڑے ماڈلز پر تربیت اور inference کے دوران اہم حسابی بچت ہوتی ہے۔ MoE ماڈلز کھربوں پیرامیٹرز تک پیمانہ کر سکتے ہیں جبکہ مناسب حسابی اخراجات کو برقرار رکھتے ہیں۔ تاہم، ان کی کارکردگی کام کے بوجھ پر بہت زیادہ منحصر ہے۔ وہ بہت بڑے بیچ سائز کو سنبھالنے میں بہترین کارکردگی کا مظاہرہ کرتے ہیں جہاں منتخب ایکٹیویشن پیٹرن اچھے ہارڈویئر کے استعمال کا باعث بنتا ہے۔ چھوٹے یا درمیانے بیچ سائز پر، MoE ماڈلز حسابی وسائل کے کم استعمال کا شکار ہو سکتے ہیں، کیونکہ متوازی ہارڈویئر کم فعال ماہرین کے ذریعے مستقل طور پر مصروف نہیں رہ سکتا ہے۔ مزید برآں، MoE ماڈلز کو نافذ کرنا اور لوڈ بیلنس کرنا معیاری ‘گھنے’ آرکیٹیکچرز کی تعیناتی سے زیادہ پیچیدہ ہو سکتا ہے۔

جبکہ quantization، pruning، اور MoE ماڈلز LLM اصلاح میں قابل قدر پیش رفت کی نمائندگی کرتے ہیں، ان کی موروثی حدود متبادل یا تکمیلی حکمت عملیوں کی ضرورت کو اجاگر کرتی ہیں۔ ایسے طریقوں کی تلاش جاری ہے جو مختلف منظرناموں میں وسیع کارکردگی میں بہتری فراہم کر سکیں، مثالی طور پر درستگی یا عمل درآمد کی پیچیدگی میں کم سمجھوتوں کے ساتھ، خاص طور پر گھنے ماڈل آرکیٹیکچرز کے لیے جو تربیت اور تعیناتی میں اپنی نسبتاً سادگی کی وجہ سے مقبول ہیں۔

FFN Fusion: Transformers میں متوازیت پر نظر ثانی

اصلاحی تکنیکوں کے اس منظر نامے کے درمیان، NVIDIA کے محققین نے FFN Fusion نامی ایک مجبور کن نیا نقطہ نظر متعارف کرایا ہے۔ یہ تکنیک transformer آرکیٹیکچر میں موروثی sequential رکاوٹ کا براہ راست مقابلہ کرتی ہے، پیرامیٹرز کو تبدیل کرکے یا حصوں کو منتخب طور پر فعال کرکے نہیں، بلکہ بنیادی طور پر اس بات پر نظر ثانی کرکے کہ حساب کتاب کے سلسلے کو کیسے متوازی بنایا جاسکتا ہے۔ یہ جدت گہرے transformer ماڈلز کے اندر FFN تہوں کے رویے کے بارے میں ایک اہم مشاہدے سے پیدا ہوتی ہے۔

Puzzle نامی تشخیصی ٹول کا استعمال کرتے ہوئے، محققین نے بڑے ماڈلز کے اندرونی کام کا تجزیہ کیا۔ جب انہوں نے تجرباتی طور پر attention تہوں کو ہٹایا، تو انہوں نے دیکھا کہ ماڈلز اکثر حیرت انگیز طور پر مسلسل FFN تہوں کے طویل سلسلے کو برقرار رکھتے ہیں۔ زیادہ اہم بات یہ ہے کہ تجزیے سے پتا چلا کہ ان ملحقہ FFNs کے ذریعے کیے جانے والے حساب کتاب اکثر کم سے کم باہمی انحصار کا مظاہرہ کرتے ہیں۔ جوہر میں، سلسلے میں ایک FFN کا آؤٹ پٹ اکثر فوری طور پر آنے والے FFN کے لیے درکار سمتی راستے یا بنیادی معلومات کو یکسر تبدیل نہیں کرتا تھا۔ اس سے پتہ چلتا ہے کہ یہ FFNs، جو روایتی طور پر ایک کے بعد ایک چلائے جاتے ہیں، ماڈل کے مجموعی فعل کو نمایاں طور پر متاثر کیے بغیر بیک وقت، متوازی عمل درآمد کی صلاحیت رکھتے ہیں۔

یہ بصیرت FFN Fusion کی بنیاد بنی۔ بنیادی خیال خوبصورتی سے سادہ لیکن طاقتور ہے: کم حسابی انحصار کے ساتھ مسلسل FFN تہوں کے سلسلے کی شناخت کریں اور انہیں ایک واحد، وسیع تر FFN تہہ میں ضم کریں جو متوازی طور پر مساوی حساب کتاب انجام دیتی ہے۔ Input -> FFN1 -> FFN2 -> FFN3 -> Output جیسی زنجیر کے بجائے، فیوزڈ ڈھانچہ Input -> Fused_FFN (متوازی طور پر FFN1+FFN2+FFN3 کے مساوی) -> Output بن جاتا ہے۔ یہ آرکیٹیکچرل تبدیلی مؤثر طریقے سے نیٹ ورک کی sequential گہرائی کو کم کرتی ہے، متعدد مراحل کو ایک واحد، وسیع تر حسابی قدم سے بدل دیتی ہے۔ ان کم انحصار والے FFN سلسلوں کو نشانہ بنا کر، FFN Fusion کا مقصد ماڈل کی نمائندگی کی طاقت اور درستگی کو برقرار رکھتے ہوئے latency اور حسابی لاگت کو کم کرنا ہے۔ Llama-3.1-405B-Instruct سے Ultra-253B-Base کی ترقی اس تکنیک کی صلاحیت کے اولین مظاہرے کے طور پر کام کرتی ہے۔

آرکیٹیکچرل کیمیا: FFN Fusion کیسے کام کرتا ہے

FFN Fusion کے پیچھے جادو feed-forward networks کی بنیادی ریاضیاتی ساخت کی ہوشیار ہیرا پھیری میں ہے۔ یہ صرف موجودہ تہوں کو ساتھ ساتھ چلانے کے بارے میں نہیں ہے؛ اس میں ایک نئی، متحد تہہ بنانا شامل ہے جو اصل سلسلے کے اجتماعی رویے کو نقل کرتی ہے لیکن ایسا بیک وقت کرتی ہے۔

k مسلسل FFN تہوں کے ایک سلسلے پر غور کریں۔ ایک معیاری transformer میں، ان پٹ x FFN1 سے گزرتا ہے، اس کا آؤٹ پٹ FFN2 کے لیے ان پٹ بن جاتا ہے، اور اسی طرح، FFNk تک۔ ہر قدم واضح طور پر پچھلے ایک کی تکمیل پر منحصر ہے۔ FFN Fusion اس انحصار کی زنجیر کو توڑتا ہے۔ ریاضیاتی طور پر، ایک FFN میں عام طور پر دو لکیری تبدیلیاں شامل ہوتی ہیں جن کے درمیان ایک غیر لکیری ایکٹیویشن فنکشن (جیسے GeLU یا SwiGLU) ہوتا ہے: FFN(x) = W_out * Activation(W_in * x)۔ FFN Fusion اس حقیقت کا فائدہ اٹھاتا ہے کہ لکیری تبدیلیوں کو اکثر ملایا جا سکتا ہے۔

فیوژن کا عمل انفرادی FFN تہوں کے وزن کو جوڑ کر کام کرتا ہے۔ خاص طور پر، مسلسل FFNs کے ان پٹ ویٹ میٹرکس (W_in) کو فیوزڈ تہہ کے لیے ایک واحد، بڑے ان پٹ ویٹ میٹرکس میں ملایا جاتا ہے (مثلاً، بلاک-ڈائیگونلی)۔ اسی طرح، آؤٹ پٹ ویٹ میٹرکس (W_out) کو ایک واحد، وسیع تر آؤٹ پٹ ویٹ میٹرکس بنانے کے لیے جوڑا جاتا ہے۔ ایکٹیویشن فنکشن اس بڑے ڈھانچے کے اندر عنصر کے لحاظ سے لاگو ہوتا ہے۔ یہ تعمیر یقینی بناتی ہے کہ فیوزڈ FFN اصل ان پٹ x پر بیک وقت اصل FFNs کے مطابق متوازی راستوں پر کام کرتا ہے۔ ان متوازی راستوں سے آؤٹ پٹس پھر جوڑے ہوئے آؤٹ پٹ وزن کی ساخت کے ذریعے مضمر طور پر جمع ہوتے ہیں۔

نظریاتی بنیاد اس بات کی تصدیق کرتی ہے کہ یہ فیوزڈ ڈھانچہ FFNs کے اصل سلسلے کی طرح نمائندگی کی صلاحیت کو برقرار رکھ سکتا ہے، بشرطیکہ اصل تہوں کے درمیان انحصار واقعی کم ہو۔ کلید یہ شناخت کرنا ہے کہ کون سے سلسلے فیوژن کے لیے موزوں ہیں۔ ایسا منظم طریقے سے کرنے کے لیے، NVIDIA محققین نے انحصار تجزیہ تکنیک کا استعمال کیا۔ انہوں نے ان پٹ tokens کے نمائندہ سیٹ کے لیے مسلسل FFN تہوں کے آؤٹ پٹ پوشیدہ حالتوں کے درمیان cosine distance کی پیمائش کی۔ ایک چھوٹا cosine distance اس بات کی نشاندہی کرتا ہے کہ ایک FFN کا آؤٹ پٹ ویکٹر سلسلے میں اگلے FFN کے آؤٹ پٹ ویکٹر کی طرح کی سمت میں اشارہ کرتا ہے۔ یہ مماثلت کم فعال انحصار کی تجویز کرتی ہے - دوسرا FFN پہلے کے ذریعے قائم کردہ معلومات کی نمائندگی کو یکسر تبدیل نہیں کر رہا ہے۔ تہوں میں مسلسل کم cosine distance ظاہر کرنے والے FFNs کے سلسلے فیوژن کے لیے اہم امیدواروں کے طور پر شناخت کیے گئے، کیونکہ ان کو ضم کرنے سے ماڈل کی سیکھی ہوئی نمائندگیوں اور مجموعی کارکردگی میں خلل پڑنے کا امکان کم تھا۔ یہ ڈیٹا پر مبنی نقطہ نظر FFN Fusion کو ماڈل کے ان حصوں پر ہدف بنا کر لاگو کرنے کی اجازت دیتا ہے جہاں یہ سب سے زیادہ مؤثر اور کم سے کم خلل ڈالنے والا ہوگا۔

دیو قامت سے سپرنٹر تک: Ultra-253B-Base تبدیلی

FFN Fusion کی عملی طاقت کا واضح مظاہرہ اس وقت کے سب سے بڑے عوامی طور پر معلوم ماڈلز میں سے ایک، Llama-3.1-405B-Instruct پر اس کے اطلاق کے ذریعے کیا گیا۔ یہ ماڈل، 405 بلین پیرامیٹرز پر فخر کرتا ہے، inference کے لیے ایک اہم حسابی اقدام کی نمائندگی کرتا ہے۔ محققین نے آرکیٹیکچرل ریفائنمنٹ کے عمل کا آغاز کیا، FFN Fusion کو اسٹریٹجک pruning کے ساتھ ملا کر، Ultra-253B-Base نامی ایک نیا، زیادہ موثر ماڈل بنایا۔

تبدیلی کے عمل میں کئی مراحل شامل تھے:

  1. تجزیہ: اپنے انحصار تجزیہ ٹولز (cosine distances کی پیمائش) کا استعمال کرتے ہوئے، محققین نے Llama-405B آرکیٹیکچر کے اندر مسلسل FFN تہوں کے سلسلے کی شناخت کی جنہوں نے کم بین پرت انحصار کا مظاہرہ کیا۔
  2. فیوژن: ان شناخت شدہ FFN سلسلوں کو پھر واحد، وسیع تر FFN تہوں میں فیوز کیا گیا جیسا کہ پہلے بیان کیا گیا ہے (وزن کو جوڑنا)۔ اس نے براہ راست نیٹ ورک میں sequential مراحل کی تعداد کو کم کیا۔
  3. Pruning: بیک وقت یا اس کے بعد، کم اہم سمجھے جانے والے پیرامیٹرز (ممکنہ طور پر معیاری pruning تکنیک کے ذریعے شناخت کیے گئے یا فیوژن کے عمل سے مطلع کیے گئے) کو ماڈل سے ہٹا دیا گیا۔

اس مشترکہ نقطہ نظر کے نتیجے میں Ultra-253B-Base بنا، ایک ماڈل جس میں 253 بلین پیرامیٹرز تھے۔ یہ ایک خاطر خواہ کمی کی نمائندگی کرتا ہے - اصل 405B ماڈل سے 37% سے زیادہ کم پیرامیٹرز۔ فیوژن کے ذریعے حاصل کی گئی آرکیٹیکچرل تبدیلیاں کارکردگی کو برقرار رکھنے کا مقصد رکھتے ہوئے اس طرح کی اہم سائز میں کمی کو ممکن بنانے کی کلید تھیں۔ مقصد صرف ایک چھوٹا ماڈل نہیں تھا، بلکہ FFN Fusion کے ذریعے کھولے گئے بڑھے ہوئے متوازیت کی بدولت بنیادی طور پر تیز اور زیادہ حسابی طور پر کفایتی ماڈل تھا۔ یہ کیس اسٹڈی ایک اہم تصوراتی ثبوت کے طور پر کام کرتی ہے، جس سے ظاہر ہوتا ہے کہ بڑے پیمانے پر ماڈلز کو کارکردگی کے لیے کافی حد تک دوبارہ تشکیل دیا جا سکتا ہے۔

فوائد کی پیمائش: کارکردگی، رفتار، اور وسائل کی بچت

کسی بھی اصلاحی تکنیک کا اصل امتحان اس کے قابل پیمائش اثرات میں ہے۔ Ultra-253B-Base کے لیے، Llama-405B بیس پر FFN Fusion اور pruning لاگو کرنے سے حاصل کردہ نتائج مجبور کن تھے، جو صلاحیت میں خاطر خواہ سمجھوتوں کے بغیر متعدد جہتوں میں اہم بہتری کا مظاہرہ کرتے ہیں۔

Inference رفتار اور لاگت: سب سے زیادہ حیران کن فوائد inference کی کارکردگی میں دیکھے گئے۔ اصل 405B پیرامیٹر ماڈل کے مقابلے میں، Ultra-253B-Base نے حاصل کیا:

  • inference latency میں 1.71 گنا بہتری۔ اس کا مطلب ہے کہ ماڈل نمایاں طور پر تیزی سے جوابات تیار کر سکتا ہے، جو حقیقی وقت کی ایپلی کیشنز کے لیے اہم ہے۔
  • بیچ سائز 32 پر ماپا جانے پر فی ٹوکن حسابی لاگت میں 35 گنا کمی۔ فی ٹوکن حسابی آپریشنز (FLOPs) میں یہ ڈرامائی کمی براہ راست کم توانائی کی کھپت اور ماڈل کی خدمت کے لیے کم ہارڈویئر کی ضروریات میں ترجمہ ہوتی ہے۔

ماڈل پرفارمنس بینچ مارکس: اہم بات یہ ہے کہ یہ کارکردگی میں بہتری ماڈل کی ذہانت یا صلاحیتوں کی قیمت پر نہیں آئی۔ Ultra-253B-Base کا معیاری LLM بینچ مارکس کے ایک سوٹ پر سختی سے جائزہ لیا گیا، جس نے ایسے اسکور حاصل کیے جو اصل، بہت بڑے ماڈل کے ساتھ انتہائی مسابقتی تھے، اور کچھ معاملات میں اس سے تجاوز کر گئے:

  • MMLU (Massive Multitask Language Understanding): 85.17%
  • MMLU-Pro (ایک زیادہ چیلنجنگ ورژن): 72.25%
  • Arena Hard (مشکل پرامپٹس پر انسانی ترجیحی تشخیص): 84.92%
  • HumanEval (کوڈ جنریشن کی صلاحیت): 86.58%
  • MT-Bench (ملٹی ٹرن گفتگو کا معیار): 9.19

یہ اسکور اس بات کی نشاندہی کرتے ہیں کہ فیوزڈ اور پرونڈ ماڈل نے سمجھ، استدلال، کوڈنگ کی صلاحیت، اور گفتگو کے معیار کی بہت اعلیٰ سطح کو برقرار رکھا، جو اس کے 405B-پیرامیٹر پیشرو کے مقابلے میں ہے باوجود اس کے کہ اس میں صرف 253 بلین پیرامیٹرز ہیں۔

میموری کی کارکردگی: حسابی رفتار اور لاگت سے ہٹ کر، FFN Fusion نے میموری کی بچت میں بھی حصہ ڈالا۔ آرکیٹیکچرل تبدیلیاں، ممکنہ طور پر فیوژن کے ذریعے فعال کردہ دیگر اصلاحات کے ساتھ مل کر، inference کے دوران درکار key-value (KV) cache کے سائز میں 2 گنا کمی کا باعث بنیں۔ KV cache درمیانی ایکٹیویشنز (attention keys and values) کو ذخیرہ کرتا ہے اور کافی GPU میموری استعمال کر سکتا ہے، خاص طور پر طویل ان پٹ سلسلوں کے لیے۔ اس ضرورت کو آدھا کرنے سے ماڈل کو کم میموری والے ہارڈویئر پر چلانا یا اسی میموری کی رکاوٹوں کے اندر طویل سیاق و سباق پر کارروائی کرنا ممکن ہو جاتا ہے۔

یہ قابل مقدار نتائج FFN Fusion کی تاثیر کو اجاگر کرتے ہیں۔ اس نے ایک ایسے ماڈل کی تخلیق کی اجازت دی جو نہ صرف چھوٹا تھا بلکہ رفتار، حسابی آپریشنز، اور میموری کے استعمال کے لحاظ سے بنیادی طور پر زیادہ موثر تھا، جبکہ چیلنجنگ بینچ مارکس پر اعلیٰ درجے کی کارکردگی کو برقرار رکھا۔

علم کا تحفظ: تربیت اور فائن ٹیوننگ کا اہم کردار

Llama-405B جیسے بڑے، پہلے سے تربیت یافتہ زبان کے ماڈل کو FFN Fusion اور pruning جیسی تکنیکوں کے ذریعے آرکیٹیکچرل طور پر تبدیل کرنا لامحالہ اس کے سیکھے ہوئے پیرامیٹرز کے نازک توازن میں خلل ڈالتا ہے۔ اگرچہ ریاضیاتی مساوات کا مقصد مقامی طور پر فنکشن کو محفوظ رکھنا ہے، نیٹ ورک کا عالمی رویہ بدل سکتا ہے۔ یہ یقینی بنانے کے لیے کہ نتیجے میں آنے والا Ultra-253B-Base ماڈل نہ صرف زیادہ موثر بنا بلکہ اپنی اعلیٰ سطح کی کارکردگی کو بھی برقرار رکھا، ترمیم کے بعد ایک احتیاط سے ترتیب دیا گیا تربیتی عمل ضروری تھا۔

اس عمل میں دو اہم مراحل شامل تھے:

  1. Knowledge Distillation: پہلا قدم اصل، بڑے ماڈل (یا ایک مناسب استاد ماڈل) سے علم کو تبدیل شدہ آرکیٹیکچر میں منتقل کرنا تھا۔ یہ distillation کے ذریعے حاصل کیا گیا، جہاں Ultra-253B-Base ماڈل کو استاد ماڈل کے آؤٹ پٹس یا اندرونی نمائندگیوں کی نقل کرنے کے لیے تربیت دی گئی۔ اس مرحلے میں ایک خاطر خواہ ڈیٹاسیٹ استعمال کیا گیا، خاص طور پر 54 بلین tokens، جن پر 8k context window کے ساتھ کارروائی کی گئی۔ Distillation فیوزڈ اور پرونڈ ماڈل کو ان باریکیوں اور صلاحیتوں کو دوبارہ حاصل کرنے میں مدد کرتا ہے جو آرکیٹیکچرل تبدیلیوں کے دوران قدرے پریشان ہو سکتی ہیں۔

  2. Staged Fine-Tuning: Distillation کے بعد، ماڈل کو خاص طور پر بتدریج طویل سیاق و سباق کی لمبائیوں کو سنبھالنے کے لیے ڈھالنے کے لیے ڈیزائن کردہ فائن ٹیوننگ مراحل کی ایک سیریز سے گزرا۔ یہ جدید LLMs کے لیے اہم ہے، جن سے اکثر وسیع ان پٹ کی بنیاد پر متن پر کارروائی اور تخلیق کرنے کی توقع کی جاتی ہے۔ فائن ٹیوننگ مراحل میں آگے بڑھی:

    • 16k context window پر فائن ٹیوننگ۔
    • 32k context window پر مزید فائن ٹیوننگ۔
    • 128k context window پر حتمی فائن ٹیوننگ مرحلہ۔

یہ مرحلہ وار نقطہ نظر ماڈل کو اپنے پیرامیٹرز کو بتدریج ڈھالنے کی اجازت دیتا ہے، بشمول نئی تشکیل شدہ فیوزڈ FFN تہیں اور آپٹمائزڈ KV cache میکانزم، تاکہ بہت طویل سلسلوں پر انحصار اور معلومات کے بہاؤ کو مؤثر طریقے سے منظم کیا جا سکے۔ ہر مرحلہ پچھلے مرحلے پر استوار ہوتا ہے، مختلف سیاق و سباق کے سائز میں استحکام اور مضبوط کارکردگی کو یقینی بناتا ہے۔

یہ محتاط تربیتی نظام، بڑے پیمانے پر distillation کو مرحلہ وار، طویل سیاق و سباق کی فائن ٹیوننگ کے ساتھ ملا کر، آرکیٹیکچرل کارکردگی اور اعلیٰ مخلص کارکردگی کے درمیان فرق کو پر کرنے میں اہم کردار ادا کرتا تھا۔ اس نے یقینی بنایا کہ FFN Fusion کے ذریعے فراہم کردہ رفتار، لاگت، اور میموری کے فوائد نے مطالبہ کرنے والے بینچ مارکس پر ماڈل کی درستگی اور صلاحیتوں پر سمجھوتہ نہیں کیا۔

وسیع افق: عمومیت اور مستقبل کی سمتیں

Llama-405B کی Ultra-253B-Base میں کامیاب تبدیلی FFN Fusion کی صلاحیت کا مضبوط ثبوت فراہم کرتی ہے، لیکن اس کی اصل قدر اس کی وسیع تر اطلاق پذیری اور مستقبل کے LLM ڈیزائن کے لیے پیش کردہ بصیرت میں ہے۔ تحقیق نے ظاہر کیا کہ یہ صرف ایک بار کی چال نہیں تھی جو صرف بہت بڑے ماڈلز پر لاگو ہوتی ہے۔

پیمانوں میں توثیق: NVIDIA محققین نے واضح طور پر مختلف سائز کے ماڈلز پر FFN Fusion طریقہ کار کا تجربہ کیا۔ انہوں نے کامیابی کے ساتھ 70B-پیرامیٹر ماڈلز پر تکنیک کا اطلاق کیا، اپنے اصل ہم منصبوں کے مقابلے میں اسی طرح کی کارکردگی کے فوائد حاصل کیے۔ انہوں نے 49B پیمانے پر توثیق کی بھی اطلاع دی، اس خیال کو مزید تقویت ملی کہ FFN کی آزادی اور فیوژن کی صلاحیت صرف سب سے بڑے ماڈلز کی خصوصی خصوصیات نہیں ہیں بلکہ transformer آرکیٹیکچر کی زیادہ عمومی خاصیت ہو سکتی ہے، ممکنہ طور پر بڑے پیمانے پر زیادہ واضح ہو جاتی ہے جہاں گہری FFN سلسلے قدرتی طور پر پائے جاتے ہیں۔ اس سے پتہ چلتا ہے کہ FFN Fusion LLM اصلاحی ہتھیاروں میں ایک معیاری ٹول بن سکتا ہے، جو ماڈل کے سائز کی ایک حد پر لاگو ہوتا ہے۔

FFN بمقابلہ مکمل بلاک فیوژن: تحقیق نے transformer بلاک کے اندر attention تہوں کے مقابلے میں FFN تہوں کے مخصوص کردار پر بھی روشنی ڈالی۔ جبکہ مسلسل FFN تہیں اکثر کم انحصار دکھاتی ہیں، جو انہیں فیوژن کے لیے مثالی بناتی ہیں، پورے transformer بلاکس (بشمول attention اور FFN تہیں دونوں) کو متوازی بنانے کی کوششیں زیادہ چیلنجنگ ثابت ہوئیں۔ تجزیے نے attention میکانزم میں شامل مضبوط باہمی انحصار کی نشاندہی کی۔ پورے بلاکس کو بیک وقت فیوز کرنے کے نتیجے میں کارکردگی میں زیادہ نمایاں کمی واقع ہوئی، جس سے پتہ چلتا ہے کہ attention تہیں tokens میں معلومات کو مربوط کرنے میں زیادہ اہم، ترتیب وار منحصر کردار ادا کرتی ہیں۔ یہ دریافت مؤثر متوازیت کی حدود کو واضح کرنے میں مدد کرتی ہے - FFN سلسلے زرخیز زمین ہیں، جبکہ attention میکانزم کو مختلف اصلاحی حکمت عملیوں کی ضرورت ہو سکتی ہے۔

LLM آرکیٹیکچر کے لیے مضمرات: FFN Fusion صرف ایک پوسٹ ہاک اصلاحی تکنیک سے زیادہ پیش کرتا ہے؛ یہ مستقبل کے LLMs کو ڈیزائن کرنے کے لیے قیمتی بصیرت فراہم کرتا ہے۔ یہ دریافت کہ FFNs کے سلسلے کو اکثر متوازی اکائیوں کے طور پر سمجھا جا سکتا ہے، سختی سے sequential مفروضے کو چیلنج کرتا ہے جو اکثر transformer ڈیزائن کی بنیاد بنتا ہے۔ یہ نئے آرکیٹیکچرز کو متاثر کر سکتا ہے جو شروع سے ہی فطری طور پر زیادہ متوازی دوست ہوں۔ مستقبل کے ماڈلز کو FFN ڈھانچے کے ساتھ ڈیزائن کیا جا سکتا ہے جو واضح طور پر فیوژن یا متوازی عمل درآمد کے لیے بنائے گئے ہیں، ممکنہ طور پر ہارڈویئر-سافٹ ویئر کو-ڈیزائن کا باعث بنتے ہیں جہاں GPU آرکیٹیکچرز کو اس قسم کی متوازیت سے فائدہ اٹھانے کے لیے مزید بہتر بنایا جاتا ہے۔ بین پرت انحصار کی مقدار درست کرنے کے لیے cosine distance کا استعمال کرتے ہوئے منظم طریقہ نیورل نیٹ ورک ڈھانچے کو سمجھنے اور دوبارہ ڈیزائن کرنے کے لیے ایک قیمتی تجزیاتی ٹول بھی فراہم کرتا ہے۔ یہ ظاہر کرکے کہ موجودہ اجزاء کو متوازی بنانے پر مرکوز سوچ سمجھ کر آرکیٹیکچرل ری ڈیزائن کے ذریعے اہم کارکردگی کے فوائد ممکن ہیں، FFN Fusion ایسے LLMs تیار کرنے کا راستہ ہموار کرتا ہے جو طاقتور اور زیادہ حسابی طور پر پائیدار ہوں۔ یہ جدید ترین AI کی بڑھتی ہوئی وسائل کی طلب کو کم کرنے کی طرف ایک راستہ اجاگر کرتا ہے۔