تخصیص کا چیلنج: تکنیکی سرحدوں کے لیے AI کو ڈھالنا
بڑے لینگویج ماڈلز (LLMs) نے بلاشبہ معلومات کے ساتھ ہمارے تعامل اور قدرتی زبان سے متعلق کاموں کو خودکار بنانے کے طریقے میں انقلاب برپا کر دیا ہے۔ Llama اور Mistral جیسے بڑے ماڈلز، حتیٰ کہ اپنے اوپن سورس شکلوں میں بھی، متن کو سمجھنے اور تخلیق کرنے میں قابل ذکر روانی کا مظاہرہ کرتے ہیں جو اکثر انسانی پیداوار کا مقابلہ کرتا ہے۔ ان کی مہارت روزمرہ کی گفتگو سے لے کر پیچیدہ خلاصہ نگاری تک ایک وسیع منظر نامے پر محیط ہے۔ تاہم، سائنس اور انجینئرنگ کے مخصوص، اصطلاحات سے بھرپور علاقوں — جیسے مواد سائنس یا بائیو میٹیریومکس — میں قدم رکھنا ایک منفرد رکاوٹ پیش کرتا ہے۔
یہ تکنیکی ڈومینز عام علم سے زیادہ کا تقاضا کرتے ہیں؛ انہیں گہری، باریک بینی سے سمجھ، مخصوص اصولوں پر استدلال کرنے کی صلاحیت، اور خصوصی اصطلاحات اور ڈیٹا ڈھانچے سے واقفیت کی ضرورت ہوتی ہے۔ معیاری LLMs، جو وسیع ویب کارپورا پر تربیت یافتہ ہوتے ہیں، اکثر ان مطالبات کا سامنا کرتے وقت ناکام ہو جاتے ہیں۔ لہذا، چیلنج ڈومین ایڈاپٹیشن میں مضمر ہے: ہم ان طاقتور عمومی ماڈلز کو انتہائی مخصوص شعبوں میں ماہر معاون بننے کے لیے مؤثر طریقے سے کیسے تیار کر سکتے ہیں؟
صرف زیادہ مخصوص ڈیٹا فراہم کرنا ہمیشہ جواب نہیں ہوتا، اور نہ ہی یہ ہمیشہ ممکن ہوتا ہے۔ ان بڑے ماڈلز کو شروع سے تربیت دینا ناقابل برداشت حد تک مہنگا ہے، اور ان کی ابتدائی پری ٹریننگ کے لیے استعمال ہونے والے اصل، بڑے ڈیٹا سیٹس عام طور پر ناقابل رسائی ہوتے ہیں۔ یہ خاص طور پر مقبول اوپن سورس ماڈلز کے لیے درست ہے جہاں، کچھ شفافیت کے باوجود، مکمل نسخہ — پری ٹریننگ، فائن ٹیوننگ، اور الائنمنٹ کے دوران استعمال ہونے والے عین ڈیٹا مکسز اور ترتیب — بڑی حد تک ملکیتی رہتا ہے۔ محققین اور انجینئرز کو موجودہ ماڈلز میں نئے، مخصوص علم کو شامل کرنے کے لیے مضبوط، موثر حکمت عملیوں کی ضرورت ہوتی ہے جبکہ ان کی ابتدائی تربیت کے دوران حاصل کردہ وسیع عمومی صلاحیتوں کو بھی محفوظ رکھنا ہوتا ہے۔ یہ نازک توازن سائنسی دریافت اور انجینئرنگ کی جدت طرازی کے لیے واقعی مفید AI ٹولز بنانے کے لیے انتہائی اہم ہے، جیسے کہ متنوع پیمانوں اور سیاق و سباق میں حیاتیاتی مواد کے ڈیزائن کی ترغیب کو تلاش کرنے کے لیے ملٹی موڈل استدلال کے قابل انجن تیار کرنا۔
تربیتی منظر نامے کی نقشہ سازی: پری ٹریننگ سے ترجیحی اصلاح تک
ڈومین کے لیے مخصوص LLM مہارت کے راستے پر گامزن ہونے میں فائن ٹیوننگ کی حکمت عملیوں کے متنوع ٹول کٹ کو تلاش کرنا شامل ہے۔ ہر نقطہ نظر ماڈل کے علم اور رویے کو تشکیل دینے کا ایک مختلف طریقہ پیش کرتا ہے۔
مسلسل پری ٹریننگ (CPT): یہ حکمت عملی ابتدائی پری ٹریننگ مرحلے کو بڑھانے پر مشتمل ہے، لیکن اس بار ایک ایسے کارپس کا استعمال کرتے ہوئے جو ہدف کے ڈومین پر مرکوز ہو — جیسے مواد سائنس کے تحقیقی مقالوں کا مجموعہ۔ مقصد یہ ہے کہ ماڈل کو فیلڈ کی مخصوص زبان، تصورات، اور علمی ڈھانچے میں غرق کیا جائے، جس سے وہ ڈومین کے لیے مخصوص معلومات کو صرف ٹاسک کے لیے مخصوص فائن ٹیوننگ سے زیادہ گہرائی سے جذب کر سکے۔ یہ متعلقہ علم کی بنیاد رکھتا ہے۔
نگرانی شدہ فائن ٹیوننگ (SFT): CPT کے بعد یا بیس ماڈل سے شروع کرتے ہوئے، SFT براہ راست ماڈل کو سکھاتا ہے کہ مخصوص کام کیسے انجام دیں۔ یہ ان پٹ-آؤٹ پٹ جوڑوں کے کیوریٹڈ ڈیٹا سیٹس کا استعمال کرتے ہوئے حاصل کیا جاتا ہے، جو اکثر ہدایات اور مطلوبہ جوابات، یا ڈومین سے متعلق سوالات اور درست جوابات کے طور پر فارمیٹ کیے جاتے ہیں۔ SFT ماڈل کی ہدایات پر عمل کرنے، مخصوص سیاق و سباق میں سوالات کے درست جواب دینے، اور مطلوبہ آؤٹ پٹ فارمیٹس پر عمل کرنے کی صلاحیت کو بہتر بناتا ہے۔
لو-رینک ایڈاپٹیشن (LoRA): اگرچہ یہاں بنیادی توجہ نہیں ہے، LoRA ایک موثر متبادل یا ضمیمہ کی نمائندگی کرتا ہے۔ پورے ماڈل کو دوبارہ تربیت دینے کے بجائے، LoRA چھوٹے، تربیت کے قابل ‘اڈاپٹر’ پرتیں متعارف کراتا ہے۔ یہ بہت کم کمپیوٹیشنل لاگت کے ساتھ نمایاں موافقت کی اجازت دیتا ہے، حالانکہ اس میں حدود ہوسکتی ہیں کہ CPT کے مقابلے میں کتنا بنیادی طور پر نیا علم ضم کیا جاسکتا ہے۔
ترجیح پر مبنی اصلاح: سادہ کام کی تکمیل سے آگے بڑھتے ہوئے، ترجیحی اصلاح کا مقصد ماڈل کے آؤٹ پٹس کو انسانی فیصلوں یا مخصوص معیارات جیسے مددگاری، بے ضرریت، اور استدلال میں درستگی کے ساتھ زیادہ قریب سے ہم آہنگ کرنا ہے۔ پہلے سے طے شدہ ‘درست’ جوابات پر مکمل انحصار کرنے کے بجائے (جیسا کہ SFT میں)، یہ طریقے موازنہ سے سیکھتے ہیں۔
- ڈائریکٹ پریفرنس آپٹیمائزیشن (DPO): DPO براہ راست جوابات کے جوڑوں سے سیکھتا ہے جہاں ایک کو دوسرے پر ترجیح دی جاتی ہے (مثلاً، انسانی تشخیص کنندہ یا کسی دوسرے AI کے ذریعے)۔ یہ ماڈل کو بہتر بناتا ہے تاکہ علیحدہ ریوارڈ ماڈل کی ضرورت کے بغیر ترجیحی جوابات پیدا کرنے کے امکانات کو بڑھایا جا سکے، روایتی Reinforcement Learning from Human Feedback (RLHF) پائپ لائن کو آسان بناتا ہے۔
- Odds Ratio Preference Optimization (ORPO): ایک نیا داخلہ، ORPO اصلاح کے مقصد میں ترمیم کرتا ہے، بعض اوقات DPO کے مقابلے میں بہتر کارکردگی یا استحکام فراہم کرتا ہے، خاص طور پر ماڈلز کو ایک ڈومین کے اندر مخصوص اسٹائلسٹک یا استدلال کے معیارات کی طرف سیدھ میں لانے میں۔
یہ تکنیکیں باہمی طور پر خصوصی نہیں ہیں؛ انہیں اکثر ترتیب وار یا امتزاج میں استعمال کیا جاتا ہے، جو پیچیدہ تربیتی پائپ لائنز بناتے ہیں۔ ایک عام ترتیب میں ڈومین علم کی تعمیر کے لیے CPT، اس کے بعد ٹاسک کی مہارت کے لیے SFT، اور آخر میں الائنمنٹ اور ریفائنمنٹ کے لیے DPO یا ORPO شامل ہوسکتا ہے۔ تاہم، بہترین امتزاج اور ترتیب تحقیق کے فعال شعبے بنے ہوئے ہیں، خاص طور پر مخصوص سائنسی ڈومینز میں اعلیٰ کارکردگی حاصل کرنے کے لیے۔
سادہ ٹیوننگ سے آگے: ماڈلز کو ضم کرنے کا وعدہ
اگرچہ ایک ہی ماڈل کو ترتیب وار تربیتی مراحل کے ذریعے بہتر بنانے سے نمایاں بہتری حاصل ہو سکتی ہے، ایک اور دلچسپ راستہ سامنے آیا ہے: ماڈل مرجنگ۔ اس عمل میں دو یا زیادہ الگ الگ تربیت یافتہ ماڈلز لینا اور ان کے پیرامیٹرز — ان کے اندرونی ‘وزن’ — کو ملا کر ایک واحد، نیا ہائبرڈ ماڈل بنانا شامل ہے۔
ایسا فیوژن کیوں آزمایا جائے؟ بنیادی خیال یہ ہے کہ پیرنٹ ماڈلز کی طاقتوں کو ہم آہنگی سے ملایا جائے۔ تصور کریں کہ ایک ماڈل مواد سائنس لٹریچر پر مہارت سے تربیت یافتہ ہے (CPT اور SFT کے ذریعے) اور دوسرا عمومی مقصد والا ‘انسٹرکٹ’ ماڈل جو پیچیدہ ہدایات پر عمل کرنے اور مربوط مکالمے میں مشغول ہونے میں انتہائی ماہرہے۔ ان کو ضم کرنے سے ممکنہ طور پر ایک ایسا ماڈل بن سکتا ہے جو گہرے ڈومین علم اور بہترین بات چیت اور ہدایات پر عمل کرنے کی صلاحیتوں دونوں کا مالک ہو۔
ابتدائی تحقیقات نے اشارہ کیا کہ یہ عمل سادہ اوسط سے زیادہ ہو سکتا ہے۔ صرف صلاحیتوں کو ملانے کے بجائے، مرجنگ ممکنہ طور پر مکمل طور پر نئی، ابھرتی ہوئی فعالیتوں کو کھول سکتا ہے — ایسی صلاحیتیں جو کسی بھی پیرنٹ ماڈل میں واضح طور پر موجود نہیں تھیں۔ یہ مرج کے دوران پیرامیٹرز کے درمیان ایک انتہائی غیر لکیری تعامل کی تجویز کرتا ہے، جو ممکنہ طور پر حصوں کے مجموعے سے زیادہ بڑا مکمل بناتا ہے۔ اگر مؤثر اور قابل کنٹرول ثابت ہو جائے تو، ماڈل مرجنگ LLM صلاحیتوں کی حدود کو آگے بڑھانے کے لیے ایک طاقتور، تبدیلی لانے والا ٹول ثابت ہو سکتا ہے، جو پیچیدہ، حقیقی دنیا کے سائنسی اور انجینئرنگ چیلنجز کے لیے انتہائی موافق اور طاقتور AI سسٹم بناتا ہے۔
SLERP کی طاقت کا انکشاف: مرجنگ کے لیے ایک جیومیٹرک نقطہ نظر
ماڈل مرجنگ کی تاثیر کا انحصار اس بات پر ہے کہ پیرنٹ ماڈلز کے پیرامیٹرز کو کیسے ملایا جاتا ہے۔ ایک سادہ لکیری اوسط (جسے اکثر Linear Interpolation یا LERP کہا جاتا ہے) بدیہی معلوم ہو سکتا ہے، لیکن یہ اکثر غیر بہترین نتائج کا باعث بنتا ہے یا کارکردگی کو بھی کم کر دیتا ہے۔ اس کی وجہ یہ ہے کہ LLMs کی اعلی جہتی پیرامیٹر اسپیس فلیٹ نہیں ہے؛ اس میں ایک پیچیدہ، خمیدہ جیومیٹری ہے۔ لکیری انٹرپولیشن اس اسپیس کے اندر ‘ڈیڈ زونز’ یا ہائی-لاس ریجنز سے گزرنے کا خطرہ مول لیتا ہے، جو پیرنٹ ماڈلز کی احتیاط سے سیکھی گئی نمائندگیوں کو مؤثر طریقے سے بگاڑ دیتا ہے۔
Spherical Linear Interpolation (SLERP) درج کریں۔ اصل میں کمپیوٹر گرافکس میں گردشوں کی ہموار اینیمیشن کے لیے تیار کیا گیا، SLERP دو پوائنٹس (اس معاملے میں، دو ماڈلز کے پیرامیٹر ویکٹرز) کے درمیان ایک ہائپر اسفیئر کی سطح کے ساتھ مختصر ترین راستے پر چل کر انٹرپولیٹ کرنے کا ایک جیومیٹرک طور پر نفیس طریقہ پیش کرتا ہے۔
دو پیرنٹ ماڈلز کے پیرامیٹر سیٹس کو ایک بڑے کرہ کی سطح پر دو پوائنٹس کے طور پر تصور کریں۔
- LERP کرہ کے ذریعے ایک سیدھی لکیر کھینچے گا جو پوائنٹس کو جوڑتی ہے۔ یہ راستہ سطح پر نہیں رہ سکتا اور خراب کارکردگی والے ماڈلز کی نمائندگی کرنے والے علاقوں سے گزر سکتا ہے۔
- SLERP، اس کے برعکس، کرہ کی خمیدہ سطح کے ساتھ سفر کرتا ہے۔ یہ راستہ فطری طور پر پیرامیٹر اسپیس کی بنیادی جیومیٹرک ساخت کا احترام کرتا ہے۔
LLMs کو ضم کرنے کے لیے یہ کروی راستہ ممکنہ طور پر کیوں بہتر ہے؟
- ساخت کا تحفظ: ‘کرہ پر’ رہ کر، SLERP پیرامیٹرز کے درمیان جیومیٹرک تعلقات کو برقرار رکھتا ہے، ہر پیرنٹ ماڈل کے اندر سیکھی گئی ساختوں کو لکیری راستے سے زیادہ مؤثر طریقے سے محفوظ رکھتا ہے۔
- ہائی-لاس ریجنز سے گریز: خمیدہ راستہ پیرامیٹر اسپیس کے ان علاقوں سے ٹکرانے کا امکان کم رکھتا ہے جو اعلی پیشین گوئی کی غلطیوں (لاس) سے وابستہ ہیں۔
- غیر لکیری امتزاج: SLERP کے لیے انٹرپولیشن فارمولا فطری طور پر غیر لکیری ہے۔ یہ پیرنٹ ماڈلز کے پیرامیٹرز کے درمیان پیچیدہ، ہم آہنگ تعاملات کی اجازت دیتا ہے، ممکنہ طور پر ایسے امتزاجات کو کھولتا ہے جو نئی صلاحیتوں کی نمائندگی کرتے ہیں۔ ایک ضم شدہ پیرامیٹر خصوصیات کو اس طرح فعال کر سکتا ہے جو کوئی بھی پیرنٹ اکیلے نہیں کر سکتا تھا۔
- ہموار منتقلی: SLERP پیرنٹ ماڈلز کی حالتوں کے درمیان ریاضیاتی طور پر ہموار منتقلی فراہم کرتا ہے، جو ممکنہ طور پر ضم شدہ ماڈل میں بہتر عمومیت کا باعث بنتا ہے۔
چونکہ SLERP ماڈل کی اندرونی جیومیٹری کا احترام کرتا ہے اور غیر لکیری پیرامیٹر تعاملات کو آسان بناتا ہے، اس میں نہ صرف صلاحیتوں کا اوسط نکالنے بلکہ انہیں حقیقی طور پر اس طرح ملانے کی صلاحیت ہے جو ابھرتی ہوئی خصوصیات کو فروغ دیتی ہے۔ یہ اسے مواد سائنس جیسے پیچیدہ ڈومینز کے لیے ماڈلز کو ضم کرنے کے لیے ایک خاص طور پر امید افزا امیدوار بناتا ہے، جہاں لطیف تعاملات اور باریک بینی سے سمجھ کلیدی حیثیت رکھتی ہے۔
نظریات کو پرکھنا: Llama اور Mistral تجربات
ان فائن ٹیوننگ اور مرجنگ حکمت عملیوں کی سختی سے تحقیقات کرنے کے لیے، مقبول اوپن سورس ماڈل فیملیز کا استعمال کرتے ہوئے تجربات کا ایک منظم سلسلہ منعقد کیا گیا: Llama 3.1 (8 بلین پیرامیٹرز) اور Mistral (7 بلین پیرامیٹرز)۔ مقصد مختلف تربیتی پائپ لائنز کا موازنہ کرنا اور SLERP مرجنگ کے اثرات کا جائزہ لینا تھا۔
تجرباتی ڈیزائن میں کئی اہم اقدامات شامل تھے:
- بیس ماڈلز: تجربات دونوں بنیادی ‘بیس’ ماڈلز (پری ٹرینڈ لیکن انسٹرکشن ٹیونڈ نہیں) اور ‘انسٹرکٹ’ ورژنز (پہلے سے چیٹ اور انسٹرکشن فالوونگ کے لیے فائن ٹیونڈ) کے ساتھ شروع ہوئے، Llama اور Mistral دونوں فیملیز کے لیے۔
- ڈومین کارپس: مواد سائنس پر مرکوز ایک خصوصی کارپس سائنسی اشاعتوں اور پروسیس شدہ ڈیٹا سے مرتب کیا گیا تھا۔
- ٹریننگ پائپ لائنز: تربیتی تکنیکوں کے مختلف امتزاجات لاگو کیے گئے:
- صرف CPT
- CPT کے بعد SFT (CPT-SFT)
- CPT-SFT کے بعد ORPO (CPT-SFT-ORPO)
- CPT-SFT کے بعد DPO (CPT-SFT-DPO)
- کچھ تغیرات براہ راست انسٹرکٹ ماڈل سے شروع ہوتے ہیں (مثلاً، Instruct-CPT-SFT-DPO)۔
- ماڈل مرجنگ: بہت سے فائن ٹیونڈ ماڈلز کے لیے، SLERP مرجنگ کی گئی، عام طور پر ڈومین-اڈاپٹڈ ماڈل کو اسی فیملی کے متعلقہ عمومی مقصد والے ‘انسٹرکٹ’ ماڈل کے ساتھ ملایا گیا (مثلاً، ایک CPT-SFT-DPO Llama ماڈل کو معیاری Llama 3.1 انسٹرکٹ ماڈل کے ساتھ ضم کیا گیا)۔
- تشخیص: تمام نتیجے میں آنے والے ماڈلز (ضم شدہ اور غیر ضم شدہ دونوں) کی کارکردگی کا جائزہ متعلقہ بینچ مارکس کے ایک سوٹ پر کیا گیا جو ڈومین علم، استدلال، اور ہدایات پر عمل کرنے کی جانچ کے لیے ڈیزائن کیے گئے تھے۔
Llama اور Mistral میں کلیدی نتائج:
- SLERP مرجنگ مستقل طور پر کارکردگی کو بڑھاتی ہے: دونوں ماڈل فیملیز اور مختلف تربیتی پائپ لائنز میں، SLERP مرجنگ کے ذریعے بہتر بنائے گئے ماڈلز نے عام طور پر تشخیصی بینچ مارکس پر سب سے زیادہ درستگی حاصل کی۔ یہ اس مفروضے کی بھرپور حمایت کرتا ہے کہ SLERP ماڈل کی طاقتوں کو یکجا کرنے کے لیے ایک مؤثر تکنیک ہے۔
- ہم آہنگی کے اثرات کی تصدیق: SLERP-مرجڈ ماڈلز کی کارکردگی اکثر دو پیرنٹ ماڈلز کی کارکردگی کے سادہ اوسط سے تجاوز کر گئی۔ اس متوقع اوسط کے مقابلے میں حاصل کردہ اصل اسکور کو پلاٹ کرنے سے ایک اہم مثبت انحراف کا انکشاف ہوا، جس سے اس بات کی تصدیق ہوتی ہے کہ مرجنگ کا عمل اکثر ہم آہنگی کے فوائد اور ابھرتی ہوئی صلاحیتوں کو کھولتا ہے۔ ضم شدہ وجود واضح طور پر اپنے حصوں کے مجموعے سے زیادہ قابل تھا۔
- ترجیحی اصلاح قدر میں اضافہ کرتی ہے: ترجیحی اصلاح کے مراحل (DPO یا ORPO) کو شامل کرنے سے اکثر کارکردگی میں اضافی اضافہ ہوتا ہے، خاص طور پر جب SLERP مرجنگ کے ساتھ ملایا جائے۔ CPT-SFT-DPO-SLERP یا CPT-SFT-ORPO-SLERP جیسی حکمت عملی اکثر بہترین کارکردگی دکھانے والوں میں شامل تھیں۔
- بہترین غیر ضم شدہ حکمت عملی مختلف ہوتی ہے: مرجنگ کے بغیر، بہترین کارکردگی دکھانے والی حکمت عملی ماڈل فیملیز کے درمیان قدرے مختلف تھی۔ Llama 3.1 کے لیے، Instruct-CPT-SFT-DPO نے مضبوط نتائج دکھائے، جبکہ Mistral کے لیے، Base-CPT-SFT نے اپنے انسٹرکٹ ہم منصب کے مقابلے میں اچھی کارکردگی کا مظاہرہ کیا۔
- CPT دورانیے کا اثر: Mistral ماڈلز پر مزید تجزیے سے پتہ چلتا ہے کہ کارکردگی عام طور پر Continued Pre-Training کے زیادہ epochs (پانچ ٹیسٹ شدہ تک) کے ساتھ بہتر ہوئی، خاص طور پر جب انسٹرکٹ ماڈل سے شروع کیا جائے، جو CPT کے دوران کافی ڈومین ایکسپوژر کی قدر کو تقویت دیتا ہے۔
یہ نتائج ایک واضح تصویر پیش کرتے ہیں: اگرچہ ترتیب وار فائن ٹیوننگ قابل قدر ہے، SLERP کا استعمال کرتے ہوئے اسٹریٹجک ماڈل مرجنگ LLM کی کارکردگی کو نمایاں طور پر بڑھانے کے لیے ایک طاقتور راستہ پیش کرتا ہے، خاص طور پر مخصوص ڈومینز کے لیے، جو اکثر سادہ جمع سے زیادہ صلاحیتیں فراہم کرتا ہے۔
گہری کھدائی: مرجنگ کو کیا چیز کامیاب بناتی ہے؟
SLERP مرجنگ کی مستقل کامیابی بنیادی میکانکس اور اثر انداز ہونے والے عوامل پر گہری نظر ڈالنے پر اکساتی ہے۔ یہ جیومیٹرک نقطہ نظر اتنے طاقتور نتائج کیوں دیتا ہے، اور کون سی شرائط اس کی تاثیر کو بہتر بناتی ہیں؟
غیر لکیری تعاملات: جیسا کہ نظریہ پیش کیا گیا ہے، پیرامیٹر اسپیس کے ذریعے SLERP کا غیر لکیری راستہ اہم معلوم ہوتا ہے۔ یہ ضم شدہ ماڈل کو پیرامیٹرز کے ان امتزاجات کو تلاش کرنے کی اجازت دیتا ہے جنہیں لکیری اوسط نظر انداز کر دے گا۔ یہ امتزاجات سیکھی ہوئی خصوصیات کے درمیان نئے تعاملات کی نمائندگی کر سکتے ہیں، جو ڈومین کے مطابق ابھرتے ہوئے استدلال یا مسئلہ حل کرنے کی صلاحیتوں کا باعث بنتے ہیں۔ ایسے پیرامیٹرز کو ملانے کا تصور کریں جو انفرادی طور پر ‘مواد کی مضبوطی’ اور ‘حیاتیاتی ساخت’ کی سمجھ کی نمائندگی کرتے ہیں – SLERP ایک ایسا امتزاج تلاش کر سکتا ہے جو مؤثر طریقے سے ‘بائیو-انسپائرڈ ہائی-اسٹرینتھ میٹریلز’ کی نمائندگی کرتا ہو اس طرح سے جو کسی بھی پیرنٹ ماڈل نے واضح طور پر نہیں کیا تھا۔
تنوع کا کردار: پیرنٹ ماڈلز کتنے مختلف ہونے چاہئیں؟ تجزیے نے پیچیدہ تعلقات کی نشاندہی کی۔ اگرچہ انتہائی تنوع فائدہ مند معلوم ہو سکتا ہے، کچھ ارتباطات نے اشارہ کیا کہ بعض سیاق و سباق میں (جیسے Llama ماڈلز)، والدین کے درمیان اعلی کارکردگی کا تنوع بعد میں SFT پر انحصار کو قدرے کم کر سکتا ہے، شاید اس لیے کہ مرجنگ پہلے ہی ایک وسیع تر صلاحیت کا سیٹ حاصل کر لیتی ہے۔ یہ تعامل لطیف ہے اور ممکنہ طور پر والدین کے لیے استعمال ہونے والے مخصوص فائن ٹیوننگ طریقوں پر منحصر ہے۔
بیس بمقابلہ انسٹرکٹ نقطہ آغاز: ابتدائی ماڈل کا انتخاب اہمیت رکھتا ہے۔ Llama تجربات کے لیے، سب سے زیادہ کارکردگی دکھانے والا ضم شدہ ماڈل انسٹرکٹ ورژن سے نکلا تھا۔ اس کے برعکس، Mistral کے لیے، ایک اعلی کارکردگی دکھانے والا بیس ماڈل سے اخذ کیا گیا تھا اس سے پہلے کہ وہ CPT، SFT، اور مرجنگ سے گزرے۔ یہ تجویز کرتا ہے کہ Llama اور Mistral فیملیز کی ابتدائی پری ٹریننگ میک اپ میں آرکیٹیکچرل اختلافات یا تغیرات اس بات پر اثر انداز ہوتے ہیں کہ وہ مخصوص فائن ٹیوننگ اور مرجنگ پائپ لائنز پر کیسے ردعمل ظاہر کرتے ہیں۔ کوئی ایک عالمگیر ‘بہترین’ نقطہ آغاز نہیں ہے؛ اس کے لیے تجرباتی جانچ کی ضرورت ہے۔
CPT میں ڈیٹا کا معیار: Continued Pre-Training کے دوران رکھی گئی بنیاد اہم ہے۔ ایک بڑے لیکن ‘شور’ والے CPT ڈیٹا سیٹ (جس میں زیادہ فارمیٹنگ کی غلطیاں یا آپٹیکل کریکٹر ریکگنیشن کے نمونے شامل ہیں) کا استعمال کرتے ہوئے کیے گئے تجربات کے نتیجے میں ایک چھوٹے، صاف ستھرے ڈیٹا سیٹ کے استعمال کے مقابلے میں کارکردگی میں کمی واقع ہوئی۔ یہ CPT مرحلے کے مؤثر ہونے کے لیے اعلی معیار، اچھی طرح سے پروسیس شدہ ڈومین کے لیے مخصوص ڈیٹا کی اہمیت کو واضح کرتا ہے۔ کچرا اندر، کچرا باہر اب بھی لاگو ہوتا ہے۔
فائن ٹیوننگ SLERP پیرامیٹرز: SLERP کے اپنے پیرامیٹرز ہوتے ہیں، خاص طور پر انٹرپولیشن کوفیشینٹ (جسے اکثر ‘t’ سے ظاہر کیا جاتا ہے، 0 سے 1 تک) جو یہ تعین کرتا ہے کہ ہر پیرنٹ ماڈل کو کتنا وزن دیا جاتا ہے۔ مزید برآں، مرجنگ کو تمام ماڈل پرتوں میں یکساں ہونے کی ضرورت نہیں ہے۔ تجربات نے سیلف اٹینشن پرتوں بمقابلہ ملٹی لیئر پرسیپٹرون (MLP) پرتوں کے لیے انٹرپولیشن فیکٹر کو مختلف طریقے سے تبدیل کرنے، یا یہاں تک کہ ماڈل کی گہرائی کے ذریعے اسے بتدریج تبدیل کرنے کی کھوج کی۔ نتائج سے پتہ چلتا ہے کہ مخصوص غیر یکساں وزن کی اسکیمیں معیاری یکساں نقطہ نظر سے بہتر کارکردگی کا مظاہرہ کر سکتی ہیں، جو نیٹ ورک کے فن تعمیر میں مرج کے عمل کو احتیاط سے تیار کرکے مزید اصلاح کی صلاحیت تجویز کرتی ہیں۔ ایک Llama کیس میں تہوں میں وزن کی ایک سادہ لکیری پیشرفت مؤثر ثابت ہوئی۔
ریگولرائزیشن اثر: SLERP ریگولرائزیشن کی ایک شکل کے طور پر بھی کام کر سکتا ہے۔ دو ممکنہ طور پر مخصوص ماڈلز کے درمیان ایک ہموار راستہ تلاش کرکے، یہ کسی بھی پیرنٹ کے تربیتی ڈیٹا کی خصوصیات کے لیے اوور فٹنگ کی حوصلہ شکنی کر سکتا ہے، جس سے ان دیکھے ڈومین کے لیے مخصوص مسائل پر بہتر عمومیت حاصل ہوتی ہے۔ یہ ‘تباہ کن بھولنے’ کو کم کرنے میں بھی مدد کر سکتا ہے، جہاں ایک کام پر فائن ٹیوننگ پچھلے کام سے علم کو مٹا دیتی ہے۔
خلاصہ یہ کہ، SLERP کی تاثیر LLM پیرامیٹر اسپیس کی پیچیدہ جیومیٹری کو ذہانت سے نیویگیٹ کرنے، سیکھے ہوئے علمی ڈھانچے کو محفوظ رکھتے ہوئے فائدہ مند غیر لکیری تعاملات کو فروغ دینے کی صلاحیت سے پیدا ہوتی ہے۔ تاہم، اس کے استعمال کو بہتر بنانے کے لیے پیرنٹ ماڈل کے انتخاب، تربیتی تاریخ، ڈیٹا کے معیار، اور ممکنہ طور پر مرج کی باریک تفصیلات پر بھی غور کرنے کی ضرورت ہے۔
کیا سائز اہمیت رکھتا ہے؟ چھوٹے ماڈلز کے ساتھ اسکیلنگ اثرات کی کھوج
7-بلین اور 8-بلین پیرامیٹر ماڈلز کے ساتھ مشاہدہ کیے گئے متاثر کن ہم آہنگی کے اثرات ایک فطری سوال اٹھاتے ہیں: کیا SLERP مرجنگ کے ذریعے کھولی گئی یہ ابھرتی ہوئی صلاحیتیں بہت چھوٹے لینگویج ماڈلز میں بھی ظاہر ہوتی ہیں؟ یا کیا کوئی پیمانے کی حد ہے جس سے نیچے جادو ختم ہو جاتا ہے؟
اس کی تحقیقات کے لیے، SmolLM ماڈل سیریز کا استعمال کرتے ہوئے اسی طرح کے تجربات کیے گئے، خاص طور پر صرف 1.7 بلین پیرامیٹرز والے ویرینٹ کے ساتھ۔ یہ ماڈل نمایاں طور پر چھوٹا ہے، جو اسے وسائل کی کمی والے ماحول جیسے موبائل آلات یا ایج کمپیوٹنگ کے لیے موزوں بناتا ہے، لیکن ممکنہ طور پر اس کے بڑے کزنز کی پیرامیٹر کی فراوانی کی کمی ہے۔
SmolLM ماڈلز اسی پائپ لائن سے گزرے: مواد سائنس کارپس کے ساتھ CPT، اس کے بعد SFT اور DPO (جو اس چھوٹے فن تعمیر کے لیے ORPO سے زیادہ مؤثر ثابت ہوا)۔ پھر SLERP مرجنگ کا اطلاق کیا گیا، جس میں فائن ٹیونڈ SmolLM کو اس کے بیس ورژن یا دیگر ویرینٹس کے ساتھ ملایا گیا۔
SmolLM کے ساتھ نتائج:
- فائن ٹیوننگ اب بھی مدد کرتی ہے: CPT-SFT-DPO پائپ لائن نے SmolLM ماڈل کی کارکردگی کو اس کی اصل حالت کے مقابلے میں ڈومین ٹاسکس پر بہتر کیا۔ فائن ٹیوننگ کا عمل خود فائدہ مند تھا، اس کے مخصوص علم میں اضافہ ہوا۔
- ابھرنا بڑی حد تک غائب: تاہم، Llama اور Mistral تجربات کے برعکس، SLERP-مرجڈ SmolLM ماڈلز نے عام طور پر نہیں نمایاں ہم آہنگی کے اثرات کا مظاہرہ کیا۔ ان کی کارکردگی عام طور پر پیرنٹ ماڈلز کے سادہ اوسط کے قریب رہی، یا صرف تھوڑی سی اوپر۔ 7B/8B ماڈلز میں دیکھی گئی ڈرامائی کارکردگی کی چھلانگیں اور ابھرتی ہوئی صلاحیتوں کے واضح نشانات غائب تھے۔
مضمرات:
یہ تضاد بتاتا ہے کہ ماڈل کا پیمانہ ممکنہ طور پر ایک کلیدی عنصر ہے ابھرتی ہوئی خصوصیات پیدا کرنے کے لیے SLERP مرجنگ کی مکمل صلاحیت کو سمجھنے میں۔ چھوٹے ماڈلز، اپنے کم پیچیدہ اور کم جہتی پیرامیٹر اسپیسز کے ساتھ، ان طاقتور غیر لکیری تعاملات کے مرجنگ کے دوران ہونے کے لیے درکار نمائندگی کی صلاحیت یا فراوانی کی کمی ہو سکتی ہے۔ نئے، فائدہ مند پیرامیٹر امتزاجات دریافت کرنے کے لیے ‘جگہ’ بڑے ماڈلز کے مقابلے میں نمایاں طور پر محدود معلوم ہوتی ہے۔
یہ نتائج ڈیپ لرننگ میں اسکیلنگ قوانین کے بارے میں وسیع تر مشاہدات سے ہم آہنگ ہیں، جہاں بعض معیاری صلاحیتیں اکثر تب ہی ابھرتی ہیں جب ماڈلز ایک خاص سائز کی حد تک پہنچ جاتے ہیں۔ ایسا لگتا ہے کہ SLERP مرجنگ کی ہم آہنگی کی طاقت ایک ایسی صلاحیت ہو سکتی ہے جو کافی ماڈل پیمانے اور پیچیدگی پر تنقیدی طور پر منحصر ہے۔
فوائد کی مقدار بندی: مرجنگ سے کارکردگی میں اضافے پر ایک قریبی نظر
اگرچہ بینچ مارکس دکھاتے ہیں کہ ضم شدہ ماڈلز اکثر مجموعی طور پر بہترین کارکردگی کا مظاہرہ کرتے ہیں، یہ درست طور پر مقدار درست کرنا مفید ہے کہ وہ اپنے والدین کے مقابلے میں کتنا بہتر ہیں۔ خاص طور پر، کیا ضم شدہ ماڈل مستقل طور پر اسے بنانے کے لیے استعمال ہونے والے دو ماڈلز میں سے مضبوط سے بھی بہتر کارکردگی کا مظاہرہ کرتا ہے؟
اس کا تجزیہ کرنے کے لیے، ہر SLERP-مرجڈ ماڈل کے لیے کارکردگی کے انحراف کا حساب لگایا گیا۔ اس انحراف کی تعریف اس طرح کی گئی تھی:
کارکردگی انحراف = کارکردگی (ضم شدہ ماڈل) - زیادہ سے زیادہ (کارکردگی (پیرنٹ 1)، کارکردگی (پیرنٹ 2))
- ایک مثبت انحراف (نیلے رنگ کے شیڈز میں تصور کیا گیا) کا مطلب ہے کہ SLERP ماڈل نے اپنے بہترین والدین سے بہتر کارکردگی کا مظاہرہ کیا – ہم آہنگی کا واضح ثبوت۔
- ایک منفی انحراف (سرخ رنگ میں تصور کیا گیا) کا مطلب ہے کہ SLERP ماڈل نے اپنے کم از کم ایک والدین سے بدتر کارکردگی کا مظاہرہ کیا، جو اس بات کی نشاندہی کرتا ہے کہ مرج نقصان دہ تھا یا بہترین طور پر، اوسط تھا۔
تجزیے سے انکشاف ہوا:
Llama 3.1 (8B) اور Mistral (7B) ماڈلز پر مشتمل زیادہ تر تجربات میں، کارکردگی کے انحراف بنیادی طور پر مثبت تھے۔ بہت سے معاملات میں، خاص طور پر اچھی طرح سے بہتر کردہ پائپ لائنز کے لیے (مثلاً، جن میں CPT، SFT، ترجیحی اصلاح، اور SLERP شامل ہیں)، ضم شدہ ماڈلز نے کافی مثبت انحراف دکھایا، جو اس بات کی نشاندہی کرتا ہے کہ انہوں نے اپنے مضبوط ترین والدین کی صلاحیتوں کو بھی نمایاں طور پر پیچھے چھوڑ دیا۔
ایسے واقعات تھے، خاص طور پر کم بہتر کردہ پیرنٹ ماڈلز یا شاید غیر بہترین مرجنگ پیرامیٹرز کے ساتھ، جہاں انحراف قدرے منفی یا صفر کے قریب تھا۔ تاہم، غالب رجحان واضح تھا: اسٹریٹجک SLERP مرجنگ اکثر ایک حقیقی کارکردگی میں اضافہ فراہم کرتی ہے جو کسی بھی پیرنٹ ماڈل کے اکیلے حاصل کرنے سے زیادہ ہے۔ یہ اس خیال کو تقویت دیتا ہے کہ مرجنگ صرف اوسط نہیں ہے، بلکہ اعلی صلاحیتوں کی ترکیب کرنے کے قابل ایک عمل ہے۔ SmolLM (1.7B) کے نتائج، اس کے برعکس، بہت چھوٹے یا منفی انحراف دکھائیں گے، جو اس پیمانے پر مضبوط ابھرتے ہوئے اثرات کی کمی کے مطابق ہے۔
بینچ مارکس سے برین اسٹارمنگ تک: مٹیریل ڈیزائن میں انٹرایکٹو ایپلی کیشنز
مقدار کے بینچ مارکس سے ہٹ کر، ان ڈومین-اڈاپٹڈ ماڈلز کی حقیقی قدر حقیقی دنیا کے کاموں میں مدد کرنے کی ان کی صلاحیت میں مضمر ہے، جیسے سائنسی استدلال اور تخلیقی ڈیزائن۔ اس معیاری پہلو کا جائزہ لینے کے لیے، کئی اعلی کارکردگی والے ماڈلز (بشمول ضم شدہ اور غیر ضم شدہ دونوں ویرینٹس) کے ساتھ انٹرایکٹو چیٹ سیشنز منعقد کیے گئے۔
سیٹ اپ میں ایک مستقل سسٹم پرامپٹ فراہم کرنا شامل تھا جو ماڈل کو مواد سائنس کے ماہر کے طور پر کام کرنے کی ہدایت دیتا تھا، جس کے بعد صارف کا پرامپٹ تخلیقی، کراس-ڈومین استدلال کی جانچ کے لیے ڈیزائن کیا گیا تھا۔ ایک عام کام میں ماڈل سے پوچھنا شامل تھا:
- دو بظاہر متضاد حیاتیاتی تصورات پر غور کریں (مثلاً، کولیجن کی ساخت اور پتوں کے وینیشن پیٹرن)۔
- دونوں تصورات کے اصولوں کو ملا کر متاثر ہونے والے نئے مواد کے ڈیزائن پر غور کریں۔
- مجوزہ ڈیزائنوں کے پیچھے استدلال کی وضاحت کریں۔
- ممکنہ ڈاؤن اسٹریم پروسیسنگ کے لیے تجاویز کو ایک منظم فارمیٹ (جیسے JSON) میں آؤٹ پٹ کریں۔
معیاری مشاہدات:
- مضبوط ڈومین سمجھ: تمام فائن ٹیونڈ ماڈلز نے بنیادی حیاتیاتی اور مواد سائنس کے تصورات کی ٹھوس گرفت کا مظاہرہ کیا، مناسب اصطلاحات کا استعمال کیا اور متعلقہ اصولوں کا حوالہ دیا۔ CPT اور SFT مراحل نے واضح طور پر اہم ڈومین علم فراہم کیا۔