مائیکروسافٹ کے چھوٹے ماڈل کا کمال: 6,000 نمونوں پر تربیت یافتہ ایک ‘ریاضی دھوکہ دہی کوڈ’
جبکہ DeepSeek-R2 ابھی تک دسترس سے باہر ہے، مائیکروسافٹ کے چھوٹے ماڈلز دھوم مچا رہے ہیں، جو کہ حیرت انگیز طور پر چھوٹے ڈیٹا سیٹ پر تربیت یافتہ متاثر کن استدلال کی صلاحیتوں کا مظاہرہ کر رہے ہیں۔
Phi-4 استدلال ماڈلز کا عروج
AI کی دنیا اس وقت استدلال ماڈلز کی گرفت میں ہے، اور مائیکروسافٹ نے حال ہی میں Phi-4 انفرنس ماڈلز کا خاندان متعارف کرایا ہے۔ اس میں Phi-4-reasoning، Phi-4-reasoning-plus، اور Phi-4-mini-reasoning شامل ہیں۔ خاص طور پر قابل ذکر بات یہ ہے کہ ان ماڈلز میں سے سب سے بڑا، محض 14 بلین پیرامیٹرز پر مشتمل ہونے کے باوجود، اعلیٰ کارکردگی والے لیپ ٹاپس پر آسانی سے چل سکتا ہے۔ مزید یہ کہ 3.8 بلین پیرامیٹر Phi-4-mini-reasoning ریاضیاتی استدلال میں 8 بلین پیرامیٹر DeepSeek-R1 کشیدہ ماڈل سے بڑھ جاتا ہے، جو انفرنس ٹاسک میں چھوٹے ماڈلز کی طاقت کو اجاگر کرتا ہے۔
اپریل میں دوسری نسل کے DeepSeek-R2 استدلال ماڈل کے اجراء کا انتظار کرنے کے بجائے، مائیکروسافٹ نے Phi-4 استدلال ماڈلز کی ایک نئی سیریز کی نقاب کشائی کی۔ یہ ماڈلز ریاضیاتی استدلال میں غیر معمولی کارکردگی کا مظاہرہ کرتے ہیں، Phi-4-Mini-Reasoning کے پیرامیٹر پیمانے پر چھوٹا ہونے کے باوجود، DeepSeek-R1 کشیدہ ماڈل سے تجاوز کر جاتے ہیں۔
مائیکروسافٹ AI فرنٹیئرز لیبارٹری میں پارٹنر ریسرچ مینیجر احمد اواد اللہ نے Phi-4-reasoning کو بیان کیا اور نئے ماڈل کی خصوصیات کا خلاصہ کیا۔
- ماڈل کو نگرانی شدہ عمدہ ٹیوننگ (احتیاط سے منتخب استدلال مثال کے ڈیٹا سیٹ کا استعمال کرتے ہوئے) اور کمک سیکھنے کے ساتھ تربیت دی جاتی ہے۔
- یہ انفرنس بینچ مارکس میں اچھی کارکردگی کا مظاہرہ کرتا ہے اور بڑے ٹاپ ماڈلز جیسے کہ DeepSeek R1 کے برابر ہو سکتا ہے۔
- یہ نئے ٹیسٹوں (جیسے AIME 2025، HMMT) پر مضبوط کارکردگی کا مظاہرہ کرتا رہتا ہے۔
- استدلال کی صلاحیت میں مضبوط منتقلی/عمومیت کی صلاحیت ہے، یہاں تک کہ صرف نگرانی شدہ عمدہ ٹیوننگ کے بعد، یہ نئے کاموں (جیسے k-SAT، ریاضیاتی مساوات کو حل کرنا، شیڈولنگ وغیرہ) کے مطابق ہو سکتا ہے۔
- عام صلاحیتوں کو برقرار رکھتا ہے اور ان میں بہت زیادہ بہتری لاتا ہے (جیسے ہدایات کو سمجھنا اور ان پر عمل درآمد کرنا)
انہوں نے کہا کہ Phi-4 میں اب بھی کئی پہلو ہیں جن میں بہتری کی ضرورت ہے، خاص طور پر سیاق و سباق کی لمبائی، انکوڈنگ کی صلاحیت اور ٹول انضمام میں۔
ماڈل کے علاوہ، مائیکروسافٹ نے ایک تفصیلی تکنیکی رپورٹ بھی شیئر کی ہے جو ماڈل کی تربیت اور تشخیص کے عمل کا گہرائی سے تجزیہ فراہم کرتی ہے۔
X پر، مائیکروسافٹ ریسرچ AI فرنٹیئرز لیبارٹری میں پرنسپل ریسرچر اور وسکونسن یونیورسٹی میں ایسوسی ایٹ پروفیسر دیمتریس پاپایلیوپولوس نے Phi-4 استدلال ماڈل کے بارے میں مزید معلومات متعارف کروائیں۔
ان کا خیال ہے کہ Phi-4-reasoning مکمل طور پر گریجویٹ سطح پر پہنچ گیا ہے اور اسے مقامی پی سی پر چلایا جا سکتا ہے۔
یہ AI کی ترقی کے لیے ان کی توقعات سے تجاوز کر گیا۔
نئے ماڈل میں کم پیرامیٹرز ہیں لیکن مضبوط کارکردگی ہے۔
ایک کارکردگی پاور ہاؤس
اپنے معمولی سائز کے باوجود، یہ ماڈل ریاضی کے بینچ مارکس جیسے AIME، HMMT، اور OmniMath میں بہترین ہے۔ یہ QwQ-32B، R1-70B، اور R1 جیسے بڑے اوپن ویٹ ماڈلز، اور o1-mini اور sonnet 3.7 جیسے بند ماڈلز کے برابر یا اس سے زیادہ کارکردگی کا مظاہرہ کرتا ہے۔
یہ ماڈل سائز میں چھوٹا ہے اور اعلیٰ کارکردگی والے لیپ ٹاپس پر آسانی سے چلانے کے لیے موزوں ہے۔
اسی وقت، یہ بہت سی ایسی پہیلیاں حل کرنے کی صلاحیت رکھتا ہے جو بڑے غیر استدلال ماڈلز اور کچھ استدلال ماڈلز بھی حل نہیں کر سکتے۔
اس نے DimitrisEval ٹیسٹ بھی پاس کر لیا!
حیرت انگیز طور پر، استدلال ایک حقیقی منتقلی پذیر ‘میٹا-مہارت’ معلوم ہوتی ہے جسے نگرانی شدہ عمدہ ٹیوننگ SFT کے ذریعے بھی سیکھا جا سکتا ہے!
ثبوت 1: غیر استدلال کاموں پر خصوصی تربیت کے بغیر بھی، محققین نے پھر بھی IFEval، FlenQA، اور اندرونی PhiBench پر کارکردگی میں نمایاں بہتری دیکھی (10 پوائنٹس سے زیادہ اضافہ!)۔
اس کے علاوہ، SFT مرحلے کے دوران کوڈنگ سے متعلق بہت کم ڈیٹا موجود ہے (اور RL مرحلے کے دوران بالکل بھی نہیں)، لیکن ماڈل اب بھی اس سلسلے میں اچھی کارکردگی کا مظاہرہ کرتا ہے۔
اس کے علاوہ، دیمتریس پاپایلیوپولوس نے انکشاف کیا کہ پروگرامنگ بعد کے ورژن کے لیے ایک اہم توجہ کا مرکز ہے۔
ثبوت 2: کچھ مخصوص مسائل کی صورت میں جن پر واضح طور پر تربیت نہیں دی گئی تھی (یا تو SFT یا RL مرحلہ)، جیسے ٹریولنگ سیلزمین کا مسئلہ، بھولبلییا کو حل کرنا، k-SAT، محدود منصوبہ بندی وغیرہ، ماڈل ان کاموں میں بہت اچھی کارکردگی کا مظاہرہ کرتا ہے!
اور Phi-4 (اور یہاں تک کہ GPT-4) ایسا نہیں کر سکتے۔
یہ مکمل طور پر واضح کرتا ہے کہ استدلال کی صلاحیت کو واقعی ایک مہارت کے طور پر منتقل کیا جا سکتا ہے!
کمک سیکھنے کے ایک بہت ہی مختصر دور کے بعد (صرف 6,000 نمونے استعمال کرتے ہوئے، SFT کے لیے 1.4 ملین مثالوں کے مقابلے میں)، ماڈل کا استدلال میکانزم ‘لاک’ ہوتا معلوم ہوتا ہے۔
اس نے دیمتریس پاپایلیوپولوس کو خاص طور پر صدمہ پہنچایا۔
انہیں لگتا ہے کہ گویا کمک سیکھنے نے ماڈل کو ‘اپنی زبان میں’ استدلال کرنا سکھایا ہے، AIME اور HMMT پر درستگی میں تقریباً 10% اضافہ ہوا ہے، اور مشکل مسائل میں اوسط جواب کی لمبائی میں 50% اضافہ ہوا ہے۔
کمک سیکھنا واقعی مؤثر ہے!!
استدلال میکانزم کے ‘لاک’ ہونے کا مظہر عام طور پر ماڈل کی آؤٹ پٹ تقسیم کو زیادہ مرتکز اور درستگی کو بھی زیادہ بناتا ہے۔
کمک سیکھنے سے ماڈل کی صلاحیتوں کو نمایاں طور پر بہتر بنانے کا حقیقت مائیکروسافٹ کی سابقہ تحقیق میں بھی ظاہر ہوا ہے۔
کمک سیکھنے کے مرحلے میں، نئے ماڈل کو ڈیٹا کے لیے خاص طور پر بہتر بھی نہیں بنایا گیا تھا: 6,000 سوالات کو محض ڈیٹا سیٹس کے ایک بڑے انتخاب سے تصادفی طور پر منتخب کیا گیا تھا۔
تو مائیکروسافٹ نے کمک سیکھنے کی مزید تربیت کیوں نہیں کی؟
کیونکہ ماڈل نے سوالات کے ایسے جوابات تیار کیے جو 32k سیاق و سباق کی لمبائی سے تجاوز کر گئے (وہ لمبائی جس پر ماڈل کو تربیت نہیں دی گئی تھی)، وہ اسے صرف کاٹ سکتے تھے۔
اس کے علاوہ، متوازی استدلال حساب کتاب (جیسے Maj@N) کی مدد سے، نئے استدلال ماڈل نے AIME 2025 پر تقریباً کارکردگی کی حد کو چھو لیا ہے، اور یہاں تک کہ اپنے استاد ماڈل (o3-mini) کی pass@1 کارکردگی کو بھی پیچھے چھوڑ دیا ہے۔
اور فروری 2025 سے پہلے تمام ڈیٹا اکٹھا کر لیا تھا، اور اسی طرح HMMT بھی ہے۔
دیگر کاموں میں، محققین نے ‘استاد سے تجاوز کرنے’ کا مظہر بھی دیکھا ہے، جیسے OmniMath اور Calendar Planning کے کام۔
SFT مرحلے میں فوری ڈیزائن، اس کے بعد کمک سیکھنے کا عمل، نے ماڈل کو ‘خود کو بہتر بنانے’ کی صلاحیت دی ہے، جو استاد ماڈل کے ذریعہ فراہم کردہ علم کے دائرہ کار سے تجاوز کر گئی ہے۔
ذیل کی تصویر میں، گلابی رنگ o3-mini کی نمائندگی کرتا ہے اور سبز رنگ Phi کی نمائندگی کرتا ہے۔
ایک دلچسپ مظہر یہ ہے کہ: جواب کی لمبائی والے طویل متن جو اوپر کے 25% میں ہیں اکثر غلط جوابات سے مضبوطی سے منسلک ہوتے ہیں!
تاہم، دوسری طرف، زیادہ تر جائزوں میں، مجموعی طور پر اوسط جواب کی لمبائی لمبی ہوتی ہے اور درستگی زیادہ ہوتی ہے۔
دوسرے لفظوں میں، جانچ کے دوران کمپیوٹنگ کے وسائل میں اضافہ مدد کرتا ہے، لیکن ماڈل ‘اٹک جانے’ پر ‘فضول باتیں’ کرنے کا بھی شکار ہوتا ہے۔
ماڈل کی حدود کے بارے میں، کچھ چیزیں ہیں جن پر توجہ دینی چاہیے:
- 32k سے زیادہ سیاق و سباق کی لمبائی کو سنبھالنے کی صلاحیت کو مکمل طور پر وسعت نہیں دی گئی ہے یا جانچا نہیں گیا ہے۔
- ماڈل آسان مسائل سے نمٹنے کے وقت ‘زیادہ سوچنے’ کا شکار ہوتا ہے، اور خود تشخیص میں بہت زیادہ زبانی معلوم ہو سکتا ہے۔
- متعدد موڑ والے مکالموں کی صلاحیت کو بڑے پیمانے پر جانچا نہیں گیا ہے۔
یقیناً، دریافت کرنے کے لیے مزید ‘اندھے مقامات’ ہیں، لیکن مجموعی طور پر، تحقیقی ٹیم محسوس کرتی ہے کہ وہ صحیح راستے پر ہیں!
تربیتی حیرتیں
سوریا گناسیکر، مائیکروسافٹ ریسرچ میں پرنسپل ریسرچ مینیجر اور Phi ماڈلز کی سیریز تیار کرنے کے ذمہ دار ‘AGI فزکس’ ٹیم سے تعلق رکھتے ہیں، نے کام کے بنیادی اصولوں کو متعارف کرانے پر توجہ مرکوز کی۔
اس بار، مائیکروسافٹ Phi ٹیم نے پوسٹ ٹریننگ مرحلے پر توجہ مرکوز کی اور Phi-4-reasoning (صرف SFT کا استعمال کرتے ہوئے) اور Phi-4-reasoning-plus (SFT+ RL کی تھوڑی سی مقدار) لانچ کیا۔
دونوں 14B ماڈلز ہیں جنہوں نے استدلال اور عام کام کے بینچ مارکس میں مضبوط صلاحیتوں کا مظاہرہ کیا ہے۔
اس کام کا جوہر منتقلی پذیر، خود کو بہتر بنانے والی استدلال کی مہارتوں کے فوری انتخاب اور تجرباتی تحقیق میں مضمر ہے۔
تربیتی عمل کے دوران دو حیرت انگیز دریافتیں ہوئیں:
سب سے پہلے، جب تک کہ کچھ ڈومین سے تربیت یافتہ طویل زنجیر استدلال (CoT) ٹریجیکٹریز استعمال کی جاتی ہیں، Phi-4 متعدد کاموں جیسے شیڈولنگ، بھولبلییا کو حل کرنا (بصری ان پٹ کے بغیر)، IFEva، FlenQA، KITAB (لُک اپ پر مبنی سوال و جواب)، اور اندرونی PhiBench میں نمایاں کارکردگی میں بہتری حاصل کر سکتا ہے۔
دوم، یہاں تک کہ اگر صرف 6,000 ریاضیاتی مثالیں کم سے کم RL تربیت کے لیے استعمال کی جاتی ہیں، تو ماڈل کی کارکردگی میں کچھ بینچ مارکس میں نمایاں طور پر بہتری آتی ہے، سب سے زیادہ بہتری 10% تک پہنچ جاتی ہے (لیکن ٹوکن کا استعمال تقریباً 1.5 گنا بڑھ جاتا ہے)، اور RL مرحلے کے دوران مہارتوں کی کراس ڈومین منتقلی بھی دیکھی گئی۔
دوسرے لفظوں میں، OpenAI اور Google جیسے بڑے حریفوں کے مقابلے میں، مائیکروسافٹ Phi-4 استدلال سیریز نئی امکانات کا مظاہرہ کرتی ہے: چھوٹے ماڈلز اعلیٰ معیار کے ڈیٹا اور بہتر تربیتی حکمت عملیوں کا استعمال کرکے مخصوص کاموں میں بڑے ماڈلز سے مل سکتے ہیں یا ان سے بھی تجاوز کر سکتے ہیں۔
بنیادی طریقے
استدلال ماڈل Phi-4-reasoning میں 14 بلین پیرامیٹرز ہیں اور یہ پیچیدہ استدلال کے کاموں میں مضبوط کارکردگی کا مظاہرہ کرتا ہے۔
ماڈل نگرانی شدہ عمدہ ٹیوننگ تربیت کے لیے Phi-4 پر مبنی ہے، ‘سکھانے کے قابل’ اشاروں کے احتیاط سے منتخب کردہ سیٹ کا استعمال کرتے ہوئے جس میں مناسب پیچیدگی اور تنوع دونوں ہیں۔ o3-mini کے ذریعہ تیار کردہ استدلال کی مثالیں تربیت کے عمل کے دوران حوالہ کے طور پر استعمال کی جاتی ہیں۔
Phi-4-reasoning تفصیلی استدلال زنجیریں تیار کر سکتا ہے اور استدلال کے عمل کے دوران کمپیوٹنگ کے وسائل کا مکمل استعمال کر سکتا ہے۔
اس بنیاد پر، مائیکروسافٹ نے مزید Phi-4-reasoning-plus تیار کیا۔
اسے نتیجے پر مبنی کمک سیکھنے کے ایک چھوٹے مرحلے کے ذریعے اصل ماڈل کی بنیاد پر بہتر بنایا گیا ہے، اور یہ طویل اور زیادہ طاقتور استدلال زنجیریں تیار کرتا ہے۔
تحقیق سے پتہ چلتا ہے کہ ایک اچھی طرح سے ڈیزائن کیا گیا SFT ڈیٹا سیٹ استدلال کی لسانی ماڈلز کے اثر کو نمایاں طور پر بہتر بنا سکتا ہے، اور کمک سیکھنا (RL) اس بنیاد پر اس بہتری کو مزید بڑھا سکتا ہے۔
SFT تجربات میں، یہاں تک کہ اس نسبتاً سادہ جنریشن ترتیب میں بھی، بیج کے مسائل کا احتیاط سے انتخاب اور سخت فلٹرنگ اب بھی ماڈل کی کامیابی کی کلید ہے۔
انہوں نے تربیتی ڈیٹا کے پورے سیٹ کو سخت ڈی پولیشن کے عمل سے مشروط کیا ہے تاکہ یہ یقینی بنایا جا سکے کہ اس میں ایسا ڈیٹا نہیں ہے جو بڑے پیمانے پر استعمال ہونے والے استدلال یا عام بینچ مارک سوالات سے بہت زیادہ ملتا ہو، بشمول کچھ بینچ مارک جن کا اس رپورٹ میں ذکر نہیں کیا گیا ہے۔
بینچ مارک ٹیسٹوں کی مکمل فہرست جنہیں صاف کیا گیا ہے درج ذیل ہے:
- ریاضی اور استدلال: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
- پروگرامنگ: LiveCodeBench, Codeforces, HumanEval, MBPP
- سوال و جواب اور عام معلومات: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
- دیگر تشخیصی کام: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench
14 بلین پیرامیٹرز کے ساتھ Phi-4 ماڈل کے نگرانی شدہ Finetuning (SFT) کے ذریعے، محققین نے اس سے پہلے کسی بھی کمک سیکھنے کے بغیر، Phi-4-reasoning حاصل کیا۔
SFT کا مقصد بنیادی ماڈل میں موجود منظم استدلال کی صلاحیت کو بہتر بنانا ہے۔
Phi-4-reasoning کا فن تعمیر Phi-4 ماڈل کی طرح ہے، لیکن اس میں دو اہم تبدیلیاں کی گئی ہیں:
- استدلال ٹوکنز: بنیادی ماڈل میں موجود دو پلیس ہولڈر ٹوکنز کو اور ٹوکنز کے طور پر دوبارہ استعمال کیا جاتا ہے، جو استدلال (‘سوچنے’) کے عمل کے آغاز اور اختتام کو نشان زد کرنے کے لیے استعمال ہوتے ہیں۔
- بڑھائی گئی ٹوکن لمبائی: بنیادی ماڈل (Phi-4) کے ذریعہ ابتدائی طور پر تعاون یافتہ زیادہ سے زیادہ ٹوکن لمبائی 16K تھی۔ اضافی استدلال ٹوکنز کو ایڈجسٹ کرنے کے لیے، RoPE کی بنیادی فریکوئنسی کو دگنا کر دیا گیا، اور ماڈل کو زیادہ سے زیادہ 32K کی ٹوکن لمبائی پر تربیت دی گئی۔
انہوں نے مصنوعی طریقہ استعمال کرتے ہوئے زنجیر آف تھاٹ استدلال کی مثالوں کی ایک بڑی تعداد تیار کی۔
SFT استعمال شدہ ڈیٹا سیٹ میں 1.4 ملین سے زیادہ اشارے-جواب جوڑے شامل ہیں، جن میں کل 8.3 بلین منفرد ٹوکن ہیں، جو ریاضی اور پروگرامنگ جیسے استدلال کے شعبوں کے ساتھ ساتھ محفوظ اور ذمہ دار AI کے لیے سیدھ بندی کے ڈیٹا کا احاطہ کرتے ہیں۔
تصویر 4a SFT تکرار کے عمل کے دوران اہم اشارے میں تبدیلیوں کو ظاہر کرتی ہے۔
تربیت کے آغاز میں، ماڈل نے واضح ‘سوچنے’ والے ٹوکنز کا استعمال شروع کر دیا، جو اس بات کی نشاندہی کرتا ہے کہ ماڈل نے اس کم گہرے منظم فارمیٹ کو جلدی سے سیکھ لیا۔
تاہم، جیسا کہ تصویر 4a میں دکھایا گیا ہے، زنجیر آف تھاٹ ماڈیول کی تاثیر اور ماڈل کی استدلال کی صلاحیت پوری تربیتی عمل کے دوران بہتر ہو رہی ہے، جو اس بات کی نشاندہی کرتی ہے کہ ماڈل صرف فارمیٹ کی نقل نہیں کر رہا ہے، بلکہ اصل میں استدلال کی مہارتیں سیکھ رہا ہے۔
دلچسپ بات یہ ہے کہ کمک سیکھنے کے برعکس، محققین نے SFT کے عمل کے دوران جواب کی لمبائی میں کوئی اضافہ نہیں دیکھا۔
درحقیقت، جیسا کہ تصویر 4b میں دکھایا گیا ہے، اوسط جواب کی لمبائی میں قدرے کمی واقع ہوئی۔
اس سے پتہ چلتا ہے کہ تربیت کی ترقی کے ساتھ ساتھ، ماڈل اپنے ٹوکن بجٹ کو زیادہ مؤثر طریقے سے استعمال کرنا سیکھ رہا ہے۔
مختلف تربیتی حکمت عملیوں کا منظم طریقے سے جائزہ لینے کے لیے، انہوں نے AIME 2024 اور GPQA ڈائمنڈ - کو ترقی کے اشارے کے طور پر استعمال کیا۔
مجموعی طور پر، تجرباتی طریقہ کار کو دو مراحل میں تقسیم کیا جا سکتا ہے: تلاش اور اسکیلنگ۔
تلاش کے مرحلے میں، محققین نے مختصر تربیتی چکروں اور محدود ڈیٹا ذرائع اور فیلڈز کا استعمال تیزی سے دہرانے اور مضبوط تربیتی طریقوں کو نکالنے کے لیے کیا۔
اس کے بعد کے توسیع کے مرحلے میں، محققین نے ابتدائی خطرے میں کمی کے تجربات کے نتائج کا خلاصہ کیا اور SFT کی ترتیبات کو حتمی شکل دی۔
تصویر 5 اس پیش رفت کا خلاصہ کرتی ہے، کئی اہم ڈیزائن انتخاب کے لیے ختم کرنے کے تجربات کو اجاگر کرتی ہے۔
تصویر 5 Phi-4-reasoning نگرانی شدہ عمدہ ٹیوننگ (SFT) تجرباتی سائیکل کا ایک اعلیٰ سطحی جائزہ دکھاتی ہے، جس میں کچھ مثال کے تجربات کو نمائندگی کے لیے استعمال کرتے ہوئے تلاش اور توسیع کے مراحل شامل ہیں۔ ہر ڈاٹ کلسٹر ایک مخصوص تربیتی ڈیزائن انتخاب کے تجرباتی نتائج کی نمائندگی کرتا ہے۔
تصویر 7 GRPO تربیتی عمل کے دوران Phi-4-reasoning-plus ماڈل کے اہم نتائج کو ظاہر کرتی ہے۔
نگرانی شدہ عمدہ ٹیوننگ (SFT) بیس ماڈل Phi-4-reasoning سے شروع کرتے ہوئے، صرف 90 مراحل کی GRPO تربیت نے AIME کی کارکردگی میں 10% سے زیادہ اضافہ کیا (تصویر 7a)۔
تربیتی مراحل کی تعداد میں مسلسل اضافہ کرنے سے کوئی اضافی فائدہ نہیں ہوا، جو اس بات کی نشاندہی کرتا ہے کہ ایک مضبوط SFT ماڈل کی صلاحیت کارکردگی کی حد کے قریب ہے۔ یہ بات ذہن میں رکھنی چاہیے کہ GRPO تربیت میں آؤٹ پٹ 31k ٹوکنز کے اندر محدود ہے، جو معروضی طور پر GRPO کی اصلاح کی جگہ کو محدود کرتی ہے۔
جیسا کہ تصویر 7c میں دکھایا گیا ہے، جواب کی لمبائی AIME کی کارکردگی کے ساتھ مضبوطی سے منسلک ہے، جبکہ انعام کے اسکور اور AIME کے اسکور کے درمیان ارتباط کمزور ہے۔ جواب کی لمبائی میں اضافے کا اثر GRPO تربیت کا متوقع اثر ہے - ماڈل ‘سوچنے کے وقت’ میں اضافہ کرکے اپنی استدلال کی صلاحیت کو بہتر بناتا ہے۔
تصویر 7d مزید انکشاف کرتی ہے کہ انعام ماڈل کے ڈیزائن کی وجہ سے، غلط جوابات کی جنریشن کی لمبائی درست جوابات سے کہیں زیادہ تیزی سے بڑھتی ہے (جب ماڈل کا موجودہ جواب غلط ہوتا ہے، تو نظام اسے زیادہ دیر تک سوچنے کی ترغیب دے گا)۔
درحقیقت، صرف جواب کی لمبائی کی بنیاد پر مسترد نمونہ سازی انجام دینا (خاص طور پر طویل جوابات جو میڈین سے نمایاں طور پر تجاوز کرتے ہیں) GRPO کی کارکردگی کو مزید بہتر بنا سکتا ہے۔
جیسا کہ تصویر 7d میں دکھایا گیا ہے، تربیتی عمل کے دوران مختصر جوابات (لمبائی نیچے کی 25% کوانٹائل میں واقع ہے) کا بڑھتا ہوا رجحان درست جوابات کی اوسط لمبائی کے مترادف ہے، جبکہ غلط جوابات کی لمبائی مجموعی جواب کی لمبائی کے 75% کوانٹائل کے قریب ہے۔
یہ فرق کرنے کا رجحان اس بات کی نشاندہی کرتا ہے کہ لمبائی پر مبنی مسترد نمونہ سازی ضرورت سے زیادہ لمبے غلط آؤٹ پٹ کو دبا کر ماڈل کی کارکردگی کو بہتر بنا سکتی ہے۔