Nvidia کے Llama-Nemotron سیریز کے ماڈلز نے باضابطہ طور پر DeepSeek-R1 کو پیچھے چھوڑ دیا ہے، اور ان کی تربیت کی تفصیلات مکمل طور پر ظاہر کر دی گئی ہیں، جس سے یہ معلوم ہوتا ہے کہ ان ماڈلز کو کس طرح بہتر کارکردگی کے حصول کے لیے تیار کیا گیا۔
یہ ماڈلز اب مکمل طور پر اوپن سورس ہیں، جو کہ قابل رسائی AI ٹیکنالوجی میں ایک اہم پیش رفت ہے۔ اس کا مطلب ہے کہ انفرنس ماڈلز کی ایک سیریز جو انفرنس تھرو پٹ اور میموری ایفیشینسی کے لحاظ سے DeepSeek-R1 سے نمایاں طور پر بہتر ہے، اب ہر ایک کے استعمال اور ترمیم کے لیے دستیاب ہے۔
ماڈل کی کامیابی کے پیچھے رازوں سے پردہ اٹھانا
تو، یہ ماڈلز، جو DeepSeek-R1 سے بہتر ہیں، بالکل کیسے بنائے گئے؟ Nvidia کی تکنیکی رپورٹ ان کی تربیت کے عمل کے اہم عناصر کو ظاہر کرتی ہے:
- مصنوعی ڈیٹا کے ساتھ سپروائزڈ فائن ٹیوننگ + ری انفورسمنٹ لرننگ: یہ مجموعہ ماڈل کی استدلال کی صلاحیتوں کو نمایاں طور پر بڑھاتا ہے۔
- جامع پوسٹ ٹریننگ عمل: ماڈل کی کارکردگی کو بہتر بنانے کے لیے ایک مضبوط اور اچھی طرح سے ڈیزائن کیا گیا پوسٹ ٹریننگ عمل بہت ضروری ہے۔
پچھلے مہینے، Nvidia نے باضابطہ طور پر Llama-Nemotron 253B کا اعلان کیا، جس نے فوری طور پر Llama 4 کو گہنا دیا (جو صرف تین دن پرانا تھا اور لیڈر بورڈ کی ہیرا پھیری کی وجہ سے “انٹیگریٹی بحران” کا سامنا کر رہا تھا)۔ ماڈلز کی اس سیریز کے اجراء نے صنعت میں کافی ہلچل مچا دی۔
مصنوعی تجزیہ انٹیلیجنس انڈیکس کے مطابق، Llama-Nemotron-Ultra کو فی الحال اپریل 2025 تک “سب سے زیادہ ذہین” اوپن سورس ماڈل سمجھا جاتا ہے۔
Nvidia نے Llama-Nemotron سیریز میں تین ماڈلز لانچ کیے: LN-Nano 8B، LN-Super 49B، اور LN-Ultra 253B۔
خاص طور پر، LN-Ultra نہ صرف کارکردگی میں DeepSeek-R1 سے بہتر ہے بلکہ ایک ہی 8xH100 نوڈ پر چلتا ہے، جو زیادہ انفرنس تھرو پٹ فراہم کرتا ہے۔
یہ ماڈلز اعلی تھرو پٹ انفرنس کے لیے موزوں ہیں جبکہ مضبوط استدلال کی صلاحیتوں اور 128K تک کے سیاق و سباق کی لمبائی کو برقرار رکھتے ہیں۔
مزید برآں، Nvidia نے عالمی AI اوپن سورس کمیونٹی میں ایک انقلابی انفرنس سوئچ فیچر متعارف کرایا ہے۔ صارفین سسٹم پرامپٹ “detailed thinking on/off.” استعمال کرتے ہوئے معیاری چیٹ موڈ اور استدلال موڈ کے درمیان متحرک طور پر سوئچ کر سکتے ہیں۔
یہ ڈیزائن ماڈل کو عام روزمرہ کی ضروریات کو پورا کرنے اور مختلف ماڈلز یا فن تعمیر کی ضرورت کے بغیر پیچیدہ، ملٹی سٹیپ استدلال کے کاموں کو سنبھالنے کی اجازت دیتا ہے۔
تعمیراتی عمل: ایک پانچ مرحلوں کا طریقہ کار
Llama-Nemotron ماڈلز کی تعمیر کو پانچ مختلف مراحل میں تقسیم کیا گیا ہے:
مرحلہ 1: Llama 3 سیریز کے ماڈلز کی بنیاد پر نیورل آرکیٹیکچر سرچ (NAS) کا استعمال کرتے ہوئے استدلال کی کارکردگی کو بہتر بنانا، فیڈ فارورڈ نیٹ ورک فیوژن (FFN Fusion) کے تعارف کے ساتھ۔
مرحلہ 2: نالج ڈسٹلیشن اور جاری پری ٹریننگ کے ذریعے ماڈل کی کارکردگی کی بحالی۔
مرحلہ 3: سپروائزڈ فائن ٹیوننگ (SFT)، جو معیاری ہدایات کے ڈیٹا کو DeepSeek-R1 جیسے طاقتور ٹیچر ماڈلز کے استدلال کے عمل کے ساتھ جوڑتا ہے، جس سے ماڈل ملٹی سٹیپ استدلال کرنے کے قابل ہوتا ہے۔
مرحلہ 4: پیچیدہ ریاضیاتی اور STEM ڈیٹا سیٹوں پر بڑے پیمانے پر ری انفورسمنٹ لرننگ، جو کہ طالب علم ماڈل کے لیے استاد ماڈل کی صلاحیتوں کو عبور کرنے کے لیے بہت ضروری ہے۔ LN-Ultra کے لیے، یہ مرحلہ GPQA-D بینچ مارک پر کارکردگی کو نمایاں طور پر بہتر بناتا ہے، جو اسے اوپن سورس ڈومین میں سائنسی استدلال کے لیے سب سے مضبوط ماڈل کے طور پر قائم کرتا ہے۔
اس طرح کی بڑے پیمانے پر ری انفورسمنٹ لرننگ ٹریننگ کو سپورٹ کرنے کے لیے، ٹیم نے متعدد اصلاحی اقدامات کے ساتھ ایک نیا ٹریننگ فریم ورک تیار کیا، جو سب سے اہم بات FP8 پریسیشن جنریشن کی صلاحیت کی حمایت کرتا ہے۔
مرحلہ 5: ہدایات پر عمل کرنے اور انسانی ترجیحات پر عمل کرنے پر توجہ مرکوز کرتے ہوئے ایک مختصر صف بندی کی تربیت۔
بہترین انفرنس ایفیشینسی کے لیے اختراعی فن تعمیر
LN-Super اور LN-Ultra ماڈل انفرنس ایفیشینسی کو بہتر بنانے کے لیے نیورل آرکیٹیکچر سرچ کے لیے Puzzle فریم ورک کا فائدہ اٹھاتے ہیں۔
Puzzle بڑے لسانی ماڈلز کو ہارڈ ویئر کے مطابق، موثر ورژن میں تبدیل کرتا ہے، جو تعیناتی کے لیے موزوں ہیں۔
"بلاک بہ بلاک لوکل ڈسٹلیشن،" کے ذریعے ڈویلپرز نے Llama 3 Instruct کا استعمال کرتے ہوئے متبادل ٹرانسفارمر ماڈیولز کی ایک لائبریری بنائی۔
اس عمل میں، ہر ماڈیول کو آزادانہ طور پر اور متوازی طور پر تربیت دی جاتی ہے، اصل ماڈیول کی فعالیت کا تخمینہ لگاتے ہوئے کمپیوٹیشنل کارکردگی کو بہتر بناتا ہے۔
ہر متبادل ماڈیول میں مخصوص “پریسیشن-ایفیشینسی” ٹریڈ آف ہوتے ہیں۔ کچھ ماڈیولز زیادہ موثر ہیں لیکن اس کے نتیجے میں معیار میں کچھ کمی واقع ہوسکتی ہے، جس سے کمپیوٹیشنل لاگت اور ماڈل کی درستگی کے درمیان ایک واضح ٹریڈ آف پیدا ہوتا ہے۔
ان ماڈیول کی مختلف حالتوں میں شامل ہیں:
توجہ کے میکانزم کو ہٹانا: کچھ ماڈیولز مکمل طور پر توجہ کے میکانزم کو چھوڑ دیتے ہیں، جس سے حساب کی مقدار اور KV کیشے میموری کی کھپت کم ہوجاتی ہے۔
متغیر FFN طول و عرض: فیڈ فارورڈ نیٹ ورکس کے درمیانی طول و عرض کو ایڈجسٹ کیا جاتا ہے، جس سے مختلف گرینولرٹی پر ماڈل کمپریشن کی اجازت ملتی ہے۔
ماڈیول لائبریری بنانے کے بعد، Puzzle ایک مکمل ماڈل کو جمع کرنے کے لیے ہر پرت سے ایک ماڈیول منتخب کرتا ہے۔
اس انتخاب کے عمل کو ایک مخلوط انٹیجر پروگرامنگ (MIP) سولور کے ذریعے کنٹرول کیا جاتا ہے، جو ہارڈ ویئر کی مطابقت، زیادہ سے زیادہ اجازت شدہ تاخیر، میموری بجٹ، یا مطلوبہ انفرنس تھرو پٹ جیسی رکاوٹوں کی بنیاد پر بہترین ترتیب تلاش کرتا ہے۔
عمودی کمپریشن اور FFN فیوژن
LN-Ultra ماڈل میں، محققین نے FFN Fusion (فیڈ فارورڈ نیٹ ورک فیوژن) متعارف کرایا، جو ماڈل کی ترتیب کی گہرائی کو کم کرنے اور استدلال کی تاخیر کی کارکردگی کو بہتر بنانے کے لیے ایک اضافی کمپریشن تکنیک ہے۔
Puzzle کی طرف سے کچھ توجہ پرتوں کو ہٹانے کے نتیجے میں ایک منفرد ساخت پیدا ہوتی ہے: متعدد مسلسل FFN بلاکس اکثر ماڈل کی ساخت میں ظاہر ہوتے ہیں۔
FFN Fusion ان مسلسل ڈھانچوں کی شناخت کرتا ہے اور ان کو کم لیکن وسیع، متوازی طور پر قابل عمل FFN پرتوں سے بدل دیتا ہے۔
یہ تبدیلی کا طریقہ ماڈل کی اظہار رائے کو قربان کیے بغیر سیکوئینشل حساب کے مراحل کو کم کرتا ہے، کمپیوٹنگ وسائل کے استعمال کو نمایاں طور پر بہتر بناتا ہے - خاص طور پر ملٹی GPU ماحول میں، جہاں کراس لیئر کمیونیکیشن اوور ہیڈ نمایاں ہے۔
LN-Ultra ماڈل مستقل طور پر درستگی اور کارکردگی کے لحاظ سے DeepSeek-R1 اور Llama-3.1-405B سے بہتر کارکردگی کا مظاہرہ کرتا ہے، جو بہترین توازن حاصل کرتا ہے۔
پوسٹ NAS ٹریننگ: نالج ڈسٹلیشن اور جاری پری ٹریننگ
نیورل آرکیٹیکچر سرچ (NAS) مرحلے کے بعد، LN-Super اور LN-Ultra دونوں نے ماڈیولز کے درمیان مطابقت کو بہتر بنانے اور ماڈیول کی تبدیلی کے دوران ہونے والے کسی بھی معیار کے نقصان کو بحال کرنے کے لیے اضافی تربیت حاصل کی۔
- LN-Super کو نالج ڈسٹلیشن آبجیکٹو کے تحت 40 بلین ٹوکنز کے لیے ڈسٹلیشن مکس ڈیٹا سیٹ پر تربیت دی گئی۔
- LN-Ultra کو ابتدائی طور پر اسی ڈسٹلیشن ڈیٹا سیٹ پر 65 بلین ٹوکنز کے لیے تربیت دی گئی، اس کے بعد 88 بلین ٹوکنز کے لیے Nemotron-H چوتھے مرحلے کے پری ٹریننگ ڈیٹا سیٹ پر مسلسل تربیت دی گئی۔
اس حتمی پری ٹریننگ مرحلے نے LN-Ultra کو نہ صرف ریفرنس ماڈل، Llama 3.1-405B-Instruct کے ساتھ پکڑنے کے قابل بنایا، بلکہ اسے کلیدی بینچ مارک ٹیسٹوں میں بھی پیچھے چھوڑ دیا۔
اس سے ظاہر ہوتا ہے کہ مختصر ڈسٹلیشن اور پری ٹریننگ جارحانہ تعمیراتی اصلاح اور اعلی ماڈل کارکردگی کے درمیان مطابقت حاصل کر سکتی ہے۔
سپروائزڈ فائن ٹیوننگ: استدلال کی مہارت کو بہتر بنانا
سپروائزڈ فائن ٹیوننگ (SFT) Llama-Nemotron ماڈلز کے لیے ایک “ذاتی ٹرینر” کے طور پر کام کرتا ہے، خاص طور پر مخصوص کاموں کے لیے استدلال کے مراحل کو نشانہ بناتا ہے اور “اسٹار اسٹوڈنٹ” ماڈلز جیسے DeepSeek-R1 سے انفرنس تکنیک سیکھتا ہے۔
حقیقی استدلال کی مہارتوں کو پیدا کرنے کے لیے، بڑے پیمانے پر، اعلیٰ معیار کے استدلال کی تربیت کا ڈیٹا بہت ضروری ہے۔
مصنوعی ڈیٹا: استدلال کے لیے تیار کردہ
محققین نے سپروائزڈ فائن ٹیوننگ کے لیے استدلال اور غیر استدلال دونوں ڈیٹا پر مشتمل ڈیٹا کے نمونوں کو احتیاط سے تیار کیا۔
استدلال کے نمونوں کے لیے، انہوں نے سسٹم کی ہدایات میں “detailed thinking on” شامل کیا، جبکہ غیر استدلال کے نمونوں کے لیے، انہوں نے “detailed thinking off” استعمال کیا۔
یہ ترتیب ماڈل کو استدلال کے مرحلے کے دوران پرامپٹس کی بنیاد پر استدلال کے رویے کو تبدیل کرنے کی اجازت دیتا ہے۔
ریاضی، کوڈنگ اور متعلقہ شعبوں میں استدلال کے لیے مصنوعی ڈیٹا تیار کیا گیا تھا۔
ماڈل کو “استدلال سوئچ” کی ہدایات پر عمل کرنے کی تربیت دینے کے لیے، محققین نے جوڑا ڈیٹا سیٹ بنائے، جہاں ہر پرامپٹ استدلال کے ساتھ اور ایک استدلال کے بغیر ردعمل سے مطابقت رکھتا ہے۔
یہ جوڑا ماڈل کو سسٹم کی ہدایات کی بنیاد پر اپنے استدلال کے رویے کو ایڈجسٹ کرنا سیکھنے کے قابل بناتا ہے۔
اس کے بعد ان ردعمل کی فلٹرنگ معیاری جوابات یا انعامی ماڈلز کی بنیاد پر کی جاتی ہے۔
فائن ٹیوننگ کا عمل
تمام ماڈلز کو ٹوکن لیول کراس انٹروپی لاس کا استعمال کرتے ہوئے ہدایات فائن ٹیوننگ ڈیٹا پر تربیت دی گئی۔
زیادہ تر ٹریننگ سیٹنگز میں، استدلال اور غیر استدلال کا ڈیٹا ٹریننگ بیچ بنانے کے لیے ملایا جاتا ہے، جہاں ہر پرامپٹ “detailed thinking on/off” سسٹم کی ہدایات کی بنیاد پر متعلقہ ردعمل کے ساتھ جوڑا جاتا ہے۔
ٹریننگ کو متعدد راؤنڈز تک بڑھانے سے کارکردگی میں بہتری آسکتی ہے، خاص طور پر چھوٹے ماڈلز کے لیے۔
ری انفورسمنٹ لرننگ ٹریننگ کے لیے NeMo-Aligner استعمال کیا گیا، جو GRPO اور ہیٹروجینس ماڈلز کی ٹریننگ کو سپورٹ کرتا ہے۔
جنریشن فیز کے لیے vLLM اور ٹریننگ فیز کے لیے Megatron-LM استعمال کیا گیا۔
ٹریننگ اور استدلال کے مراحل نے GPUs کا ایک ہی بیچ شیئر کیا، جو ایک ہی ڈیوائس پر مکمل ہوا۔
پورے ٹریننگ کے عمل میں 72 نوڈس استعمال کیے گئے، جن میں سے ہر ایک میں 8 H100 GPUs نصب تھے۔
جنریشن فیز نے FP8 پریسیشن، ٹریننگ فیز نے BF16 پریسیشن اور آپٹیمائزر اسٹیٹ نے FP32 استعمال کیا۔
ہر فیز نے ایک آزاد ماڈل وزن برقرار رکھا، جو ہر قدم کے آغاز پر ہم آہنگ تھا۔
ری انفورسمنٹ لرننگ: R1 کی استدلال کی صلاحیت کو عبور کرنے کی کلید
سپروائزڈ فائن ٹیوننگ (SFT) ماڈل کو طاقتور ٹیچر ماڈلز سے علم نکالنے کے قابل بناتا ہے، جو بہترین صلاحیتوں کو حاصل کرتا ہے۔
تاہم، علم کی منتقلی فطری طور پر طالب علم ماڈل کی کارکردگی پر ایک حد مقرر کرتی ہے، خاص طور پر جب طالب علم ماڈل کی بنیادی ماڈل کی صلاحیت استاد ماڈل کی صلاحیت سے زیادہ نہ ہو۔
سپروائزڈ فائن ٹیوننگ کے ذریعے، LN-Ultra کی کارکردگی DeepSeek-R1 کے قریب پہنچ سکتی ہے لیکن اس سے تجاوز نہیں کر سکتی۔
بڑے پیمانے پر ری انفورسمنٹ لرننگ (RL) ایک قابل عمل طریقہ ہے جو طالب علم ماڈل کو استاد ماڈل سے آگے بڑھنے کے قابل بناتا ہے کیونکہ یہ ماڈل کو نئی امکانات کو مسلسل تلاش کرنے اور خود سیکھنے کی اجازت دیتا ہے۔
وسائل کی کمی کی وجہ سے، محققین نے استدلال RL کو صرف LN-Ultra پر لاگو کیا، جس کے نتیجے میں ایک ایسا طالب علم ماڈل تیار ہوا جس نے استاد ماڈل کو پیچھے چھوڑ دیا۔
استدلال ری انفورسمنٹ لرننگ ٹریننگ کے پورے عمل میں، GPQA-Diamond ڈیٹا سیٹ پر LN-Ultra کی درستگی میں بہتری آئی۔
ٹریننگ کا عمل: سائنسی استدلال پر توجہ
LN-Ultra کے لیے، محققین نے Grouped Relative Policy Optimization (GRPO) الگورتھم کا استعمال کرتے ہوئے بڑے پیمانے پر ری انفورسمنٹ لرننگ (RL) کے ذریعے اس کی سائنسی استدلال کی صلاحیت کو بڑھایا، وہی الگورتھم جو DeepSeek-R1 نے استعمال کیا تھا۔
پورے ٹریننگ کے عمل میں تقریباً 140,000 H100 گھنٹے درکار تھے، ماڈل کو استدلال کے کاموں پر مرتکز ہونے تک مسلسل تربیت دی گئی۔
انعامی میکانزم کے ڈیزائن میں دو زمرے شامل تھے:
- درستگی کا انعام: معیاری جوابات (عددی/جملہ/پیراگراف) پر مبنی، Llama-3.3-70B-Instruct ماڈل پیش گوئی کے نتائج کی مماثلت کی ڈگری کا اندازہ لگاتا ہے۔
- فارمیٹ کا انعام: DeepSeek-AI کی اسکیم پر عمل کرتے ہوئے، ماڈل کو “detailed thinking” موڈ میں استدلال کے عمل کو <think\> ٹیگز کے ساتھ لپیٹنے پر مجبور کیا جاتا ہے، اور غیر تفصیلی تھنکنگ موڈ میں اس طرح کے ٹیگز کے ظاہر ہونے کی ممانعت ہے۔
تحقیقاتی ٹیم نے ڈیٹا کی فلٹرنگ اور نصاب کی تربیت سمیت ڈیٹا کو پہلے سے پروسیس بھی کیا۔
- ڈیٹا اسکریننگ: LN-Super کو پیشگی طور پر ہر سوال کے لیے 8 ردعمل تیار کرنے کے لیے استعمال کیا جاتا ہے، اور 75% ≥ کی پاس شرح والے سادہ نمونے ہٹا دیے جاتے ہیں۔
- نصاب کی تربیت: پاس شرح کی بنیاد پر بتدریج بیچ الاٹمنٹ اپنایا جاتا ہے۔
متحرک تقسیم: پاس شرح کی مدد سے گاوسی فنکشن کے ساتھ بیچ کی دشواری کو ماڈلنگ کرنا، ابتدائی طور پر اعلیٰ پاس شرح (سادہ) نمونوں پر توجہ مرکوز کرنا اور بعد میں کم پاس شرح (مشکل) نمونوں پر منتقل ہونا۔
پیڈنگ لاجک: نمونوں کو پہلے ہدف کی تقسیم کے مطابق مختص کیا جاتا ہے، اور باقی صلاحیت کو سب سے بڑے بقیہ نمونے کے پول سے پورا کیا جاتا ہے۔
انٹرا بیچ پروسیسنگ: تنوع کو برقرار رکھنے کے لیے ایک ہی بیچ میں موجود نمونوں کو تصادفی طور پر شفل کیا جاتا ہے۔
ترجیحی اصلاح کے لیے ری انفورسمنٹ لرننگ
سائنسی استدلال کی تربیت مکمل کرنے کے بعد، محققین نے LN-Super اور LN-Ultra ماڈلز کے لیے ایک مختصر ری انفورسمنٹ لرننگ کا مرحلہ منعقد کیا، جس میں ان کی ہدایات پر عمل کرنے کی صلاحیتوں کو بہتر بنانے پر توجہ مرکوز کی گئی۔
محققین نے RLHF کا استعمال ماڈلز کی عام مدد کی صلاحیتوں اور چیٹ کی کارکردگی کو بہتر بنانے کے لیے بھی کیا جبکہ ریاضی، سائنس اور دیگر شعبوں میں ماڈلز کی صلاحیتوں کو برقرار رکھا۔
LN-Super نے Arena Hard ٹیسٹ میں 88.3 کا اعلیٰ اسکور حاصل کیا، جو Claude 3.5 Sonnet اور GPT-4o-2024-05-13 جیسے ملکیتی ماڈلز سے تجاوز کر گیا، اور بڑے اوپن سورس ماڈلز سے بھی بہتر ہے۔
اس نتیجے کو حاصل کرنے کے لیے، انہوں نے "OnLine Reward-Policy Optimization" طریقہ کار اپنایا، HelpSteer2 ڈیٹا سیٹ پر ماڈل کے پیش گوئی کے انعام کو زیادہ سے زیادہ کیا۔ انعام ماڈل Llama-3.1-Nemotron-70B-Reward استعمال کیا گیا تھا۔
آن لائن RPO ٹریننگ کے دو راؤنڈز نے Arena Hard اسکور کو 69.1 سے بڑھا کر 88.1 کر دیا۔
LN-Ultra کے لیے، انہوں نے ایک جیسا عمل استعمال کیا لیکن GRPO اپنایا۔
LN-Nano کے لیے، انہوں نے آف لائن RPO ٹریننگ کے دو راؤنڈز منعقد کیے، جس میں پالیسی کے تیار کردہ ٹریننگ ڈیٹا کا استعمال کیا گیا۔
پہلے راؤنڈ میں ماڈل کی استدلال کنٹرول کی صلاحیت کو بہتر بنانے کے لیے مناسب سسٹم پرامپٹس کے ساتھ استدلال اور غیر استدلال کے ڈیٹا کو جوڑا گیا۔ دوسرے راؤنڈ میں ہدایات پر عمل کرنے کی صلاحیتوں کو بہتر بنانے پر توجہ مرکوز کی گئی۔
تشخیص کے نتائج: ایک جامع جائزہ
محققین نے تمام Llama-Nemotron ماڈلز کی کارکردگی کا اندازہ دو بینچ مارک زمروں پر لگایا: استدلال کے کام اور غیر استدلال کے کام۔
استدلال کے بینچ مارکس میں شامل تھے: AIME24 اور AIME25، GPQA-Diamond، LiveCodeBench اور MATH500۔
غیر استدلال کے بینچ مارکس میں شامل تھے: ہدایات پر عمل کرنے کی تشخیص کے لیے IFEval، فنکشن کال ٹول کے استعمال کی تشخیص کے لیے BFCL V2 Live اور انسانی گفتگو کی ترجیحات کے ساتھ صف بندی کی تشخیص کے لیے Arena-Hard۔
LN-Nano نے اپنے چھوٹے سائز کے باوجود استدلال کے تمام بینچ مارکس میں بہترین کارکردگی کا مظاہرہ کیا۔
اس سے ظاہر ہوتا ہے کہ سپروائزڈ فائن ٹیوننگ کے عمل اور اچھی طرح سے تیار کردہ استدلال کے ڈیٹا سیٹ چھوٹے ماڈلز میں منظم استدلال کی صلاحیتوں کو منتقل کرنے میں موثر ہیں۔
LN-Super نے اسی پیرامیٹر اسکیل کے دوسرے ماڈلز کے مقابلے میں استدلال اور غیر استدلال کے دونوں کاموں میں مضبوط مسابقت دکھائی۔
"reasoning off" موڈ میں، LN-Super کی کارکردگی اس کے ڈسٹلڈ سورس ماڈل، Llama-3.3-70B کے برابر تھی۔ "reasoning on" موڈ میں، اس نے DeepSeek-R1-Distilled-Llama-70B جیسے دوسرے مسابقتی ماڈلز کو پیچھے چھوڑ دیا، اچھی ہدایات پر عمل کرنے کی صلاحیت کو برقرار رکھتے ہوئے مضبوط استدلال کی صلاحیت کا مظاہرہ کیا۔
یہ نتائج بتاتے ہیں کہ LN-Super ایک ورسٹائل ماڈل ہے جو استدلال کے لیے موزوں ماڈلز اور غیر استدلالکے ماڈلز کے فوائد کو یکجا کرتا ہے، جو اسے روزانہ کے معاون کاموں اور منظم استدلال کے کاموں کے لیے موزوں بناتا ہے۔
LN-Ultra نے استدلال اور غیر استدلال کے بینچ مارکس میں تمام موجودہ اوپن سورس وزن ماڈلز کے برابر یا بہتر کارکردگی کا مظاہرہ کیا۔ اس نے GPQA پر اوپن سورس ماڈلز میں سب سے زیادہ جدید سطح حاصل کی، جو Nvidia محققین کے بڑے پیمانے پر ری انفورسمنٹ لرننگ ٹریننگ کے طریقوں کی تاثیر کو مکمل طور پر ظاہر کرتی ہے۔
DeepSeek-R1 کے برعکس، جس میں 8×H200 ہارڈ ویئر کی ترتیب کی ضرورت ہوتی ہے، LN-Ultra کو ایک ہی 8×H100 نوڈ پر موثر طریقے سے چلانے کے لیے بہتر بنایا گیا ہے، جو استدلال کی زیادہ تھرو پٹ اور تعیناتی کی کارکردگی فراہم کرتا ہے۔
LN-Ultra کے SFT مرحلے نے متعدد استدلال بینچ مارکس (بشمول GPQA اور AIME) پر DeepSeek-R1 کی کارکردگی کو قریب کر لیا ہے یا اس تک پہنچ گیا ہے۔
ماڈل کو اصل میں جس استدلال اور ڈائیلاگ کی صلاحیتوں کے لیے تربیت دی گئی تھی، اس کے علاوہ، انہوں نے ماڈل کو تقسیم کے کام پر بھی آزمایا۔
خاص طور پر، ماڈل کو JudgeBench ڈیٹا سیٹ پر آزمایا گیا، جس میں اسے اعلیٰ معیار اور کم معیار کے جوابات میں فرق کرنے کی ضرورت تھی۔
نئے ماڈل نے اس کام پر موجودہ اعلیٰ ملکیتی اور اوپن سورس ماڈلز کو پیچھے چھوڑ دیا۔
LN-Ultra سب سے بہترین کارکردگی کا مظاہرہ کرنے والا اوپن سورس ماڈل بن گیا، جو DeepSeek-R1 سے نمایاں طور پر زیادہ ہے، ملکیتی ماڈل o3-mini(high) کے بعد دوسرے نمبر پر ہے۔
اس کے علاوہ، LN-Super کی کارکردگی بھی o1-mini سے تجاوز کر گئی، اس بات کی نشاندہی کرتے ہوئے کہ نئے ماڈل میں مختلف کاموں میں مضبوط عمومی صلاحیت ہے۔