مدلهای سری Llama-Nemotron شرکت Nvidia رسماً از DeepSeek-R1 پیشی گرفتهاند و جزئیات آموزش آنها بهطور کامل افشا شده است و بینشهایی را در مورد چگونگی توسعه این مدلها برای دستیابی به عملکرد برتر ارائه میدهد.
این مدلها اکنون بهطور کامل متنباز هستند که نشاندهنده پیشرفت چشمگیری در فناوری هوش مصنوعی قابل دسترس است. این بدان معناست که یک سری مدلهای استنتاجی که از نظر توان عملیاتی استنتاجی و کارایی حافظه بهطور قابل توجهی از DeepSeek-R1 بهتر عمل میکنند، اکنون برای استفاده و اصلاح توسط هر کسی در دسترس هستند.
رونمایی از اسرار پشت موفقیت مدل
بنابراین، این مدلها که از DeepSeek-R1 پیشی میگیرند، دقیقاً چگونه ایجاد شدند؟ گزارش فنی Nvidia عناصر مهم فرآیند آموزش آنها را نشان میدهد:
- تنظیم دقیق نظارتشده با دادههای مصنوعی + یادگیری تقویتی: این ترکیب بهطور قابل توجهی قابلیتهای استدلال مدل را افزایش میدهد.
- فرآیند جامع پس از آموزش: یک فرآیند پس از آموزش قوی و خوشطراحی برای بهینهسازی عملکرد مدل بسیار مهم است.
ماه گذشته، Nvidia بهطور رسمی Llama-Nemotron 253B را معرفی کرد که به سرعت Llama 4 را تحتالشعاع قرار داد (که تنها سه روز از عمرش میگذشت و به دلیل دستکاری در تابلوی امتیازات با «بحران یکپارچگی» مواجه بود). انتشار این سری از مدلها سروصدای زیادی در صنعت به پا کرد.
بر اساس شاخص هوش تحلیل مصنوعی، Llama-Nemotron-Ultra در حال حاضر «هوشمندترین» مدل متنباز تا آوریل 2025 در نظر گرفته میشود.
Nvidia سه مدل در سری Llama-Nemotron راهاندازی کرد: LN-Nano 8B، LN-Super 49B و LN-Ultra 253B.
شایان ذکر است، LN-Ultra نه تنها از نظر عملکرد از DeepSeek-R1 بهتر عمل میکند، بلکه روی یک گره 8xH100 نیز اجرا میشود و توان عملیاتی استنتاجی بالاتری ارائه میدهد.
این مدلها برای استنتاج با توان عملیاتی بالا و در عین حال حفظ قابلیتهای استدلال قوی و طول متن تا 128K بهینهسازی شدهاند.
علاوه بر این، Nvidia یک ویژگی سوئیچ استنتاجی را در جامعه متنباز جهانی هوش مصنوعی معرفی کرده است. کاربران میتوانند بهطور پویا بین حالت چت استاندارد و حالت استدلال با استفاده از درخواست سیستمی "detailed thinking on/off" جابهجا شوند.
این طراحی به مدل اجازه میدهد تا نیازهای عمومی روزمره را برآورده کند و از عهده وظایف پیچیده و چندمرحلهای استدلال برآید، بدون اینکه به مدلها یا معماریهای مختلف نیاز داشته باشد.
فرآیند ساخت: یک رویکرد پنج مرحلهای
ساخت مدلهای Llama-Nemotron به پنج مرحله مجزا تقسیم میشود:
مرحله 1: بهینهسازی کارایی استدلال با استفاده از جستجوی معماری عصبی (NAS) بر اساس مدلهای سری Llama 3، با معرفی Feedforward Network Fusion (FFN Fusion).
مرحله 2: بازیابی عملکرد مدل از طریق تقطیر دانش و پیشآموزش مداوم.
مرحله 3: تنظیم دقیق نظارتشده (SFT)، که دادههای دستورالعمل استاندارد را با فرآیندهای استدلال از مدلهای قدرتمند معلم مانند DeepSeek-R1 ترکیب میکند و مدل را قادر میسازد تا استدلال چندمرحلهای را انجام دهد.
مرحله 4: یادگیری تقویتی در مقیاس بزرگ روی مجموعه دادههای پیچیده ریاضی و STEM، که برای پیشی گرفتن مدل دانشآموز از قابلیتهای مدل معلم بسیار مهم است. برای LN-Ultra، این مرحله بهطور قابل توجهی عملکرد را در معیار GPQA-D بهبود میبخشد و آن را به قویترین مدل برای استدلال علمی در دامنه متنباز تبدیل میکند.
برای پشتیبانی از چنین آموزش یادگیری تقویتی در مقیاس بزرگ، تیم یک چارچوب آموزشی جدید با چندین اقدام بهینهسازی توسعه داد که مهمترین آنها پشتیبانی از قابلیت تولید دقت FP8 است.
مرحله 5: یک آموزش همترازی مختصر که بر پیروی از دستورالعمل و پایبندی به ترجیحات انسانی متمرکز است.
معماری نوآورانه برای کارایی استنتاج بهینه
LN-Super و LN-Ultra از چارچوب Puzzle برای جستجوی معماری عصبی برای بهینهسازی کارایی استنتاج مدل استفاده میکنند.
Puzzle مدلهای زبان بزرگ را به نسخههای کارآمد و سازگار با سختافزار تبدیل میکند که برای استقرار بهینهسازی شدهاند.
توسعهدهندگان از طریق «تقطیر محلی بلوک به بلوک» یک کتابخانه از ماژولهای جایگزین Transformer با استفاده از Llama 3 Instruct ساختند.
در این فرآیند، هر ماژول بهطور مستقل و موازی آموزش داده میشود و عملکرد ماژول اصلی را تخمین میزند در حالی که عملکرد محاسباتی را بهینهسازی میکند.
هر ماژول جایگزین دارای بدهبستانهای خاص «دقت-کارایی» است. برخی از ماژولها کارآمدتر هستند اما ممکن است منجر به کاهش کیفیت خاصی شوند و یک بدهبستان واضح بین هزینه محاسباتی و دقت مدل ایجاد کنند.
این تغییرات ماژول شامل موارد زیر است:
حذف مکانیزم توجه: برخی از ماژولها بهطور کامل مکانیزم توجه را حذف میکنند و میزان محاسبات و مصرف حافظه KV cache را کاهش میدهند.
ابعاد متغیر FFN: ابعاد میانی شبکههای تغذیهشونده به جلو تنظیم میشوند و امکان فشردهسازی مدل در درجات مختلف را فراهم میکنند.
پس از ساخت کتابخانه ماژول، Puzzle یک ماژول از هر لایه را برای مونتاژ یک مدل کامل انتخاب میکند.
این فرآیند انتخاب توسط یک حلکننده برنامهنویسی عدد صحیح مختلط (MIP) کنترل میشود که پیکربندی بهینه را بر اساس محدودیتهایی مانند سازگاری سختافزار، حداکثر تأخیر مجاز، بودجه حافظه یا توان عملیاتی استنتاجی مورد نظر پیدا میکند.
فشردهسازی عمودی و FFN Fusion
در مدل LN-Ultra، محققان FFN Fusion (Feedforward Network Fusion)، یک تکنیک فشردهسازی اضافی را برای کاهش عمق توالی مدل و بهبود کارایی تأخیر استدلال معرفی کردند.
حذف برخی از لایههای توجه توسط Puzzle منجر به یک ساختار منحصربهفرد میشود: چندین بلوک FFN پیوسته اغلب در ساختار مدل ظاهر میشوند.
FFN Fusion این ساختارهای پیوسته را شناسایی میکند و آنها را با لایههای FFN موازی قابل اجرا جایگزین میکند که کمتر اما گستردهتر هستند.
این روش جایگزینی مراحل محاسبه ترتیبی را کاهش میدهد بدون اینکه از بیان مدل کاسته شود و بهطور قابل توجهی استفاده از منابع محاسباتی را بهبود میبخشد - بهویژه در محیطهای چند GPU، که سربار ارتباط بین لایهها قابل توجه است.
مدل LN-Ultra بهطور مداوم از نظر دقت و کارایی از DeepSeek-R1 و Llama-3.1-405B بهتر عمل میکند و به یک تعادل بهینه دست مییابد.
آموزش پس از NAS: تقطیر دانش و پیشآموزش مداوم
پس از فاز جستجوی معماری عصبی (NAS)، هر دو LN-Super و LN-Ultra تحت آموزشهای اضافی قرار گرفتند تا سازگاری بین ماژولها را بهبود بخشند و هرگونه افت کیفیت که ممکن است در طول جایگزینی ماژول رخ داده باشد را بازیابی کنند.
- LN-Super روی مجموعه داده Distillation Mix برای 40 میلیارد توکن تحت هدف تقطیر دانش آموزش داده شد.
- LN-Ultra در ابتدا روی همان مجموعه داده تقطیر برای 65 میلیارد توکن آموزش داده شد و سپس به آموزش روی مجموعه داده پیشآموزش مرحله چهارم Nemotron-H برای 88 میلیارد توکن ادامه داد.
این مرحله پیشآموزش نهایی LN-Ultra را قادر ساخت تا نه تنها به مدل مرجع، Llama 3.1-405B-Instruct برسد، بلکه از آن در تستهای معیار کلیدی نیز پیشی بگیرد.
این نشان میدهد که تقطیر و پیشآموزش مختصر میتواند به سازگاری بین بهینهسازی معماری تهاجمی و عملکرد بالای مدل دست یابد.
تنظیم دقیق نظارتشده: اصلاح قدرت استدلال
تنظیم دقیق نظارتشده (SFT) به عنوان یک «مربی شخصی» برای مدلهای Llama-Nemotron عمل میکند و بهطور خاص مراحل استدلال را برای وظایف خاص هدف قرار میدهد و تکنیکهای استنتاجی را از مدلهای «دانشآموز ستاره» مانند DeepSeek-R1 یاد میگیرد.
برای القای مهارتهای استدلال واقعی، دادههای آموزشی استدلال در مقیاس بزرگ و با کیفیت بالا ضروری است.
دادههای مصنوعی: متناسب با استدلال
محققان نمونه دادههایی را با دقت تنظیم کردهاند که حاوی دادههای استدلال و غیر استدلال برای تنظیم دقیق نظارتشده هستند.
برای نمونههای استدلال، آنها «detailed thinking on» را به دستورالعملهای سیستم اضافه کردند، در حالی که برای نمونههای غیر استدلال، از «detailed thinking off» استفاده کردند.
این تنظیم به مدل اجازه میدهد تا رفتار استدلال را بر اساس دستورالعملها در طول مرحله استدلال تغییر دهد.
دادههای مصنوعی برای استدلال در ریاضیات، برنامهنویسی و زمینههای مرتبط تهیه شدهاند.
برای آموزش مدل برای پیروی از دستورالعملهای «سوئیچ استدلال»، محققان مجموعه دادههای جفتشده را ساختند، جایی که هر درخواست مربوط به یک پاسخ با استدلال و یک پاسخ بدون استدلال است.
این جفتسازی مدل را قادر میسازد تا یاد بگیرد رفتار استدلال خود را بر اساس دستورالعملهای سیستم تنظیم کند.
فیلتر کردن بعدی این پاسخها بر اساس پاسخهای استاندارد یا مدلهای پاداش انجام میشود.
فرآیند تنظیم دقیق
همه مدلها روی دادههای تنظیم دقیق دستورالعملبا استفاده از تلفات آنتروپی متقابل در سطح توکن آموزش داده شدند.
در بیشتر تنظیمات آموزشی، دادههای استدلال و غیر استدلال با هم ترکیب میشوند تا دستههای آموزشی را تشکیل دهند، جایی که هر درخواست با یک پاسخ مربوطه بر اساس دستورالعملهای سیستم «detailed thinking on/off» جفت میشود.
گسترش آموزش به چندین دور میتواند عملکرد را بهبود بخشد، بهویژه برای مدلهای کوچکتر.
NeMo-Aligner برای آموزش یادگیری تقویتی استفاده شد و از GRPO و آموزش مدلهای ناهمگن پشتیبانی میکرد.
vLLM برای مرحله تولید و Megatron-LM برای مرحله آموزش استفاده شد.
مراحل آموزش و استدلال از یک دسته GPU استفاده میکردند که روی یک دستگاه تکمیل میشد.
کل فرآیند آموزش از 72 گره استفاده کرد که هر کدام مجهز به 8 GPU H100 بودند.
فاز تولید از دقت FP8، فاز آموزش از دقت BF16 و حالت بهینهساز از FP32 استفاده کرد.
هر فاز وزن مدل مستقلی را حفظ کرد که در ابتدای هر مرحله همگامسازی میشد.
یادگیری تقویتی: کلید پیشی گرفتن از توانایی استدلال R1
تنظیم دقیق نظارتشده (SFT) مدل را قادر میسازد تا دانش را از مدلهای قدرتمند معلم استخراج کند و به قابلیتهای عالی دست یابد.
با این حال، تقطیر دانش ذاتاً محدودیتی را برای عملکرد مدل دانشآموز تعیین میکند، بهویژه زمانی که قابلیت مدل پایه مدل دانشآموز از مدل معلم بیشتر نباشد.
از طریق تنظیم دقیق نظارتشده، عملکرد LN-Ultra میتواند به DeepSeek-R1 نزدیک شود اما نمیتواند از آن پیشی بگیرد.
یادگیری تقویتی در مقیاس بزرگ (RL) یک روش عملی برای قادر ساختن مدل دانشآموز به پیشی گرفتن از مدل معلم است زیرا به مدل اجازه میدهد تا بهطور مداوم امکانات جدید را کشف کند و خودآموزی کند.
به دلیل محدودیت منابع، محققان فقط RL استدلال را روی LN-Ultra اعمال کردند و در نتیجه یک مدل دانشآموز ایجاد شد که از مدل معلم پیشی گرفت.
در طول فرآیند آموزش یادگیری تقویتی استدلال، دقت LN-Ultra در مجموعه داده GPQA-Diamond بهبود یافت.
فرآیند آموزش: تمرکز بر استدلال علمی
برای LN-Ultra، محققان توانایی استدلال علمی آن را از طریق یادگیری تقویتی در مقیاس بزرگ (RL) با استفاده از الگوریتم Grouped Relative Policy Optimization (GRPO) افزایش دادند، همان الگوریتمی که DeepSeek-R1 استفاده میکند.
کل فرآیند آموزش تقریباً به 140000 ساعت H100 نیاز داشت و بهطور مداوم مدل را آموزش میداد تا زمانی که روی وظایف استدلال همگرا شود.
طراحی مکانیزم پاداش شامل دو دسته بود:
- پاداش دقت: بر اساس پاسخهای استاندارد (عددی/جملهای/پارگرافی)، فراخوانی مدل Llama-3.3-70B-Instruct درجه تطابق نتایج پیشبینی را ارزیابی میکند.
- پاداش قالب: با پیروی از طرح DeepSeek-AI، مدل مجبور میشود فرآیند استدلال را با تگهای <think\> در حالت “detailed thinking” بپیچد و ظاهر چنین تگهایی در حالت غیرdetailed thinking ممنوع است.
تیم تحقیقاتی همچنین دادهها را از قبل پردازش کردند، از جمله فیلتر کردن دادهها و آموزش برنامه درسی.
- غربالگری دادهها: LN-Super از قبل برای تولید 8 پاسخ برای هر سؤال استفاده میشود و نمونههای ساده با نرخ عبور ≥ 75٪ حذف میشوند.
- آموزش برنامه درسی: تخصیص دستهای تدریجی بر اساس نرخ عبور اتخاذ میشود.
توزیع پویا: مدلسازی سختی دسته با یک تابع گاوسی، در ابتدا بر نمونههای با نرخ عبور بالا (ساده) تمرکز دارد و بعداً به نمونههای با نرخ عبور پایین (دشوار) تغییر میکند.
منطق Padding: نمونهها ابتدا بر اساس توزیع هدف تخصیص داده میشوند و ظرفیت باقیمانده از بزرگترین مجموعه نمونه باقیمانده تکمیل میشود.
پردازش درون دستهای: نمونهها در همان دسته بهطور تصادفی به هم میریزند تا تنوع حفظ شود.
یادگیری تقویتی برای بهینهسازی ترجیحات
پس از تکمیل آموزش استدلال علمی، محققان یک فاز یادگیری تقویتی مختصر را برای مدلهای LN-Super و LN-Ultra انجام دادند و بر بهبود تواناییهای پیروی از دستورالعمل آنها تمرکز کردند.
محققان همچنین از RLHF برای بهینهسازی قابلیتهای کمک عمومی و عملکرد چت مدلها و در عین حال حفظ قابلیتهای مدلها در ریاضیات، علوم و سایر زمینهها استفاده کردند.
LN-Super در آزمون Arena Hard به امتیاز بالای 88.3 دست یافت و از مدلهای اختصاصی مانند Claude 3.5 Sonnet و GPT-4o-2024-05-13 و همچنین مدلهای متنباز بزرگتر نیز پیشی گرفت.
برای دستیابی به این نتیجه، آنها روش “OnLine Reward-Policy Optimization“ را اتخاذ کردند و پاداش پیشبینی مدل را در مجموعه داده HelpSteer2 به حداکثر رساندند. مدل پاداش مورد استفاده Llama-3.1-Nemotron-70B-Reward بود.
دو دور آموزش آنلاین RPO امتیاز Arena Hard را از 69.1 به 88.1 افزایش داد.
برای LN-Ultra، آنها از یک فرآیند مشابه استفاده کردند اما GRPO را پذیرفتند.
برای LN-Nano، آنها دو دور آموزش آفلاین RPO را با استفاده از دادههای آموزشی تولید شده توسط سیاست انجام دادند.
دور اول دادههای استدلال و غیر استدلال را با دستورالعملهای سیستم مناسب ترکیب کرد تا توانایی کنترل استدلال مدل را بهینهسازی کند. دور دوم بر بهبود تواناییهای پیروی از دستورالعمل متمرکز بود.
نتایج ارزیابی: یک ارزیابی جامع
محققان عملکرد همه مدلهای Llama-Nemotron را در دو دسته معیار ارزیابی کردند: وظایف استدلال و وظایف غیر استدلال.
معیارهای استدلال شامل: AIME24 و AIME25، GPQA-Diamond، LiveCodeBench و MATH500 بودند.
معیارهای غیر استدلال شامل: IFEval برای ارزیابی پیروی از دستورالعمل، BFCL V2 Live برای ارزیابی استفاده از ابزار فراخوانی تابع و Arena-Hard برای ارزیابی همسویی با ترجیحات مکالمه انسانی بودند.
LN-Nano علیرغم اندازه کوچک خود، در تمام معیارهای استدلال به عملکرد عالی دست یافت.
این نشان میدهد که فرآیندهای تنظیم دقیق نظارتشده و مجموعه دادههای استدلال بهخوبی تنظیم شده در انتقال تواناییهای استدلال ساختاریافته به مدلهای کوچکتر مؤثر هستند.
LN-Super در مقایسه با سایر مدلهای مقیاس پارامتر مشابه، رقابتپذیری قوی در هر دو وظیفه استدلال و غیر استدلال نشان داد.
در حالت “reasoning off”، عملکرد LN-Super قابل مقایسه با مدل منبع تقطیر شده آن، Llama-3.3-70B بود. در حالت “reasoning on”، از سایر مدلهای رقیب مانند DeepSeek-R1-Distilled-Llama-70B پیشی گرفت و توانایی استدلال قوی را در حین حفظ توانایی پیروی از دستورالعمل خوب نشان داد.
این نتایج نشان میدهد که LN-Super یک مدل همهکاره است که مزایای مدلهای بهینهسازی شده برای استدلال و مدلهای غیر استدلال را ترکیب میکند و آن را برای وظایف دستیار روزانه و وظایف استدلال ساختاریافته مناسب میسازد.
LN-Ultra با تمام مدلهای وزن متنباز موجود در معیارهای استدلال و غیر استدلال همتراز یا بهتر از آن عمل کرد. در GPQA به پیشرفتهترین سطح در مدلهای متنباز دست یافت و بهطور کامل اثربخشی روشهای آموزش یادگیری تقویتی در مقیاس بزرگ محققان Nvidia را نشان داد.
برخلاف DeepSeek-R1 که به یک پیکربندی سختافزاری 8×H200 نیاز دارد، LN-Ultra برای اجرای کارآمد روی یک گره 8×H100 واحد بهینهسازی شده است و توان عملیاتی و کارایی استقرار بالاتری را ارائه میدهد.
فاز SFT LN-Ultra در چندین معیار استدلال (از جمله GPQA و AIME) به عملکرد DeepSeek-R1 نزدیک شده یا به آن رسیده است.
علاوه بر قابلیتهای استدلال و گفتگویی که مدل در ابتدا برای آن آموزش داده شده بود، آنها مدل را روی یک وظیفه توزیع نیز آزمایش کردند.
بهطور خاص، مدل روی مجموعه داده JudgeBench آزمایش شد و از آن خواسته شد تا بین پاسخهای با کیفیت بالا و پایین تمایز قائل شود.
مدل جدید در این وظیفه از مدلهای اختصاصی و متنباز برتر فعلی پیشی گرفت.
LN-Ultra به بهترین مدل متنباز تبدیل شد و بهطور قابل توجهی از DeepSeek-R1 فراتر رفت و تنها از مدل اختصاصی o3-mini(high) در رتبه دوم قرار گرفت.
علاوه بر این، عملکرد LN-Super نیز از o1-mini فراتر رفت، که نشان میدهد مدل جدید در وظایف مختلف توانایی تعمیم قوی دارد.