مدل متن‌باز جدید Nvidia از DeepSeek-R1 فراتر رفت

مدل‌های سری Llama-Nemotron شرکت Nvidia رسماً از DeepSeek-R1 پیشی گرفته‌اند و جزئیات آموزش آن‌ها به‌طور کامل افشا شده است و بینش‌هایی را در مورد چگونگی توسعه این مدل‌ها برای دستیابی به عملکرد برتر ارائه می‌دهد.

این مدل‌ها اکنون به‌طور کامل متن‌باز هستند که نشان‌دهنده پیشرفت چشمگیری در فناوری هوش مصنوعی قابل دسترس است. این بدان معناست که یک سری مدل‌های استنتاجی که از نظر توان عملیاتی استنتاجی و کارایی حافظه به‌طور قابل توجهی از DeepSeek-R1 بهتر عمل می‌کنند، اکنون برای استفاده و اصلاح توسط هر کسی در دسترس هستند.

رونمایی از اسرار پشت موفقیت مدل

بنابراین، این مدل‌ها که از DeepSeek-R1 پیشی می‌گیرند، دقیقاً چگونه ایجاد شدند؟ گزارش فنی Nvidia عناصر مهم فرآیند آموزش آن‌ها را نشان می‌دهد:

  • تنظیم دقیق نظارت‌شده با داده‌های مصنوعی + یادگیری تقویتی: این ترکیب به‌طور قابل توجهی قابلیت‌های استدلال مدل را افزایش می‌دهد.
  • فرآیند جامع پس از آموزش: یک فرآیند پس از آموزش قوی و خوش‌طراحی برای بهینه‌سازی عملکرد مدل بسیار مهم است.

ماه گذشته، Nvidia به‌طور رسمی Llama-Nemotron 253B را معرفی کرد که به سرعت Llama 4 را تحت‌الشعاع قرار داد (که تنها سه روز از عمرش می‌گذشت و به دلیل دستکاری در تابلوی امتیازات با «بحران یکپارچگی» مواجه بود). انتشار این سری از مدل‌ها سروصدای زیادی در صنعت به پا کرد.

بر اساس شاخص هوش تحلیل مصنوعی، Llama-Nemotron-Ultra در حال حاضر «هوشمندترین» مدل متن‌باز تا آوریل 2025 در نظر گرفته می‌شود.

Nvidia سه مدل در سری Llama-Nemotron راه‌اندازی کرد: LN-Nano 8B، LN-Super 49B و LN-Ultra 253B.

شایان ذکر است، LN-Ultra نه تنها از نظر عملکرد از DeepSeek-R1 بهتر عمل می‌کند، بلکه روی یک گره 8xH100 نیز اجرا می‌شود و توان عملیاتی استنتاجی بالاتری ارائه می‌دهد.

این مدل‌ها برای استنتاج با توان عملیاتی بالا و در عین حال حفظ قابلیت‌های استدلال قوی و طول متن تا 128K بهینه‌سازی شده‌اند.

علاوه بر این، Nvidia یک ویژگی سوئیچ استنتاجی را در جامعه متن‌باز جهانی هوش مصنوعی معرفی کرده است. کاربران می‌توانند به‌طور پویا بین حالت چت استاندارد و حالت استدلال با استفاده از درخواست سیستمی "detailed thinking on/off" جابه‌جا شوند.

این طراحی به مدل اجازه می‌دهد تا نیازهای عمومی روزمره را برآورده کند و از عهده وظایف پیچیده و چندمرحله‌ای استدلال برآید، بدون اینکه به مدل‌ها یا معماری‌های مختلف نیاز داشته باشد.

فرآیند ساخت: یک رویکرد پنج مرحله‌ای

ساخت مدل‌های Llama-Nemotron به پنج مرحله مجزا تقسیم می‌شود:

مرحله 1: بهینه‌سازی کارایی استدلال با استفاده از جستجوی معماری عصبی (NAS) بر اساس مدل‌های سری Llama 3، با معرفی Feedforward Network Fusion (FFN Fusion).

مرحله 2: بازیابی عملکرد مدل از طریق تقطیر دانش و پیش‌آموزش مداوم.

مرحله 3: تنظیم دقیق نظارت‌شده (SFT)، که داده‌های دستورالعمل استاندارد را با فرآیندهای استدلال از مدل‌های قدرتمند معلم مانند DeepSeek-R1 ترکیب می‌کند و مدل را قادر می‌سازد تا استدلال چندمرحله‌ای را انجام دهد.

مرحله 4: یادگیری تقویتی در مقیاس بزرگ روی مجموعه داده‌های پیچیده ریاضی و STEM، که برای پیشی گرفتن مدل دانش‌آموز از قابلیت‌های مدل معلم بسیار مهم است. برای LN-Ultra، این مرحله به‌طور قابل توجهی عملکرد را در معیار GPQA-D بهبود می‌بخشد و آن را به قوی‌ترین مدل برای استدلال علمی در دامنه متن‌باز تبدیل می‌کند.

برای پشتیبانی از چنین آموزش یادگیری تقویتی در مقیاس بزرگ، تیم یک چارچوب آموزشی جدید با چندین اقدام بهینه‌سازی توسعه داد که مهم‌ترین آن‌ها پشتیبانی از قابلیت تولید دقت FP8 است.

مرحله 5: یک آموزش هم‌ترازی مختصر که بر پیروی از دستورالعمل و پایبندی به ترجیحات انسانی متمرکز است.

معماری نوآورانه برای کارایی استنتاج بهینه

LN-Super و LN-Ultra از چارچوب Puzzle برای جستجوی معماری عصبی برای بهینه‌سازی کارایی استنتاج مدل استفاده می‌کنند.

Puzzle مدل‌های زبان بزرگ را به نسخه‌های کارآمد و سازگار با سخت‌افزار تبدیل می‌کند که برای استقرار بهینه‌سازی شده‌اند.

توسعه‌دهندگان از طریق «تقطیر محلی بلوک به بلوک» یک کتابخانه از ماژول‌های جایگزین Transformer با استفاده از Llama 3 Instruct ساختند.

در این فرآیند، هر ماژول به‌طور مستقل و موازی آموزش داده می‌شود و عملکرد ماژول اصلی را تخمین می‌زند در حالی که عملکرد محاسباتی را بهینه‌سازی می‌کند.

هر ماژول جایگزین دارای بده‌بستان‌های خاص «دقت-کارایی» است. برخی از ماژول‌ها کارآمدتر هستند اما ممکن است منجر به کاهش کیفیت خاصی شوند و یک بده‌بستان واضح بین هزینه محاسباتی و دقت مدل ایجاد کنند.

این تغییرات ماژول شامل موارد زیر است:

حذف مکانیزم توجه: برخی از ماژول‌ها به‌طور کامل مکانیزم توجه را حذف می‌کنند و میزان محاسبات و مصرف حافظه KV cache را کاهش می‌دهند.

ابعاد متغیر FFN: ابعاد میانی شبکه‌های تغذیه‌شونده به جلو تنظیم می‌شوند و امکان فشرده‌سازی مدل در درجات مختلف را فراهم می‌کنند.

پس از ساخت کتابخانه ماژول، Puzzle یک ماژول از هر لایه را برای مونتاژ یک مدل کامل انتخاب می‌کند.

این فرآیند انتخاب توسط یک حل‌کننده برنامه‌نویسی عدد صحیح مختلط (MIP) کنترل می‌شود که پیکربندی بهینه را بر اساس محدودیت‌هایی مانند سازگاری سخت‌افزار، حداکثر تأخیر مجاز، بودجه حافظه یا توان عملیاتی استنتاجی مورد نظر پیدا می‌کند.

فشرده‌سازی عمودی و FFN Fusion

در مدل LN-Ultra، محققان FFN Fusion (Feedforward Network Fusion)، یک تکنیک فشرده‌سازی اضافی را برای کاهش عمق توالی مدل و بهبود کارایی تأخیر استدلال معرفی کردند.

حذف برخی از لایه‌های توجه توسط Puzzle منجر به یک ساختار منحصربه‌فرد می‌شود: چندین بلوک FFN پیوسته اغلب در ساختار مدل ظاهر می‌شوند.

FFN Fusion این ساختارهای پیوسته را شناسایی می‌کند و آن‌ها را با لایه‌های FFN موازی قابل اجرا جایگزین می‌کند که کمتر اما گسترده‌تر هستند.

این روش جایگزینی مراحل محاسبه ترتیبی را کاهش می‌دهد بدون اینکه از بیان مدل کاسته شود و به‌طور قابل توجهی استفاده از منابع محاسباتی را بهبود می‌بخشد - به‌ویژه در محیط‌های چند GPU، که سربار ارتباط بین لایه‌ها قابل توجه است.

مدل LN-Ultra به‌طور مداوم از نظر دقت و کارایی از DeepSeek-R1 و Llama-3.1-405B بهتر عمل می‌کند و به یک تعادل بهینه دست می‌یابد.

آموزش پس از NAS: تقطیر دانش و پیش‌آموزش مداوم

پس از فاز جستجوی معماری عصبی (NAS)، هر دو LN-Super و LN-Ultra تحت آموزش‌های اضافی قرار گرفتند تا سازگاری بین ماژول‌ها را بهبود بخشند و هرگونه افت کیفیت که ممکن است در طول جایگزینی ماژول رخ داده باشد را بازیابی کنند.

  • LN-Super روی مجموعه داده Distillation Mix برای 40 میلیارد توکن تحت هدف تقطیر دانش آموزش داده شد.
  • LN-Ultra در ابتدا روی همان مجموعه داده تقطیر برای 65 میلیارد توکن آموزش داده شد و سپس به آموزش روی مجموعه داده پیش‌آموزش مرحله چهارم Nemotron-H برای 88 میلیارد توکن ادامه داد.

این مرحله پیش‌آموزش نهایی LN-Ultra را قادر ساخت تا نه تنها به مدل مرجع، Llama 3.1-405B-Instruct برسد، بلکه از آن در تست‌های معیار کلیدی نیز پیشی بگیرد.

این نشان می‌دهد که تقطیر و پیش‌آموزش مختصر می‌تواند به سازگاری بین بهینه‌سازی معماری تهاجمی و عملکرد بالای مدل دست یابد.

تنظیم دقیق نظارت‌شده: اصلاح قدرت استدلال

تنظیم دقیق نظارت‌شده (SFT) به عنوان یک «مربی شخصی» برای مدل‌های Llama-Nemotron عمل می‌کند و به‌طور خاص مراحل استدلال را برای وظایف خاص هدف قرار می‌دهد و تکنیک‌های استنتاجی را از مدل‌های «دانش‌آموز ستاره» مانند DeepSeek-R1 یاد می‌گیرد.

برای القای مهارت‌های استدلال واقعی، داده‌های آموزشی استدلال در مقیاس بزرگ و با کیفیت بالا ضروری است.

داده‌های مصنوعی: متناسب با استدلال

محققان نمونه داده‌هایی را با دقت تنظیم کرده‌اند که حاوی داده‌های استدلال و غیر استدلال برای تنظیم دقیق نظارت‌شده هستند.

برای نمونه‌های استدلال، آن‌ها «detailed thinking on» را به دستورالعمل‌های سیستم اضافه کردند، در حالی که برای نمونه‌های غیر استدلال، از «detailed thinking off» استفاده کردند.

این تنظیم به مدل اجازه می‌دهد تا رفتار استدلال را بر اساس دستورالعمل‌ها در طول مرحله استدلال تغییر دهد.

داده‌های مصنوعی برای استدلال در ریاضیات، برنامه‌نویسی و زمینه‌های مرتبط تهیه شده‌اند.

برای آموزش مدل برای پیروی از دستورالعمل‌های «سوئیچ استدلال»، محققان مجموعه داده‌های جفت‌شده را ساختند، جایی که هر درخواست مربوط به یک پاسخ با استدلال و یک پاسخ بدون استدلال است.

این جفت‌سازی مدل را قادر می‌سازد تا یاد بگیرد رفتار استدلال خود را بر اساس دستورالعمل‌های سیستم تنظیم کند.

فیلتر کردن بعدی این پاسخ‌ها بر اساس پاسخ‌های استاندارد یا مدل‌های پاداش انجام می‌شود.

فرآیند تنظیم دقیق

همه مدل‌ها روی داده‌های تنظیم دقیق دستورالعملبا استفاده از تلفات آنتروپی متقابل در سطح توکن آموزش داده شدند.

در بیشتر تنظیمات آموزشی، داده‌های استدلال و غیر استدلال با هم ترکیب می‌شوند تا دسته‌های آموزشی را تشکیل دهند، جایی که هر درخواست با یک پاسخ مربوطه بر اساس دستورالعمل‌های سیستم «detailed thinking on/off» جفت می‌شود.

گسترش آموزش به چندین دور می‌تواند عملکرد را بهبود بخشد، به‌ویژه برای مدل‌های کوچکتر.

NeMo-Aligner برای آموزش یادگیری تقویتی استفاده شد و از GRPO و آموزش مدل‌های ناهمگن پشتیبانی می‌کرد.

vLLM برای مرحله تولید و Megatron-LM برای مرحله آموزش استفاده شد.

مراحل آموزش و استدلال از یک دسته GPU استفاده می‌کردند که روی یک دستگاه تکمیل می‌شد.

کل فرآیند آموزش از 72 گره استفاده کرد که هر کدام مجهز به 8 GPU H100 بودند.

فاز تولید از دقت FP8، فاز آموزش از دقت BF16 و حالت بهینه‌ساز از FP32 استفاده کرد.

هر فاز وزن مدل مستقلی را حفظ کرد که در ابتدای هر مرحله همگام‌سازی می‌شد.

یادگیری تقویتی: کلید پیشی گرفتن از توانایی استدلال R1

تنظیم دقیق نظارت‌شده (SFT) مدل را قادر می‌سازد تا دانش را از مدل‌های قدرتمند معلم استخراج کند و به قابلیت‌های عالی دست یابد.

با این حال، تقطیر دانش ذاتاً محدودیتی را برای عملکرد مدل دانش‌آموز تعیین می‌کند، به‌ویژه زمانی که قابلیت مدل پایه مدل دانش‌آموز از مدل معلم بیشتر نباشد.

از طریق تنظیم دقیق نظارت‌شده، عملکرد LN-Ultra می‌تواند به DeepSeek-R1 نزدیک شود اما نمی‌تواند از آن پیشی بگیرد.

یادگیری تقویتی در مقیاس بزرگ (RL) یک روش عملی برای قادر ساختن مدل دانش‌آموز به پیشی گرفتن از مدل معلم است زیرا به مدل اجازه می‌دهد تا به‌طور مداوم امکانات جدید را کشف کند و خودآموزی کند.

به دلیل محدودیت منابع، محققان فقط RL استدلال را روی LN-Ultra اعمال کردند و در نتیجه یک مدل دانش‌آموز ایجاد شد که از مدل معلم پیشی گرفت.

در طول فرآیند آموزش یادگیری تقویتی استدلال، دقت LN-Ultra در مجموعه داده GPQA-Diamond بهبود یافت.

فرآیند آموزش: تمرکز بر استدلال علمی

برای LN-Ultra، محققان توانایی استدلال علمی آن را از طریق یادگیری تقویتی در مقیاس بزرگ (RL) با استفاده از الگوریتم Grouped Relative Policy Optimization (GRPO) افزایش دادند، همان الگوریتمی که DeepSeek-R1 استفاده می‌کند.

کل فرآیند آموزش تقریباً به 140000 ساعت H100 نیاز داشت و به‌طور مداوم مدل را آموزش می‌داد تا زمانی که روی وظایف استدلال همگرا شود.

طراحی مکانیزم پاداش شامل دو دسته بود:

  • پاداش دقت: بر اساس پاسخ‌های استاندارد (عددی/جمله‌ای/پارگرافی)، فراخوانی مدل Llama-3.3-70B-Instruct درجه تطابق نتایج پیش‌بینی را ارزیابی می‌کند.
  • پاداش قالب: با پیروی از طرح DeepSeek-AI، مدل مجبور می‌شود فرآیند استدلال را با تگ‌های <think\> در حالت “detailed thinking” بپیچد و ظاهر چنین تگ‌هایی در حالت غیرdetailed thinking ممنوع است.

تیم تحقیقاتی همچنین داده‌ها را از قبل پردازش کردند، از جمله فیلتر کردن داده‌ها و آموزش برنامه درسی.

  • غربالگری داده‌ها: LN-Super از قبل برای تولید 8 پاسخ برای هر سؤال استفاده می‌شود و نمونه‌های ساده با نرخ عبور ≥ 75٪ حذف می‌شوند.
  • آموزش برنامه درسی: تخصیص دسته‌ای تدریجی بر اساس نرخ عبور اتخاذ می‌شود.

توزیع پویا: مدل‌سازی سختی دسته با یک تابع گاوسی، در ابتدا بر نمونه‌های با نرخ عبور بالا (ساده) تمرکز دارد و بعداً به نمونه‌های با نرخ عبور پایین (دشوار) تغییر می‌کند.

منطق Padding: نمونه‌ها ابتدا بر اساس توزیع هدف تخصیص داده می‌شوند و ظرفیت باقیمانده از بزرگترین مجموعه نمونه باقیمانده تکمیل می‌شود.

پردازش درون دسته‌ای: نمونه‌ها در همان دسته به‌طور تصادفی به هم می‌ریزند تا تنوع حفظ شود.

یادگیری تقویتی برای بهینه‌سازی ترجیحات

پس از تکمیل آموزش استدلال علمی، محققان یک فاز یادگیری تقویتی مختصر را برای مدل‌های LN-Super و LN-Ultra انجام دادند و بر بهبود توانایی‌های پیروی از دستورالعمل آن‌ها تمرکز کردند.

محققان همچنین از RLHF برای بهینه‌سازی قابلیت‌های کمک عمومی و عملکرد چت مدل‌ها و در عین حال حفظ قابلیت‌های مدل‌ها در ریاضیات، علوم و سایر زمینه‌ها استفاده کردند.

LN-Super در آزمون Arena Hard به امتیاز بالای 88.3 دست یافت و از مدل‌های اختصاصی مانند Claude 3.5 Sonnet و GPT-4o-2024-05-13 و همچنین مدل‌های متن‌باز بزرگتر نیز پیشی گرفت.

برای دستیابی به این نتیجه، آن‌ها روش “OnLine Reward-Policy Optimization“ را اتخاذ کردند و پاداش پیش‌بینی مدل را در مجموعه داده HelpSteer2 به حداکثر رساندند. مدل پاداش مورد استفاده Llama-3.1-Nemotron-70B-Reward بود.

دو دور آموزش آنلاین RPO امتیاز Arena Hard را از 69.1 به 88.1 افزایش داد.

برای LN-Ultra، آن‌ها از یک فرآیند مشابه استفاده کردند اما GRPO را پذیرفتند.

برای LN-Nano، آن‌ها دو دور آموزش آفلاین RPO را با استفاده از داده‌های آموزشی تولید شده توسط سیاست انجام دادند.

دور اول داده‌های استدلال و غیر استدلال را با دستورالعمل‌های سیستم مناسب ترکیب کرد تا توانایی کنترل استدلال مدل را بهینه‌سازی کند. دور دوم بر بهبود توانایی‌های پیروی از دستورالعمل متمرکز بود.

نتایج ارزیابی: یک ارزیابی جامع

محققان عملکرد همه مدل‌های Llama-Nemotron را در دو دسته معیار ارزیابی کردند: وظایف استدلال و وظایف غیر استدلال.

معیارهای استدلال شامل: AIME24 و AIME25، GPQA-Diamond، LiveCodeBench و MATH500 بودند.

معیارهای غیر استدلال شامل: IFEval برای ارزیابی پیروی از دستورالعمل، BFCL V2 Live برای ارزیابی استفاده از ابزار فراخوانی تابع و Arena-Hard برای ارزیابی همسویی با ترجیحات مکالمه انسانی بودند.

LN-Nano علیرغم اندازه کوچک خود، در تمام معیارهای استدلال به عملکرد عالی دست یافت.

این نشان می‌دهد که فرآیندهای تنظیم دقیق نظارت‌شده و مجموعه داده‌های استدلال به‌خوبی تنظیم شده در انتقال توانایی‌های استدلال ساختاریافته به مدل‌های کوچکتر مؤثر هستند.

LN-Super در مقایسه با سایر مدل‌های مقیاس پارامتر مشابه، رقابت‌پذیری قوی در هر دو وظیفه استدلال و غیر استدلال نشان داد.

در حالت “reasoning off”، عملکرد LN-Super قابل مقایسه با مدل منبع تقطیر شده آن، Llama-3.3-70B بود. در حالت “reasoning on”، از سایر مدل‌های رقیب مانند DeepSeek-R1-Distilled-Llama-70B پیشی گرفت و توانایی استدلال قوی را در حین حفظ توانایی پیروی از دستورالعمل خوب نشان داد.

این نتایج نشان می‌دهد که LN-Super یک مدل همه‌کاره است که مزایای مدل‌های بهینه‌سازی شده برای استدلال و مدل‌های غیر استدلال را ترکیب می‌کند و آن را برای وظایف دستیار روزانه و وظایف استدلال ساختاریافته مناسب می‌سازد.

LN-Ultra با تمام مدل‌های وزن متن‌باز موجود در معیارهای استدلال و غیر استدلال همتراز یا بهتر از آن عمل کرد. در GPQA به پیشرفته‌ترین سطح در مدل‌های متن‌باز دست یافت و به‌طور کامل اثربخشی روش‌های آموزش یادگیری تقویتی در مقیاس بزرگ محققان Nvidia را نشان داد.

برخلاف DeepSeek-R1 که به یک پیکربندی سخت‌افزاری 8×H200 نیاز دارد، LN-Ultra برای اجرای کارآمد روی یک گره 8×H100 واحد بهینه‌سازی شده است و توان عملیاتی و کارایی استقرار بالاتری را ارائه می‌دهد.

فاز SFT LN-Ultra در چندین معیار استدلال (از جمله GPQA و AIME) به عملکرد DeepSeek-R1 نزدیک شده یا به آن رسیده است.

علاوه بر قابلیت‌های استدلال و گفتگویی که مدل در ابتدا برای آن آموزش داده شده بود، آن‌ها مدل را روی یک وظیفه توزیع نیز آزمایش کردند.

به‌طور خاص، مدل روی مجموعه داده JudgeBench آزمایش شد و از آن خواسته شد تا بین پاسخ‌های با کیفیت بالا و پایین تمایز قائل شود.

مدل جدید در این وظیفه از مدل‌های اختصاصی و متن‌باز برتر فعلی پیشی گرفت.

LN-Ultra به بهترین مدل متن‌باز تبدیل شد و به‌طور قابل توجهی از DeepSeek-R1 فراتر رفت و تنها از مدل اختصاصی o3-mini(high) در رتبه دوم قرار گرفت.

علاوه بر این، عملکرد LN-Super نیز از o1-mini فراتر رفت، که نشان می‌دهد مدل جدید در وظایف مختلف توانایی تعمیم قوی دارد.