AceReason-Nemotron NVIDIA: انقلاب یادگیری تقویتی

تلاش برای دستیابی به هوش مصنوعی که واقعاً بتواند استدلال کند، مدت‌هاست که یکی از اهداف اصلی در این زمینه بوده است. اولین جرقه‌های هیجان پیرامون مدل “o1” شرکت OpenAI، علاقه‌ای فراگیر به استفاده از تکنیک‌های یادگیری تقویتی (RL) در مقیاس بزرگ را برای ساخت سیستم‌هایی با قابلیت استدلال پیچیده برانگیخت. پس از آن، تصمیم DeepSeek-R1 برای انتشار مدل خود به صورت متن‌باز، شور و شوق بیشتری را ایجاد کرد و به جامعه هوش مصنوعی قدرت داد تا با جدیت به دنبال توسعه مدل‌های استدلال پیشرفته باشد.

با این حال، این موج اولیه فعالیت به سرعت با یک مانع قابل توجه فروکش کرد. جزئیات فنی حیاتی، که برای تکرار موفقیت‌آمیز بسیار مهم هستند – به طور مشخص، استراتژی‌های دقیقی که برای تنظیم داده‌ها به کار گرفته شده‌اند و دستورالعمل‌های پیچیده‌ای که آموزش RL را هدایت می‌کنند – به طرز چشمگیری در گزارش اصلی DeepSeek-R1 غایب بودند. این حذف، محققان را در حالت ناامیدی قابل توجهی قرار داد و با چالش بازآفرینی موفقیت‌های گزارش شده دست و پنجه نرم می‌کردند. نتیجه، منظره‌ای تا حدودی پراکنده از تحقیقات بود، با تلاش‌های مستقل متعدد که اندازه‌های مختلف مدل، نقاط بررسی اولیه مختلف و دامنه متنوعی از حوزه‌های هدف را بررسی می‌کردند. علیرغم این فعالیت شدید، یک دستورالعمل آموزشی جامع و به طور مداوم مؤثر همچنان دست نیافتنی باقی مانده است.

رویکردهای سنتی برای آموزش مدل‌های زبانی برای استدلال، عمدتاً بر حوزه‌های ریاضیات و کد کامپیوتر متمرکز شده‌اند. این روش‌ها به طور کلی به ترکیبی از پیش‌آموزش بر روی مجموعه‌داده‌های بزرگ و تنظیم دقیق نظارت‌شده برای تخصصی کردن مدل‌ها برای این وظایف خاص متکی هستند. تلاش‌های اولیه برای ادغام یادگیری تقویتی در این فرآیند، به طور معمول با استفاده از مدل‌های پاداش خاص دامنه، تنها دستاوردهای محدودی را به همراه داشت. این امر ناشی از چالش‌های ذاتی مرتبط با وظایف ریاضی و کدنویسی است، جایی که اشتباهات جزئی می‌توانند منجر به نتایج به شدت نادرست شوند.

تحقیقات جدیدتر، که با انتشار DeepSeek-R1 تحریک شده‌اند، استفاده از روش‌های تأیید مبتنی بر قانون را بررسی کرده‌اند. در قلمرو ریاضیات، این روش‌ها اغلب شامل الزام قالب‌بندی‌های خروجی خاصی هستند که امکان تأیید دقیق و خودکار راه‌حل را فراهم می‌کنند. به طور مشابه، در زمینه کد، محققان از مکانیسم‌های بازخورد ذاتی کامپایل و اجرا برای هدایت فرآیند یادگیری استفاده کرده‌اند. با این حال، این رویکردها به طور کلی به طور محدودی بر حوزه‌های فردی متمرکز بوده‌اند و فاقد توانایی رسیدگی مؤثر به درخواست‌های ناهمگن هستند که مسائل ریاضی و کدنویسی را با هم ترکیب می‌کنند. علاوه بر این، ارزیابی‌ها اغلب به معیارهای خاصی مانند AIME و LiveCodeBench محدود شده‌اند و قابلیت تعمیم‌پذیری یافته‌ها را محدود می‌کنند. در نهایت، ناپایداری آموزش همچنان یک مشکل مداوم است، که اغلب مستلزم استفاده از تکنیک‌های پیچیده‌ای مانند افزایش تدریجی طول پاسخ و کاهش فروپاشی آنتروپی است.

اکنون، محققان NVIDIA در حال تغییر بازی هستند، زیرا آنها پتانسیل قابل توجه یادگیری تقویتی در مقیاس بزرگ را برای افزایش چشمگیر قابلیت‌های استدلال مدل‌های نسبتاً کوچک و متوسط ​​نشان می‌دهند. روش‌های آنها به سطوحی از عملکرد دست می‌یابند که از رویکردهای پیشرفته مبتنی بر تکنیک‌های تقطیر فراتر می‌روند. رویکرد NVIDIA از یک استراتژی آموزشی متوالی استفاده می‌کند: ابتدا، انجام آموزش RL به طور انحصاری بر روی درخواست‌های مربوط به ریاضیات، و سپس تغییر به درخواست‌هایی که صرفاً بر کد متمرکز هستند.

یک روش متوالی برای استدلال پیشرفته

یافته‌ها؟ آموزش اولیه RL بر روی مسائل ریاضی نه تنها به طور چشمگیری عملکرد را در معیارهای ریاضی بهبود می‌بخشد، بلکه به طور شگفت‌انگیزی، باعث افزایش قابل توجهی در قابلیت‌های استدلال کد می‌شود. علاوه بر این، تکرارهای طولانی‌تر آموزش RL که به طور خاص بر کد متمرکز شده‌اند، عملکرد کد را با حداقل تخریب در عملکرد ریاضی بیشتر تقویت می‌کنند. این رویکرد یک نکته حیاتی را برجسته می‌کند: آموزش ریاضی می‌تواند به عنوان یک پایه قوی برای وظایف استدلال پیچیده‌تر مانند کدنویسی عمل کند.

بخش جدایی‌ناپذیر موفقیت رویکرد NVIDIA، یک خط لوله تنظیم داده قوی است. این خط لوله به طور دقیق طراحی شده است تا درخواست‌های چالش برانگیزی را جمع‌آوری کند که هم از نظر سختی بالا و هم از نظر در دسترس بودن پاسخ‌ها و موارد آزمایشی با کیفیت بالا و قابل تأیید مشخص می‌شوند. این امر به RL مبتنی بر تأیید اجازه می‌دهد تا به طور مؤثر در هر دو دامنه ریاضی و کدنویسی اعمال شود.

تنظیم داده برای ریاضی و کد

روش‌شناسی تنظیم داده که توسط محققان NVIDIA به کار گرفته شده است، با دقت بین الزامات RL فقط ریاضی و RL فقط کد تمایز قائل می‌شود.

RL فقط ریاضی: ایجاد داده‌های آموزشی برای RL فقط ریاضی شامل ادغام داده‌ها از مجموعه‌داده‌های DeepScaler و NuminaMath است. این مجموعه‌داده‌ها طیف گسترده‌ای از موضوعات ریاضی، از جمله جبر، ترکیبیات، نظریه اعداد و هندسه را در بر می‌گیرند. برای حفظ یکپارچگی داده‌ها، یک فرآیند فیلتر کردن دقیق اعمال می‌شود، با استفاده از یک فیلتر 9 گرمی برای حذف محتوای زائد یا نامناسب و اجرای قوانین حذف سخت‌گیرانه برای حذف ورودی‌های بالقوه مشکل‌ساز. مدل DeepSeek-R1 سپس نقشی حیاتی در اعتبارسنجی کیفیت سؤالات ایفا می‌کند. هر سؤال تحت هشت تلاش مستقل توسط مدل قرار می‌گیرد و فقط راه‌حل‌هایی که از طریق تأیید مبتنی بر قانون، اکثریت آرا را در مورد صحت دریافت می‌کنند، برای گنجاندن در مجموعه داده نهایی حفظ می‌شوند.

RL فقط کد: مجموعه داده برای RL فقط کد با استفاده از داده‌های به دست آمده از پلتفرم‌های برنامه‌نویسی رقابتی مدرن ساخته شده است. این پلتفرم‌ها منبع غنی از مسائل کدنویسی را ارائه می‌دهند که مجموعه‌ای متنوع از موضوعات الگوریتمی را در بر می‌گیرد. مسائل به گونه‌ای قالب‌بندی شده‌اند که با قراردادهای فراخوانی تابع‌ و ورودی/خروجی استاندارد (stdin/stdout) که معمولاً در این محیط‌ها استفاده می‌شوند، مطابقت داشته باشند. محققان یک فرآیند فیلتر کردن دقیق را برای حذف مسائل ناسازگار انجام می‌دهند و به دقت موارد آزمایشی جامعی را تنظیم می‌کنند که برای پوشش موارد حاشیه‌ای و شرایط مرزی طراحی شده‌اند. علاوه بر این، به هر مسئله یک امتیاز دشواری اختصاص داده می‌شود که از طریق ارزیابی توسط مدل DeepSeek-R1-671B تعیین می‌شود. این فرآیند دقیق منجر به یک مجموعه داده با کیفیت بالا متشکل از 8520 مسئله کدنویسی تأیید شده می‌شود.

AceReason-Nemotron: نتایج و معیارها

نتایج تحقیق NVIDIA قانع کننده است. مدل AceReason-Nemotron-7B در مقایسه با مدل‌های اولیه SFT، بهبودی قابل توجه 14.5٪ و 14.6٪ در دقت در مسابقات چالش‌برانگیز AIME 2024 و 2025 به دست می‌آورد. علاوه بر این، بهبودهای قابل توجهی 14.2٪ و 8٪ در معیارهای LiveCodeBench v5 و v6 نشان می‌دهد. مدل بزرگتر 14B حتی عملکرد بیشتری را به نمایش می‌گذارد و از مدل‌های بزرگتر مانند DeepSeek-R1-Distill-Qwen-32B و DeepSeek-R1-Distill-Llama-70B بهتر عمل می‌کند. این امر بهترین نتایج را در بین مدل‌های استدلال مبتنی بر RL متن‌باز به دست می‌آورد.

در مقایسه با مدل‌های مبتنی بر تقطیر پیشرفته، AceReason-Nemotron-14B در معیارهای AIME، 2.1٪/4.4٪ بهتر از OpenMath-14B/32B و در LiveCodeBench، 1.7٪/0.8٪ بهتر از OpenCodeReasoning-14B عمل می‌کند. این به طور قانع کننده‌ای نشان می‌دهد که RL می‌تواند به کران‌های بالایی عملکرد بالاتری نسبت به رویکردهای تقطیر دست یابد در حالی که عملکرد رقابتی را در برابر مدل‌های پیشرفته مرزی مانند QWQ-32B و o3-mini حفظ می‌کند.

پیامدهای این نتایج قابل توجه است. آنها نشان می‌دهند که RL در مقیاس بزرگ این پتانسیل را دارد که سطوح جدیدی از قابلیت‌های استدلال را در مدل‌های هوش مصنوعی باز کند و از محدودیت‌های رویکردهای سنتی فراتر رود. استراتژی آموزشی متوالی خاص دامنه، همراه با یک خط لوله تنظیم داده قوی، طرحی را برای تحقیقات آتی در این زمینه ارائه می‌دهد.

يادگيري تقويتي، محدوديت هاي استدلال را هدايت مي كند

این تحقیق بر پتانسیل قابل توجه یادگیری تقویتی برای پیشبرد مرزهای قابلیت‌های استدلال مدل تاکید دارد. با استفاده استراتژیک از آموزش خاص دامنه و تنظیم دقیق داده‌های با کیفیت بالا، این امر به مدل‌های هوش مصنوعی اجازه می‌دهد تا مسائل قبلی غیرقابل حل را حل کنند و معیارهای جدیدی را برای توسعه مدل استدلال ایجاد کنند و در نهایت منجر به نسل جدیدی از سیستم‌های هوش مصنوعی شود که قادر به مقابله با چالش‌های دنیای واقعی با دقت و کارایی بی‌سابقه‌ای هستند. توانایی استدلال موثر سنگ بنای هوش است و پیشرفت‌های به دست آمده توسط NVIDIA یک گام بزرگ در جهت تحقق کامل پتانسیل هوش مصنوعی است. تحقیقات آتی احتمالاً بر مقیاس‌بندی این تکنیک‌ها به مدل‌های حتی بزرگتر و بررسی استراتژی‌های تنظیم داده جدید برای بهبود بیشتر عملکرد استدلال متمرکز خواهد شد. توسعه توابع پاداش و استراتژی‌های اکتشافی پیچیده‌تر نیز برای غلبه بر چالش‌های مرتبط با آموزش مدل‌های هوش مصنوعی برای وظایف استدلال پیچیده بسیار مهم خواهد بود. در نهایت، هدف ایجاد سیستم‌های هوش مصنوعی است که بتوانند به شیوه‌ای مشابه انسان استدلال، یادگیری و سازگاری داشته باشند و آنها را قادر سازند تا مسائل پیچیده را حل کنند و تصمیمات آگاهانه‌ای را در طیف گسترده‌ای از حوزه‌ها بگیرند.

علاوه بر این، استفاده از RL مزایایی فراتر از دقت خام ارائه می‌دهد. عوامل RL می‌توانند یاد بگیرند که برای اهداف مختلفی مانند کارایی، استحکام و قابلیت تفسیر بهینه شوند. به عنوان مثال، یک عامل RL می‌تواند آموزش داده شود تا کدی تولید کند که نه تنها صحیح باشد، بلکه کارآمد و آسان برای درک نیز باشد. این قابلیت به ویژه در برنامه‌های کاربردی حیاتی ایمنی مهم است، جایی که اطمینان از قابل اعتماد و قابل پیش‌بینی بودن سیستم‌های هوش مصنوعی ضروری است.

کار NVIDIA اهمیت روزافزون تنظیم داده را در تحقیقات هوش مصنوعی برجسته می‌کند. کیفیت داده‌های آموزشی تاثیر قابل توجهی بر عملکرد مدل‌های هوش مصنوعی دارد و مجموعه داده‌های با دقت تنظیم شده برای دستیابی به نتایج پیشرفته ضروری هستند. خط لوله تنظیم داده که توسط NVIDIA توسعه یافته است، منبع ارزشمندی برای محققانی است که روی مدل‌های استدلال کار می‌کنند و می‌تواند برای استفاده در سایر دامنه‌ها نیز اقتباس شود.

ترکیبی از RL در مقیاس بزرگ، آموزش خاص دامنه و تنظیم داده قوی ثابت کرده است که فرمول موفقی برای بهبود قابلیت‌های استدلال مدل‌های هوش مصنوعی است. با ادامه تکامل این تکنیک‌ها، می‌توانیم انتظار شاهد پیشرفت‌های چشمگیرتری در زمینه هوش مصنوعی باشیم و امیدواریم که شاهد پیشرفت‌های مستمر مدل‌های هوش مصنوعی در آینده نزدیک باشیم.