تلاش برای دستیابی به هوش مصنوعی که واقعاً بتواند استدلال کند، مدتهاست که یکی از اهداف اصلی در این زمینه بوده است. اولین جرقههای هیجان پیرامون مدل “o1” شرکت OpenAI، علاقهای فراگیر به استفاده از تکنیکهای یادگیری تقویتی (RL) در مقیاس بزرگ را برای ساخت سیستمهایی با قابلیت استدلال پیچیده برانگیخت. پس از آن، تصمیم DeepSeek-R1 برای انتشار مدل خود به صورت متنباز، شور و شوق بیشتری را ایجاد کرد و به جامعه هوش مصنوعی قدرت داد تا با جدیت به دنبال توسعه مدلهای استدلال پیشرفته باشد.
با این حال، این موج اولیه فعالیت به سرعت با یک مانع قابل توجه فروکش کرد. جزئیات فنی حیاتی، که برای تکرار موفقیتآمیز بسیار مهم هستند – به طور مشخص، استراتژیهای دقیقی که برای تنظیم دادهها به کار گرفته شدهاند و دستورالعملهای پیچیدهای که آموزش RL را هدایت میکنند – به طرز چشمگیری در گزارش اصلی DeepSeek-R1 غایب بودند. این حذف، محققان را در حالت ناامیدی قابل توجهی قرار داد و با چالش بازآفرینی موفقیتهای گزارش شده دست و پنجه نرم میکردند. نتیجه، منظرهای تا حدودی پراکنده از تحقیقات بود، با تلاشهای مستقل متعدد که اندازههای مختلف مدل، نقاط بررسی اولیه مختلف و دامنه متنوعی از حوزههای هدف را بررسی میکردند. علیرغم این فعالیت شدید، یک دستورالعمل آموزشی جامع و به طور مداوم مؤثر همچنان دست نیافتنی باقی مانده است.
رویکردهای سنتی برای آموزش مدلهای زبانی برای استدلال، عمدتاً بر حوزههای ریاضیات و کد کامپیوتر متمرکز شدهاند. این روشها به طور کلی به ترکیبی از پیشآموزش بر روی مجموعهدادههای بزرگ و تنظیم دقیق نظارتشده برای تخصصی کردن مدلها برای این وظایف خاص متکی هستند. تلاشهای اولیه برای ادغام یادگیری تقویتی در این فرآیند، به طور معمول با استفاده از مدلهای پاداش خاص دامنه، تنها دستاوردهای محدودی را به همراه داشت. این امر ناشی از چالشهای ذاتی مرتبط با وظایف ریاضی و کدنویسی است، جایی که اشتباهات جزئی میتوانند منجر به نتایج به شدت نادرست شوند.
تحقیقات جدیدتر، که با انتشار DeepSeek-R1 تحریک شدهاند، استفاده از روشهای تأیید مبتنی بر قانون را بررسی کردهاند. در قلمرو ریاضیات، این روشها اغلب شامل الزام قالببندیهای خروجی خاصی هستند که امکان تأیید دقیق و خودکار راهحل را فراهم میکنند. به طور مشابه، در زمینه کد، محققان از مکانیسمهای بازخورد ذاتی کامپایل و اجرا برای هدایت فرآیند یادگیری استفاده کردهاند. با این حال، این رویکردها به طور کلی به طور محدودی بر حوزههای فردی متمرکز بودهاند و فاقد توانایی رسیدگی مؤثر به درخواستهای ناهمگن هستند که مسائل ریاضی و کدنویسی را با هم ترکیب میکنند. علاوه بر این، ارزیابیها اغلب به معیارهای خاصی مانند AIME و LiveCodeBench محدود شدهاند و قابلیت تعمیمپذیری یافتهها را محدود میکنند. در نهایت، ناپایداری آموزش همچنان یک مشکل مداوم است، که اغلب مستلزم استفاده از تکنیکهای پیچیدهای مانند افزایش تدریجی طول پاسخ و کاهش فروپاشی آنتروپی است.
اکنون، محققان NVIDIA در حال تغییر بازی هستند، زیرا آنها پتانسیل قابل توجه یادگیری تقویتی در مقیاس بزرگ را برای افزایش چشمگیر قابلیتهای استدلال مدلهای نسبتاً کوچک و متوسط نشان میدهند. روشهای آنها به سطوحی از عملکرد دست مییابند که از رویکردهای پیشرفته مبتنی بر تکنیکهای تقطیر فراتر میروند. رویکرد NVIDIA از یک استراتژی آموزشی متوالی استفاده میکند: ابتدا، انجام آموزش RL به طور انحصاری بر روی درخواستهای مربوط به ریاضیات، و سپس تغییر به درخواستهایی که صرفاً بر کد متمرکز هستند.
یک روش متوالی برای استدلال پیشرفته
یافتهها؟ آموزش اولیه RL بر روی مسائل ریاضی نه تنها به طور چشمگیری عملکرد را در معیارهای ریاضی بهبود میبخشد، بلکه به طور شگفتانگیزی، باعث افزایش قابل توجهی در قابلیتهای استدلال کد میشود. علاوه بر این، تکرارهای طولانیتر آموزش RL که به طور خاص بر کد متمرکز شدهاند، عملکرد کد را با حداقل تخریب در عملکرد ریاضی بیشتر تقویت میکنند. این رویکرد یک نکته حیاتی را برجسته میکند: آموزش ریاضی میتواند به عنوان یک پایه قوی برای وظایف استدلال پیچیدهتر مانند کدنویسی عمل کند.
بخش جداییناپذیر موفقیت رویکرد NVIDIA، یک خط لوله تنظیم داده قوی است. این خط لوله به طور دقیق طراحی شده است تا درخواستهای چالش برانگیزی را جمعآوری کند که هم از نظر سختی بالا و هم از نظر در دسترس بودن پاسخها و موارد آزمایشی با کیفیت بالا و قابل تأیید مشخص میشوند. این امر به RL مبتنی بر تأیید اجازه میدهد تا به طور مؤثر در هر دو دامنه ریاضی و کدنویسی اعمال شود.
تنظیم داده برای ریاضی و کد
روششناسی تنظیم داده که توسط محققان NVIDIA به کار گرفته شده است، با دقت بین الزامات RL فقط ریاضی و RL فقط کد تمایز قائل میشود.
RL فقط ریاضی: ایجاد دادههای آموزشی برای RL فقط ریاضی شامل ادغام دادهها از مجموعهدادههای DeepScaler و NuminaMath است. این مجموعهدادهها طیف گستردهای از موضوعات ریاضی، از جمله جبر، ترکیبیات، نظریه اعداد و هندسه را در بر میگیرند. برای حفظ یکپارچگی دادهها، یک فرآیند فیلتر کردن دقیق اعمال میشود، با استفاده از یک فیلتر 9 گرمی برای حذف محتوای زائد یا نامناسب و اجرای قوانین حذف سختگیرانه برای حذف ورودیهای بالقوه مشکلساز. مدل DeepSeek-R1 سپس نقشی حیاتی در اعتبارسنجی کیفیت سؤالات ایفا میکند. هر سؤال تحت هشت تلاش مستقل توسط مدل قرار میگیرد و فقط راهحلهایی که از طریق تأیید مبتنی بر قانون، اکثریت آرا را در مورد صحت دریافت میکنند، برای گنجاندن در مجموعه داده نهایی حفظ میشوند.
RL فقط کد: مجموعه داده برای RL فقط کد با استفاده از دادههای به دست آمده از پلتفرمهای برنامهنویسی رقابتی مدرن ساخته شده است. این پلتفرمها منبع غنی از مسائل کدنویسی را ارائه میدهند که مجموعهای متنوع از موضوعات الگوریتمی را در بر میگیرد. مسائل به گونهای قالببندی شدهاند که با قراردادهای فراخوانی تابع و ورودی/خروجی استاندارد (stdin/stdout) که معمولاً در این محیطها استفاده میشوند، مطابقت داشته باشند. محققان یک فرآیند فیلتر کردن دقیق را برای حذف مسائل ناسازگار انجام میدهند و به دقت موارد آزمایشی جامعی را تنظیم میکنند که برای پوشش موارد حاشیهای و شرایط مرزی طراحی شدهاند. علاوه بر این، به هر مسئله یک امتیاز دشواری اختصاص داده میشود که از طریق ارزیابی توسط مدل DeepSeek-R1-671B تعیین میشود. این فرآیند دقیق منجر به یک مجموعه داده با کیفیت بالا متشکل از 8520 مسئله کدنویسی تأیید شده میشود.
AceReason-Nemotron: نتایج و معیارها
نتایج تحقیق NVIDIA قانع کننده است. مدل AceReason-Nemotron-7B در مقایسه با مدلهای اولیه SFT، بهبودی قابل توجه 14.5٪ و 14.6٪ در دقت در مسابقات چالشبرانگیز AIME 2024 و 2025 به دست میآورد. علاوه بر این، بهبودهای قابل توجهی 14.2٪ و 8٪ در معیارهای LiveCodeBench v5 و v6 نشان میدهد. مدل بزرگتر 14B حتی عملکرد بیشتری را به نمایش میگذارد و از مدلهای بزرگتر مانند DeepSeek-R1-Distill-Qwen-32B و DeepSeek-R1-Distill-Llama-70B بهتر عمل میکند. این امر بهترین نتایج را در بین مدلهای استدلال مبتنی بر RL متنباز به دست میآورد.
در مقایسه با مدلهای مبتنی بر تقطیر پیشرفته، AceReason-Nemotron-14B در معیارهای AIME، 2.1٪/4.4٪ بهتر از OpenMath-14B/32B و در LiveCodeBench، 1.7٪/0.8٪ بهتر از OpenCodeReasoning-14B عمل میکند. این به طور قانع کنندهای نشان میدهد که RL میتواند به کرانهای بالایی عملکرد بالاتری نسبت به رویکردهای تقطیر دست یابد در حالی که عملکرد رقابتی را در برابر مدلهای پیشرفته مرزی مانند QWQ-32B و o3-mini حفظ میکند.
پیامدهای این نتایج قابل توجه است. آنها نشان میدهند که RL در مقیاس بزرگ این پتانسیل را دارد که سطوح جدیدی از قابلیتهای استدلال را در مدلهای هوش مصنوعی باز کند و از محدودیتهای رویکردهای سنتی فراتر رود. استراتژی آموزشی متوالی خاص دامنه، همراه با یک خط لوله تنظیم داده قوی، طرحی را برای تحقیقات آتی در این زمینه ارائه میدهد.
يادگيري تقويتي، محدوديت هاي استدلال را هدايت مي كند
این تحقیق بر پتانسیل قابل توجه یادگیری تقویتی برای پیشبرد مرزهای قابلیتهای استدلال مدل تاکید دارد. با استفاده استراتژیک از آموزش خاص دامنه و تنظیم دقیق دادههای با کیفیت بالا، این امر به مدلهای هوش مصنوعی اجازه میدهد تا مسائل قبلی غیرقابل حل را حل کنند و معیارهای جدیدی را برای توسعه مدل استدلال ایجاد کنند و در نهایت منجر به نسل جدیدی از سیستمهای هوش مصنوعی شود که قادر به مقابله با چالشهای دنیای واقعی با دقت و کارایی بیسابقهای هستند. توانایی استدلال موثر سنگ بنای هوش است و پیشرفتهای به دست آمده توسط NVIDIA یک گام بزرگ در جهت تحقق کامل پتانسیل هوش مصنوعی است. تحقیقات آتی احتمالاً بر مقیاسبندی این تکنیکها به مدلهای حتی بزرگتر و بررسی استراتژیهای تنظیم داده جدید برای بهبود بیشتر عملکرد استدلال متمرکز خواهد شد. توسعه توابع پاداش و استراتژیهای اکتشافی پیچیدهتر نیز برای غلبه بر چالشهای مرتبط با آموزش مدلهای هوش مصنوعی برای وظایف استدلال پیچیده بسیار مهم خواهد بود. در نهایت، هدف ایجاد سیستمهای هوش مصنوعی است که بتوانند به شیوهای مشابه انسان استدلال، یادگیری و سازگاری داشته باشند و آنها را قادر سازند تا مسائل پیچیده را حل کنند و تصمیمات آگاهانهای را در طیف گستردهای از حوزهها بگیرند.
علاوه بر این، استفاده از RL مزایایی فراتر از دقت خام ارائه میدهد. عوامل RL میتوانند یاد بگیرند که برای اهداف مختلفی مانند کارایی، استحکام و قابلیت تفسیر بهینه شوند. به عنوان مثال، یک عامل RL میتواند آموزش داده شود تا کدی تولید کند که نه تنها صحیح باشد، بلکه کارآمد و آسان برای درک نیز باشد. این قابلیت به ویژه در برنامههای کاربردی حیاتی ایمنی مهم است، جایی که اطمینان از قابل اعتماد و قابل پیشبینی بودن سیستمهای هوش مصنوعی ضروری است.
کار NVIDIA اهمیت روزافزون تنظیم داده را در تحقیقات هوش مصنوعی برجسته میکند. کیفیت دادههای آموزشی تاثیر قابل توجهی بر عملکرد مدلهای هوش مصنوعی دارد و مجموعه دادههای با دقت تنظیم شده برای دستیابی به نتایج پیشرفته ضروری هستند. خط لوله تنظیم داده که توسط NVIDIA توسعه یافته است، منبع ارزشمندی برای محققانی است که روی مدلهای استدلال کار میکنند و میتواند برای استفاده در سایر دامنهها نیز اقتباس شود.
ترکیبی از RL در مقیاس بزرگ، آموزش خاص دامنه و تنظیم داده قوی ثابت کرده است که فرمول موفقی برای بهبود قابلیتهای استدلال مدلهای هوش مصنوعی است. با ادامه تکامل این تکنیکها، میتوانیم انتظار شاهد پیشرفتهای چشمگیرتری در زمینه هوش مصنوعی باشیم و امیدواریم که شاهد پیشرفتهای مستمر مدلهای هوش مصنوعی در آینده نزدیک باشیم.