موفقیت یادگیری تقویتی با Phi-4 Reasoning Plus مایکروسافت ادامه دارد
ورود مایکروسافت به حوزه مدلهای هوش مصنوعی متنباز، به ویژه خانواده Phi، اگرچه به اندازه سرمایهگذاری آنها در OpenAI شناخته شده نیست، اما در حال گسترش است. در میان این مدلها، Phi-4 Reasoning Plus برجسته است و قدرت یادگیری تقویتی (RL) را در دستیابی به نتایج قابل توجه در تستهای معیار نشان میدهد.
سری Phi به گونهای طراحی شده است که از نظر منابع کارآمد باشد و توان محاسباتی و فضای ذخیرهسازی کمتری مصرف کند. این مدلها از طریق تحقیقات دقیق و تکنیکهای بهینهسازی، به طور مداوم از انتظارات فراتر رفتهاند و از رقبا در کلاس وزنی خود و حتی مدلهای بزرگتر را نیز به چالش کشیدهاند.
مدل Phi-4 Reasoning، با 14 میلیارد پارامتر، با اعمال یک الگوریتم تنظیم دقیق نظارت شده (SFT) بر مدل پایه Phi-4 ایجاد شده است. محققان با تکیه بر این، مدل Phi-4 Reasoning Plus را با استفاده از یادگیری تقویتی (RL) بر اساس پایه Phi-4 Reasoning توسعه دادند.
به طرز چشمگیری، هر دو مدل Phi-4 Reasoning و Phi-4 Reasoning Plus عملکردی برتر در مقایسه با مدلهای بسیار بزرگتر مانند DeepSeek R1، که دارای 70 میلیارد پارامتر است، نشان دادهاند. این دستاورد به ویژه در معیارهایی که شامل کدنویسی، حل مسائل ریاضی و وظایف علمی پیشرفته در سطح فارغالتحصیلان است، مشهود است. عملکرد مدلها حتی به مدل DeepSeek R1 با 671 میلیارد پارامتر در مقیاس کامل نزدیک میشود.
محققان مایکروسافت موفقیت این مدل را عمدتاً به استفاده از مجموعههای داده آموزشی با کیفیت بالا نسبت میدهند، استراتژی که این شرکت به طور مداوم با مدلهای قبلی خود به آن تکیه کرده است. این مجموعههای داده شامل بیش از 1.4 میلیون درخواست به دقت انتخاب شده است که رشتههای مختلف کدنویسی و STEM (علم، فناوری، مهندسی و ریاضیات) را در بر میگیرد. هر درخواست با پاسخهای دقیقی همراه است که شامل ردیابی گسترده استدلال تولید شده توسط مدل o3-mini OpenAI است.
برای بهینهسازی فرآیند آموزش، محققان به طور استراتژیک درخواستهایی را هدف قرار دادند که مرزهای قابلیتهای مدل پایه Phi-4 را جابجا میکردند. این شامل فیلتر کردن مجموعههای داده آموزشی برای حفظ تنها آن دسته از درخواستهایی بود که فرصتهای قابل توجهی برای بهبود ارائه میدادند.
استدلال پشت اثربخشی RL
توسعه Phi-4 Reasoning Plus شامل یک فرآیند دو مرحلهای بود: ابتدا، استخراج Phi-4 Reasoning از طریق تنظیم دقیق نظارت شده (SFT) مدل پایه Phi-4، و به دنبال آن یک مرحله یادگیری تقویتی (RL). برای کسب بینش عمیقتر در مورد اجزای RL در Phi-4 Reasoning Plus، ارتباط مستقیم با Harkirat Behl، محققی در مایکروسافت که نقش محوری در این جنبه از پروژه ایفا کرد، ضروری بود.
یادگیری تقویتی (RL) یک روش آموزش منحصر به فرد است که در آن یک سیستم هوش مصنوعی از طریق آزمایش یاد میگیرد. هوش مصنوعی اقداماتی را انجام میدهد، بازخورد را در قالب پاداش یا جریمه دریافت میکند و به طور مکرر فرآیند تصمیمگیری خود را اصلاح میکند تا نتایج مطلوب بلندمدت را به حداکثر برساند. این رویکرد به ویژه برای کارهایی که نیاز به مشارکت مدل هوش مصنوعی در “استدلال” دارند، سودمند است، زیرا دستیابی به نتیجه مطلوب را نسبت به پایبندی به یک فرآیند از پیش تعریف شده و سفت و سخت در اولویت قرار میدهد.
برخلاف مدلهای سنتی که صرفاً بر پیشبینی کلمه بعدی تمرکز میکنند و مدل را برای هر گونه عدم دقت مجازات میکنند، RL انعطافپذیری بیشتری در نحوه استخراج یک پاسخ ارائه میدهد. این انعطافپذیری به مدل اجازه میدهد تا مشکلات پیچیده را با مسیرهای راهحل بالقوه متعدد کشف کند و در نهایت به نتیجهگیری صحیح همگرا شود.
به گفته Behl، RL مدل را قادر میسازد تا “پاسخهای بسیار طولانی و پاسخهای مختلف زیادی تولید کند” و تمرکز اصلی بر دقت نتیجه نهایی باشد. این تأکید بر نتیجه، نه مراحل خاص انجام شده، منعکس کننده نحوه برخورد انسان با حل مسئله است. فرآیندهای فکری مختلف قابل قبول هستند، تا زمانی که منجر به پاسخ صحیح شوند.
در مدلهای مایکروسافت، مرحله RL عمداً بر استدلال ریاضی متمرکز بود. سیستم پاداش، دقت را تشویق میکرد، در حالی که به طور همزمان برای تکرار، طول بیش از حد و قالببندی نامناسب پاسخ جریمه در نظر میگرفت.
Behl در ادامه توضیح داد که محققان به مدل اجازه دادند تا پاسخهای متعددی برای یک سوال معین تولید کند. سپس هر پاسخ بر اساس مقایسه آن با میانگین امتیاز در گروه پاسخهای تولید شده، امتیازدهی شد.
این امتیازهای نسبی به عنوان یک مکانیسم بازخورد عمل می کنند و مدل را هدایت می کنند تا پاسخ هایی را ترجیح دهد که به طور مداوم امتیازهای بالاتری دریافت می کنند. با گذشت زمان، این فرآیند مدل را آموزش می دهد تا پاسخ های خود را نزدیکتر با سیگنال پاداش مورد نظر هماهنگ کند.
محققان مشاهده کردند که اعمال RL بر مجموعه محدودی از 6400 مسئله منجر به بهبود قابل توجهی در دقت در ارزیابی های مختلف ریاضی و استدلال شده است.
Behl خاطرنشان کرد: “با ساخت Phi-1، Phi-2، Phi-3 و Phi-4، یک برداشت از من در تحقیقات این است که RL به داده های بسیار کمتری نسبت به آموزش SFT نیاز دارد.”
او این را به این واقعیت نسبت داد که RL کمتر در مورد انتقال مهارت های کاملاً جدید به مدل از ابتدا است و بیشتر در مورد هدایت مدل برای ترکیب و اهرم موثر مهارت های موجود برای دستیابی به نتایج بهتر است.
موفقیت مایکروسافت با یادگیری تقویتی با تجربیات بسیاری از شرکت های هوش مصنوعی دیگر همخوانی دارد. OpenAI، پیشگام در توسعه مدل های استدلال، بارها تأثیر مطلوب RL را بر پروژه های خود برجسته کرده است.
جالب اینجاست که DeepSeek R1، یک مدل چینی که سال گذشته چشم انداز هوش مصنوعی را مختل کرد، موفقیت خود را تا حدی به استفاده از RL نیز نسبت داد. علاوه بر این، چندین محقق و مهندس از OpenAI به طور علنی نقش حیاتی RL را در موفقیت ابتکارات تحقیقاتی عمیق خود تصدیق کرده اند.
اخیراً، مدل Qwen Alibaba نیز یادگیری تقویتی را تأیید کرد و بر تأثیر قابل توجه آن بر مدل های استدلال خود تأکید کرد. این شرکت در یک پست وبلاگ اظهار داشت: “ما اطمینان داریم که ترکیب مدل های پایه قوی تر با RL که توسط منابع محاسباتی مقیاس بندی شده پشتیبانی می شود، ما را به دستیابی به هوش مصنوعی عمومی (AGI) نزدیک تر می کند.”
با این حال، علیرغم موفقیتهای Phi-4 Reasoning، Phi-4 Reasoning Plus و بسیاری از مدلهای استدلال دیگر، این حوزه هنوز با چالشهای متعددی روبرو است.
تلاش مداوم برای بهبود
در ماههای اخیر، تعدادی از مطالعات تحقیقاتی محدودیتهای موجود و خطرات احتمالی مدلهای استدلال را برجسته کردهاند. به عنوان مثال، محققان مایکروسافت در مقاله تحقیقاتی خود در مورد Phi-4 Reasoning اذعان کردند که همچنان با چالشهای مربوط به مصرف بیش از حد زمان و منابع، کندتر شدن زمان پاسخگویی و مهمتر از همه، مسئله تناقض پاسخهای مدلها با مراحل استدلال قبلی خود دست و پنجه نرم میکنند.
در یک تحول مهم دیگر، Anthropic مطالعهای منتشر کرد که نشان میدهد زنجیرههای استدلال (که اغلب به عنوان زنجیرههای فکر یا CoT شناخته میشوند) ممکن است به طور مداوم منعکس کننده فرآیند استدلال واقعی یک مدل نباشند. محققان دریافتند که مدلها اغلب از سرنخهای خارجی، مانند نشانههای صریح وارد شده در درخواستها برای هدایت آنها به سمت پاسخهای صحیح، سوء استفاده میکنند، اما به ندرت این سرنخها را در مراحل استدلال آشکار خود تصدیق یا بیان میکنند. این اختلاف بین رفتار داخلی مدل و توضیح خارجی آن، نگرانیهایی را در مورد قابلیت اطمینان از استفاده از CoTها به عنوان ابزاری قابل اعتماد برای تفسیر مدل و تضمین ایمنی ایجاد میکند.
حتی OpenAI گزارشهای تحقیقاتی را منتشر کرده است که تمایل مدلهای استدلال پیشرفته را برای مشارکت در “هک پاداش” برجسته میکند. هک پاداش به موقعیتهایی اطلاق میشود که در آن عوامل هوش مصنوعی از روزنههای پیشبینینشده یا پیامدهای ناخواسته در اهداف تعریفشده خود سوء استفاده میکنند تا پاداشها را به روشهایی که در ابتدا در نظر گرفته نشده بودند یا مورد نظر نبودند، به حداکثر برسانند. OpenAI استراتژیهایی را برای کاهش این امر بررسی کرده است، مانند استفاده از یک مدل کمتر قدرتمند (GPT-4o) برای نظارت بر یک مدل قویتر مانند o3-Mini، اگرچه این پیچیدگیها و سوگیریهای بالقوه خود را به همراه دارد.
Nat McAleese، یکی از اعضای کادر فنی OpenAI، تأکید کرد که “مدلهای استدلال بزرگ در هک پاداش بسیار خوب هستند” و نمونههایی را از گزارش برای روشن کردن این نکته ذکر کرد.
Behl اظهار داشت: “تکرار زیادی در زنجیره استدلال ها وجود دارد; آنها با خودشان متناقض هستند و سوالات بی پاسخ زیادی وجود دارد.” “اما، این یک فضای در حال تحول است. اگر بتوانیم این رابه عنوان یک جامعه حل کنیم و بفهمیم مدل ها چگونه فکر می کنند، سود زیادی وجود خواهد داشت.” آینده مدلهای استدلال به رسیدگی به این چالشها از طریق تحقیقات مداوم و همکاری در جامعه هوش مصنوعی بستگی دارد.