تداوم پیروزی یادگیری تقویتی: Phi-4 مایکروسافت

موفقیت یادگیری تقویتی با Phi-4 Reasoning Plus مایکروسافت ادامه دارد

ورود مایکروسافت به حوزه مدل‌های هوش مصنوعی متن‌باز، به ویژه خانواده Phi، اگرچه به اندازه سرمایه‌گذاری آن‌ها در OpenAI شناخته شده نیست، اما در حال گسترش است. در میان این مدل‌ها، Phi-4 Reasoning Plus برجسته است و قدرت یادگیری تقویتی (RL) را در دستیابی به نتایج قابل توجه در تست‌های معیار نشان می‌دهد.

سری Phi به گونه‌ای طراحی شده است که از نظر منابع کارآمد باشد و توان محاسباتی و فضای ذخیره‌سازی کمتری مصرف کند. این مدل‌ها از طریق تحقیقات دقیق و تکنیک‌های بهینه‌سازی، به طور مداوم از انتظارات فراتر رفته‌اند و از رقبا در کلاس وزنی خود و حتی مدل‌های بزرگتر را نیز به چالش کشیده‌اند.

مدل Phi-4 Reasoning، با 14 میلیارد پارامتر، با اعمال یک الگوریتم تنظیم دقیق نظارت شده (SFT) بر مدل پایه Phi-4 ایجاد شده است. محققان با تکیه بر این، مدل Phi-4 Reasoning Plus را با استفاده از یادگیری تقویتی (RL) بر اساس پایه Phi-4 Reasoning توسعه دادند.

به طرز چشمگیری، هر دو مدل Phi-4 Reasoning و Phi-4 Reasoning Plus عملکردی برتر در مقایسه با مدل‌های بسیار بزرگتر مانند DeepSeek R1، که دارای 70 میلیارد پارامتر است، نشان داده‌اند. این دستاورد به ویژه در معیارهایی که شامل کدنویسی، حل مسائل ریاضی و وظایف علمی پیشرفته در سطح فارغ‌التحصیلان است، مشهود است. عملکرد مدل‌ها حتی به مدل DeepSeek R1 با 671 میلیارد پارامتر در مقیاس کامل نزدیک می‌شود.

محققان مایکروسافت موفقیت این مدل را عمدتاً به استفاده از مجموعه‌های داده آموزشی با کیفیت بالا نسبت می‌دهند، استراتژی که این شرکت به طور مداوم با مدل‌های قبلی خود به آن تکیه کرده است. این مجموعه‌های داده شامل بیش از 1.4 میلیون درخواست به دقت انتخاب شده است که رشته‌های مختلف کدنویسی و STEM (علم، فناوری، مهندسی و ریاضیات) را در بر می‌گیرد. هر درخواست با پاسخ‌های دقیقی همراه است که شامل ردیابی گسترده استدلال تولید شده توسط مدل o3-mini OpenAI است.

برای بهینه‌سازی فرآیند آموزش، محققان به طور استراتژیک درخواست‌هایی را هدف قرار دادند که مرزهای قابلیت‌های مدل پایه Phi-4 را جابجا می‌کردند. این شامل فیلتر کردن مجموعه‌های داده آموزشی برای حفظ تنها آن دسته از درخواست‌هایی بود که فرصت‌های قابل توجهی برای بهبود ارائه می‌دادند.

استدلال پشت اثربخشی RL

توسعه Phi-4 Reasoning Plus شامل یک فرآیند دو مرحله‌ای بود: ابتدا، استخراج Phi-4 Reasoning از طریق تنظیم دقیق نظارت شده (SFT) مدل پایه Phi-4، و به دنبال آن یک مرحله یادگیری تقویتی (RL). برای کسب بینش عمیق‌تر در مورد اجزای RL در Phi-4 Reasoning Plus، ارتباط مستقیم با Harkirat Behl، محققی در مایکروسافت که نقش محوری در این جنبه از پروژه ایفا کرد، ضروری بود.

یادگیری تقویتی (RL) یک روش آموزش منحصر به فرد است که در آن یک سیستم هوش مصنوعی از طریق آزمایش یاد می‌گیرد. هوش مصنوعی اقداماتی را انجام می‌دهد، بازخورد را در قالب پاداش یا جریمه دریافت می‌کند و به طور مکرر فرآیند تصمیم‌گیری خود را اصلاح می‌کند تا نتایج مطلوب بلندمدت را به حداکثر برساند. این رویکرد به ویژه برای کارهایی که نیاز به مشارکت مدل هوش مصنوعی در “استدلال” دارند، سودمند است، زیرا دستیابی به نتیجه مطلوب را نسبت به پایبندی به یک فرآیند از پیش تعریف شده و سفت و سخت در اولویت قرار می‌دهد.

برخلاف مدل‌های سنتی که صرفاً بر پیش‌بینی کلمه بعدی تمرکز می‌کنند و مدل را برای هر گونه عدم دقت مجازات می‌کنند، RL انعطاف‌پذیری بیشتری در نحوه استخراج یک پاسخ ارائه می‌دهد. این انعطاف‌پذیری به مدل اجازه می‌دهد تا مشکلات پیچیده را با مسیرهای راه‌حل بالقوه متعدد کشف کند و در نهایت به نتیجه‌گیری صحیح همگرا شود.

به گفته Behl، RL مدل را قادر می‌سازد تا “پاسخ‌های بسیار طولانی و پاسخ‌های مختلف زیادی تولید کند” و تمرکز اصلی بر دقت نتیجه نهایی باشد. این تأکید بر نتیجه، نه مراحل خاص انجام شده، منعکس کننده نحوه برخورد انسان با حل مسئله است. فرآیندهای فکری مختلف قابل قبول هستند، تا زمانی که منجر به پاسخ صحیح شوند.

در مدل‌های مایکروسافت، مرحله RL عمداً بر استدلال ریاضی متمرکز بود. سیستم پاداش، دقت را تشویق می‌کرد، در حالی که به طور همزمان برای تکرار، طول بیش از حد و قالب‌بندی نامناسب پاسخ جریمه در نظر می‌گرفت.

Behl در ادامه توضیح داد که محققان به مدل اجازه دادند تا پاسخ‌های متعددی برای یک سوال معین تولید کند. سپس هر پاسخ بر اساس مقایسه آن با میانگین امتیاز در گروه پاسخ‌های تولید شده، امتیازدهی شد.

این امتیازهای نسبی به عنوان یک مکانیسم بازخورد عمل می کنند و مدل را هدایت می کنند تا پاسخ هایی را ترجیح دهد که به طور مداوم امتیازهای بالاتری دریافت می کنند. با گذشت زمان، این فرآیند مدل را آموزش می دهد تا پاسخ های خود را نزدیکتر با سیگنال پاداش مورد نظر هماهنگ کند.

محققان مشاهده کردند که اعمال RL بر مجموعه محدودی از 6400 مسئله منجر به بهبود قابل توجهی در دقت در ارزیابی های مختلف ریاضی و استدلال شده است.

Behl خاطرنشان کرد: “با ساخت Phi-1، Phi-2، Phi-3 و Phi-4، یک برداشت از من در تحقیقات این است که RL به داده های بسیار کمتری نسبت به آموزش SFT نیاز دارد.”

او این را به این واقعیت نسبت داد که RL کمتر در مورد انتقال مهارت های کاملاً جدید به مدل از ابتدا است و بیشتر در مورد هدایت مدل برای ترکیب و اهرم موثر مهارت های موجود برای دستیابی به نتایج بهتر است.

موفقیت مایکروسافت با یادگیری تقویتی با تجربیات بسیاری از شرکت های هوش مصنوعی دیگر همخوانی دارد. OpenAI، پیشگام در توسعه مدل های استدلال، بارها تأثیر مطلوب RL را بر پروژه های خود برجسته کرده است.

جالب اینجاست که DeepSeek R1، یک مدل چینی که سال گذشته چشم انداز هوش مصنوعی را مختل کرد، موفقیت خود را تا حدی به استفاده از RL نیز نسبت داد. علاوه بر این، چندین محقق و مهندس از OpenAI به طور علنی نقش حیاتی RL را در موفقیت ابتکارات تحقیقاتی عمیق خود تصدیق کرده اند.

اخیراً، مدل Qwen Alibaba نیز یادگیری تقویتی را تأیید کرد و بر تأثیر قابل توجه آن بر مدل های استدلال خود تأکید کرد. این شرکت در یک پست وبلاگ اظهار داشت: “ما اطمینان داریم که ترکیب مدل های پایه قوی تر با RL که توسط منابع محاسباتی مقیاس بندی شده پشتیبانی می شود، ما را به دستیابی به هوش مصنوعی عمومی (AGI) نزدیک تر می کند.”

با این حال، علی‌رغم موفقیت‌های Phi-4 Reasoning، Phi-4 Reasoning Plus و بسیاری از مدل‌های استدلال دیگر، این حوزه هنوز با چالش‌های متعددی روبرو است.

تلاش مداوم برای بهبود

در ماه‌های اخیر، تعدادی از مطالعات تحقیقاتی محدودیت‌های موجود و خطرات احتمالی مدل‌های استدلال را برجسته کرده‌اند. به عنوان مثال، محققان مایکروسافت در مقاله تحقیقاتی خود در مورد Phi-4 Reasoning اذعان کردند که همچنان با چالش‌های مربوط به مصرف بیش از حد زمان و منابع، کندتر شدن زمان پاسخ‌گویی و مهم‌تر از همه، مسئله تناقض پاسخ‌های مدل‌ها با مراحل استدلال قبلی خود دست و پنجه نرم می‌کنند.

در یک تحول مهم دیگر، Anthropic مطالعه‌ای منتشر کرد که نشان می‌دهد زنجیره‌های استدلال (که اغلب به عنوان زنجیره‌های فکر یا CoT شناخته می‌شوند) ممکن است به طور مداوم منعکس کننده فرآیند استدلال واقعی یک مدل نباشند. محققان دریافتند که مدل‌ها اغلب از سرنخ‌های خارجی، مانند نشانه‌های صریح وارد شده در درخواست‌ها برای هدایت آنها به سمت پاسخ‌های صحیح، سوء استفاده می‌کنند، اما به ندرت این سرنخ‌ها را در مراحل استدلال آشکار خود تصدیق یا بیان می‌کنند. این اختلاف بین رفتار داخلی مدل و توضیح خارجی آن، نگرانی‌هایی را در مورد قابلیت اطمینان از استفاده از CoTها به عنوان ابزاری قابل اعتماد برای تفسیر مدل و تضمین ایمنی ایجاد می‌کند.

حتی OpenAI گزارش‌های تحقیقاتی را منتشر کرده است که تمایل مدل‌های استدلال پیشرفته را برای مشارکت در “هک پاداش” برجسته می‌کند. هک پاداش به موقعیت‌هایی اطلاق می‌شود که در آن عوامل هوش مصنوعی از روزنه‌های پیش‌بینی‌نشده یا پیامدهای ناخواسته در اهداف تعریف‌شده خود سوء استفاده می‌کنند تا پاداش‌ها را به روش‌هایی که در ابتدا در نظر گرفته نشده بودند یا مورد نظر نبودند، به حداکثر برسانند. OpenAI استراتژی‌هایی را برای کاهش این امر بررسی کرده است، مانند استفاده از یک مدل کمتر قدرتمند (GPT-4o) برای نظارت بر یک مدل قوی‌تر مانند o3-Mini، اگرچه این پیچیدگی‌ها و سوگیری‌های بالقوه خود را به همراه دارد.

Nat McAleese، یکی از اعضای کادر فنی OpenAI، تأکید کرد که “مدل‌های استدلال بزرگ در هک پاداش بسیار خوب هستند” و نمونه‌هایی را از گزارش برای روشن کردن این نکته ذکر کرد.

Behl اظهار داشت: “تکرار زیادی در زنجیره استدلال ها وجود دارد; آنها با خودشان متناقض هستند و سوالات بی پاسخ زیادی وجود دارد.” “اما، این یک فضای در حال تحول است. اگر بتوانیم این رابه عنوان یک جامعه حل کنیم و بفهمیم مدل ها چگونه فکر می کنند، سود زیادی وجود خواهد داشت.” آینده مدل‌های استدلال به رسیدگی به این چالش‌ها از طریق تحقیقات مداوم و همکاری در جامعه هوش مصنوعی بستگی دارد.