معرفی موون و مونلایت بهینه‌سازی مدلهای بزرگ

جستجوی کارایی در آموزش مدل‌های زبانی بزرگ مقیاس

پیگیری بی‌وقفه برای مدل‌های زبانی بزرگ‌تر و تواناتر، نیازی مبرم را به همراه داشته است: کارایی. آموزش این غول‌ها نه تنها به قدرت محاسباتی خام، بلکه به تکنیک‌های پیچیده‌ای نیاز دارد که بتوانند بیشترین کارایی را از هر وات و هر ثانیه استخراج کنند. الگوریتم‌های بهینه‌سازی، موتورهایی که فرآیند یادگیری را هدایت می‌کنند، کاملاً حیاتی هستند. آنها تعیین می‌کنند که یک مدل با میلیاردها یا حتی تریلیون‌ها پارامتر با چه سرعتی و چقدر موثر می‌تواند به حالت عملکرد بهینه همگرا شود. در حالی که بهینه‌سازهایی مانند AdamW به اسب‌های کاری صنعت تبدیل شده‌اند، عطش آنها برای تنظیم دقیق ابرپارامترها و اشتهای سیری‌ناپذیر آنها برای منابع محاسباتی، جستجو برای جایگزین‌های ساده‌تر را تحریک کرده است. هدف نهایی؟ بهینه‌سازی که پایداری آموزشی مستحکم را ارائه می‌دهد و در عین حال بار محاسباتی را به شدت کاهش می‌دهد.

محدودیت‌های تکنیک‌های بهینه‌سازی موجود

چالش اصلی در آموزش مدل‌های زبانی عظیم در مقیاس عظیم نیازهای محاسباتی نهفته است. با رشد مدل‌ها، تعداد پارامترهایی که باید با هر تکرار به‌روزرسانی شوند، به شدت افزایش می‌یابد. بسیاری از بهینه‌سازهای موجود، در حالی که در تنظیمات کوچک‌تر موثر هستند، تحت این فشار عظیم شروع به لغزش می‌کنند. آنها کارایی کمتری پیدا می‌کنند و نیاز به تغییر و تنظیم مداوم دارند که زمان‌بندی آموزش را طولانی می‌کند. علاوه بر این، مشکلات پایداری می‌توانند به وجود بیایند و به صورت به‌روزرسانی‌های نامنظم ظاهر شوند که عملکرد مدل را کاهش می‌دهند. بنابراین، یک راه‌حل واقعاً مؤثر باید هم کارایی و هم پایداری را مورد توجه قرار دهد و از آموزش روان و قابل اعتماد بدون نیاز به توان محاسباتی گزاف یا ساعت‌های بی‌پایان تنظیمات دستی پارامترها اطمینان حاصل کند.

به عنوان مثال، بهینه‌سازهای پرکاربرد Adam و AdamW، برای تنظیم دقیق عملکرد مدل، به نرخ‌های یادگیری تطبیقی و کاهش وزن متکی هستند. این روش‌ها ارزش خود را در کاربردهای مختلفی ثابت کرده‌اند. با این حال، اثربخشی آنها با افزایش مقیاس مدل‌ها کاهش می‌یابد. سربار محاسباتی مرتبط با این بهینه‌سازها به طور چشمگیری افزایش می‌یابد و آنها را برای تلاش‌های آموزشی در مقیاس واقعاً بزرگ ناکارآمد می‌کند. این امر باعث شده است که یک تلاش تحقیقاتی پر جنب و جوش بر شناسایی و توسعه بهینه‌سازهای جایگزین متمرکز شود. این رویکردهای جدید با هدف ارائه عملکرد و کارایی برتر، در حالت ایده‌آل نیاز به تنظیم پر زحمت ابرپارامترها را از بین می‌برند و در عین حال به نتایج پایدار و مقیاس‌پذیر دست می‌یابند.

Muon: بهینه‌سازی جدید طراحی شده برای مقیاس‌پذیری

محققان Moonshot AI، با همکاری UCLA، Muon را معرفی کردند، بهینه‌سازی که به طور خاص برای غلبه بر محدودیت‌هایی که روش‌های موجود را در سناریوهای آموزشی در مقیاس بزرگ گرفتار می‌کنند، مهندسی شده است. در حالی که Muon در ابتدا عملکرد چشمگیری را در مدل‌های مقیاس کوچک‌تر نشان داد، هنگام افزایش مقیاس برای مقابله با غول‌های دنیای مدل‌های زبانی با موانعی روبرو شد. برای رفع این چالش‌ها، محققان دو تکنیک اساسی را پیاده‌سازی کردند.

اول، آنها کاهش وزن را ترکیب کردند، یک تکنیک تنظیم که به جلوگیری از بیش‌برازش و افزایش پایداری آموزش کمک می‌کند. دوم، آنها به‌روزرسانی‌های ریشه میانگین مربعات (RMS) سازگار را معرفی کردند. این تضمین می‌کند که تنظیمات به طور یکنواخت در تمام پارامترها، صرف نظر از بزرگی آنها، اعمال می‌شود. این یکنواختی برای حفظ یادگیری متعادل در فضای پارامتر وسیع یک مدل زبانی بزرگ بسیار مهم است. این پیشرفت‌ها Muon را قادر می‌سازد تا بدون نیاز به تنظیم گسترده ابرپارامترها، به طور موثر عمل کند. این آمادگی “خارج از جعبه” آن را به یک انتخاب قانع کننده برای آموزش مدل‌های در مقیاس بزرگ تبدیل می‌کند و به طور قابل توجهی سربار راه‌اندازی و پیکربندی را کاهش می‌دهد.

Moonlight: مهار قدرت Muon در یک مدل Mixture-of-Experts

با تکیه بر پیشرفت‌های تجسم یافته در Muon، محققان Moonlight را توسعه دادند، یک مدل Mixture-of-Experts (MoE). مونلایت در دو پیکربندی موجود است: یک نسخه 3 میلیارد پارامتری و یک نسخه 16 میلیارد پارامتری بزرگتر. هر دو بر روی یک مجموعه داده عظیم شامل 5.7 تریلیون توکن آموزش داده شدند. مونلایت از Muon برای بهینه‌سازی عملکرد خود و در عین حال به حداقل رساندن هزینه‌های محاسباتی استفاده می‌کند.

برای افزایش بیشتر کارایی، یک نسخه توزیع شده از Muon توسعه داده شد که از یک استراتژی بهینه‌سازی به سبک ZeRO-1 استفاده می‌کند. این رویکرد با توزیع حالت بهینه‌ساز در چندین دستگاه، کارایی حافظه را به طور قابل توجهی بهبود می‌بخشد. همچنین سربار ارتباطی را به حداقل می‌رساند، که یک عامل حیاتی در آموزش توزیع شده در مقیاس بزرگ است. این اصلاحات منجر به یک فرآیند آموزشی فوق‌العاده پایدار شد. مونلایت با ردپای محاسباتی به طور قابل توجهی کمتر در مقایسه با مدل‌های قبلی در مقیاس مشابه، به عملکرد پیشرفته‌ای دست یافت.

محک عملکرد: Moonlight از رقبا پیشی می‌گیرد

ارزیابی‌های دقیق عملکرد نشان داده‌اند که Moonlight به طور مداوم از مدل‌های پیشرفته موجود در مقیاس مشابه بهتر عمل می‌کند. این شامل مدل‌های معتبری مانند LLAMA3-3B و Qwen2.5-3B می‌شود. آزمایش‌های قانون مقیاس‌بندی، که رابطه بین اندازه مدل، داده‌ها و عملکرد را بررسی می‌کنند، مزیت قابل توجه Muon را نشان داد: تقریباً دو برابر کارآمدتر از Adam از نظر نمونه است. این به معنای کاهش قابل توجهی در تعداد عملیات ممیز شناور (FLOP) مورد نیاز برای آموزش است، در حالی که همچنان به نتایج رقابتی دست می‌یابد.

توانایی Moonlight در طیف گسترده‌ای از وظایف محک گسترش می‌یابد. در محک MMLU (Massive Multitask Language Understanding)، امتیاز چشمگیر 70.0 را به دست آورد که به طور قابل توجهی از LLAMA3-3B (54.75) و Qwen2.5-3B (65.6) پیشی گرفت. در محک‌های تخصصی‌تر، مانند MMLU-pro و BBH (Big-Bench Hard)، مونلایت به ترتیب امتیازهای 42.4 و 65.2 را به دست آورد که قابلیت‌های پیشرفته آن را بیشتر برجسته می‌کند. این مدل همچنین عملکرد قوی را در TriviaQA، یک محک پرسش و پاسخ، با امتیاز 66.3 نشان داد و از تمام مدل‌های قابل مقایسه بهتر عمل کرد.

تولید کد و استدلال ریاضی: نشان دادن تطبیق‌پذیری

قابلیت‌های Moonlight فراتر از درک زبان طبیعی و پرسش و پاسخ است. همچنین در وظایف مرتبط با کد عالی است. در HumanEval، یک محک طراحی شده برای ارزیابی توانایی‌های تولید کد، امتیاز 48.1 را به دست آورد. در MBPP (Mostly Basic Programming Problems)، یک محک دیگر تولید کد، امتیاز 63.8 را کسب کرد. این نتایج نشان دهنده مهارت آن در تولید کد کاربردی است و از سایر مدل‌ها با تعداد پارامترهای مشابه بهتر عمل می‌کند.

در حوزه استدلال ریاضی، Moonlight قابلیت‌های برتر حل مسئله خود را به نمایش گذاشت. در GSM8K (Grade School Math 8K)، یک محک متشکل از مسائل کلمه‌ای ریاضی در سطح مدرسه ابتدایی، امتیاز 77.4 را به دست آورد. در MATH، یک محک چالش‌برانگیزتر که بر مسائل ریاضی پیشرفته تمرکز دارد، امتیاز 45.3 را کسب کرد. این نتایج بر توانایی Moonlight در مقابله با وظایف پیچیده استدلال ریاضی تأکید می‌کند.

توانایی چند زبانه: برتری در وظایف زبان چینی

قابلیت‌های Moonlight به زبان انگلیسی محدود نمی‌شود. همچنین عملکرد قوی را در وظایف زبان چینی نشان می‌دهد. در C-Eval، یک مجموعه ارزیابی جامع چینی، امتیاز 77.2 را به دست آورد. در CMMLU، یک محک چینی دیگر که بر درک زبان چند وظیفه‌ای تمرکز دارد، امتیاز 78.2 را به دست آورد. این نتایج اثربخشی Moonlight را در پردازش چند زبانه نشان می‌دهد و توانایی آن را در مدیریت تفاوت‌های ظریف زبانی متنوع به نمایش می‌گذارد. عملکرد قوی و مداوم این مدل در چنین طیف متنوعی از محک‌ها، شواهد قانع کننده‌ای از توانایی تعمیم قوی آن ارائه می‌دهد. این مدل می‌تواند در وظایف مختلف سازگار شود و عالی عمل کند و در عین حال هزینه محاسباتی به طور قابل توجهی کمتری را در مقایسه با مدل‌های قبلی خود حفظ کند.

پرداختن به چالش‌های مقیاس‌پذیری و تقویت تحقیقات آینده

نوآوری‌های تجسم یافته در Muon مستقیماً به چالش‌های حیاتی مقیاس‌پذیری می‌پردازند که مدت‌هاست آموزش مدل‌های زبانی بزرگ را گرفتار کرده‌اند. با ترکیب کاهش وزن و به‌روزرسانی‌های RMS سازگار، محققان هم پایداری و هم کارایی را به طور قابل توجهی افزایش داده‌اند. این امر Moonlight را قادر ساخته است تا مرزهای عملکرد را جابجا کند و در عین حال هزینه‌های آموزش را کاهش دهد. این پیشرفت‌ها موقعیت Muon را به عنوان یک جایگزین قانع کننده برای بهینه‌سازهای مبتنی بر Adam تثبیت می‌کند. این بهینه‌ساز کارایی نمونه برتری را ارائه می‌دهد بدون اینکه نیازمند تنظیم گسترده‌ای باشد که معمولاً با Adam و انواع آن مرتبط است.

علاوه بر این، منبع باز کردن Muon و Moonlight نشان دهنده یک کمک قابل توجه به جامعه تحقیقاتی است. با در دسترس قرار دادن رایگان این ابزارها، محققان در حال تقویت اکتشاف و توسعه بیشتر روش‌های آموزشی کارآمد برای مدل‌های در مقیاس بزرگ هستند. این رویکرد باز، همکاری را تشویق می‌کند و پیشرفت در این زمینه را تسریع می‌بخشد و راه را برای مدل‌های زبانی قدرتمندتر و در دسترس‌تر در آینده هموار می‌کند. اصلاح مداوم بهینه‌سازهایی مانند Muon فقط در مورد ساخت مدل‌های بزرگ‌تر نیست. بلکه در مورد ساخت هوشمندانه‌تر آنها، استفاده بهینه از منابع موجود و دموکراتیزه کردن دسترسی به لبه برش تحقیقات هوش مصنوعی است.