جستجوی کارایی در آموزش مدلهای زبانی بزرگ مقیاس
پیگیری بیوقفه برای مدلهای زبانی بزرگتر و تواناتر، نیازی مبرم را به همراه داشته است: کارایی. آموزش این غولها نه تنها به قدرت محاسباتی خام، بلکه به تکنیکهای پیچیدهای نیاز دارد که بتوانند بیشترین کارایی را از هر وات و هر ثانیه استخراج کنند. الگوریتمهای بهینهسازی، موتورهایی که فرآیند یادگیری را هدایت میکنند، کاملاً حیاتی هستند. آنها تعیین میکنند که یک مدل با میلیاردها یا حتی تریلیونها پارامتر با چه سرعتی و چقدر موثر میتواند به حالت عملکرد بهینه همگرا شود. در حالی که بهینهسازهایی مانند AdamW به اسبهای کاری صنعت تبدیل شدهاند، عطش آنها برای تنظیم دقیق ابرپارامترها و اشتهای سیریناپذیر آنها برای منابع محاسباتی، جستجو برای جایگزینهای سادهتر را تحریک کرده است. هدف نهایی؟ بهینهسازی که پایداری آموزشی مستحکم را ارائه میدهد و در عین حال بار محاسباتی را به شدت کاهش میدهد.
محدودیتهای تکنیکهای بهینهسازی موجود
چالش اصلی در آموزش مدلهای زبانی عظیم در مقیاس عظیم نیازهای محاسباتی نهفته است. با رشد مدلها، تعداد پارامترهایی که باید با هر تکرار بهروزرسانی شوند، به شدت افزایش مییابد. بسیاری از بهینهسازهای موجود، در حالی که در تنظیمات کوچکتر موثر هستند، تحت این فشار عظیم شروع به لغزش میکنند. آنها کارایی کمتری پیدا میکنند و نیاز به تغییر و تنظیم مداوم دارند که زمانبندی آموزش را طولانی میکند. علاوه بر این، مشکلات پایداری میتوانند به وجود بیایند و به صورت بهروزرسانیهای نامنظم ظاهر شوند که عملکرد مدل را کاهش میدهند. بنابراین، یک راهحل واقعاً مؤثر باید هم کارایی و هم پایداری را مورد توجه قرار دهد و از آموزش روان و قابل اعتماد بدون نیاز به توان محاسباتی گزاف یا ساعتهای بیپایان تنظیمات دستی پارامترها اطمینان حاصل کند.
به عنوان مثال، بهینهسازهای پرکاربرد Adam و AdamW، برای تنظیم دقیق عملکرد مدل، به نرخهای یادگیری تطبیقی و کاهش وزن متکی هستند. این روشها ارزش خود را در کاربردهای مختلفی ثابت کردهاند. با این حال، اثربخشی آنها با افزایش مقیاس مدلها کاهش مییابد. سربار محاسباتی مرتبط با این بهینهسازها به طور چشمگیری افزایش مییابد و آنها را برای تلاشهای آموزشی در مقیاس واقعاً بزرگ ناکارآمد میکند. این امر باعث شده است که یک تلاش تحقیقاتی پر جنب و جوش بر شناسایی و توسعه بهینهسازهای جایگزین متمرکز شود. این رویکردهای جدید با هدف ارائه عملکرد و کارایی برتر، در حالت ایدهآل نیاز به تنظیم پر زحمت ابرپارامترها را از بین میبرند و در عین حال به نتایج پایدار و مقیاسپذیر دست مییابند.
Muon: بهینهسازی جدید طراحی شده برای مقیاسپذیری
محققان Moonshot AI، با همکاری UCLA، Muon را معرفی کردند، بهینهسازی که به طور خاص برای غلبه بر محدودیتهایی که روشهای موجود را در سناریوهای آموزشی در مقیاس بزرگ گرفتار میکنند، مهندسی شده است. در حالی که Muon در ابتدا عملکرد چشمگیری را در مدلهای مقیاس کوچکتر نشان داد، هنگام افزایش مقیاس برای مقابله با غولهای دنیای مدلهای زبانی با موانعی روبرو شد. برای رفع این چالشها، محققان دو تکنیک اساسی را پیادهسازی کردند.
اول، آنها کاهش وزن را ترکیب کردند، یک تکنیک تنظیم که به جلوگیری از بیشبرازش و افزایش پایداری آموزش کمک میکند. دوم، آنها بهروزرسانیهای ریشه میانگین مربعات (RMS) سازگار را معرفی کردند. این تضمین میکند که تنظیمات به طور یکنواخت در تمام پارامترها، صرف نظر از بزرگی آنها، اعمال میشود. این یکنواختی برای حفظ یادگیری متعادل در فضای پارامتر وسیع یک مدل زبانی بزرگ بسیار مهم است. این پیشرفتها Muon را قادر میسازد تا بدون نیاز به تنظیم گسترده ابرپارامترها، به طور موثر عمل کند. این آمادگی “خارج از جعبه” آن را به یک انتخاب قانع کننده برای آموزش مدلهای در مقیاس بزرگ تبدیل میکند و به طور قابل توجهی سربار راهاندازی و پیکربندی را کاهش میدهد.
Moonlight: مهار قدرت Muon در یک مدل Mixture-of-Experts
با تکیه بر پیشرفتهای تجسم یافته در Muon، محققان Moonlight را توسعه دادند، یک مدل Mixture-of-Experts (MoE). مونلایت در دو پیکربندی موجود است: یک نسخه 3 میلیارد پارامتری و یک نسخه 16 میلیارد پارامتری بزرگتر. هر دو بر روی یک مجموعه داده عظیم شامل 5.7 تریلیون توکن آموزش داده شدند. مونلایت از Muon برای بهینهسازی عملکرد خود و در عین حال به حداقل رساندن هزینههای محاسباتی استفاده میکند.
برای افزایش بیشتر کارایی، یک نسخه توزیع شده از Muon توسعه داده شد که از یک استراتژی بهینهسازی به سبک ZeRO-1 استفاده میکند. این رویکرد با توزیع حالت بهینهساز در چندین دستگاه، کارایی حافظه را به طور قابل توجهی بهبود میبخشد. همچنین سربار ارتباطی را به حداقل میرساند، که یک عامل حیاتی در آموزش توزیع شده در مقیاس بزرگ است. این اصلاحات منجر به یک فرآیند آموزشی فوقالعاده پایدار شد. مونلایت با ردپای محاسباتی به طور قابل توجهی کمتر در مقایسه با مدلهای قبلی در مقیاس مشابه، به عملکرد پیشرفتهای دست یافت.
محک عملکرد: Moonlight از رقبا پیشی میگیرد
ارزیابیهای دقیق عملکرد نشان دادهاند که Moonlight به طور مداوم از مدلهای پیشرفته موجود در مقیاس مشابه بهتر عمل میکند. این شامل مدلهای معتبری مانند LLAMA3-3B و Qwen2.5-3B میشود. آزمایشهای قانون مقیاسبندی، که رابطه بین اندازه مدل، دادهها و عملکرد را بررسی میکنند، مزیت قابل توجه Muon را نشان داد: تقریباً دو برابر کارآمدتر از Adam از نظر نمونه است. این به معنای کاهش قابل توجهی در تعداد عملیات ممیز شناور (FLOP) مورد نیاز برای آموزش است، در حالی که همچنان به نتایج رقابتی دست مییابد.
توانایی Moonlight در طیف گستردهای از وظایف محک گسترش مییابد. در محک MMLU (Massive Multitask Language Understanding)، امتیاز چشمگیر 70.0 را به دست آورد که به طور قابل توجهی از LLAMA3-3B (54.75) و Qwen2.5-3B (65.6) پیشی گرفت. در محکهای تخصصیتر، مانند MMLU-pro و BBH (Big-Bench Hard)، مونلایت به ترتیب امتیازهای 42.4 و 65.2 را به دست آورد که قابلیتهای پیشرفته آن را بیشتر برجسته میکند. این مدل همچنین عملکرد قوی را در TriviaQA، یک محک پرسش و پاسخ، با امتیاز 66.3 نشان داد و از تمام مدلهای قابل مقایسه بهتر عمل کرد.
تولید کد و استدلال ریاضی: نشان دادن تطبیقپذیری
قابلیتهای Moonlight فراتر از درک زبان طبیعی و پرسش و پاسخ است. همچنین در وظایف مرتبط با کد عالی است. در HumanEval، یک محک طراحی شده برای ارزیابی تواناییهای تولید کد، امتیاز 48.1 را به دست آورد. در MBPP (Mostly Basic Programming Problems)، یک محک دیگر تولید کد، امتیاز 63.8 را کسب کرد. این نتایج نشان دهنده مهارت آن در تولید کد کاربردی است و از سایر مدلها با تعداد پارامترهای مشابه بهتر عمل میکند.
در حوزه استدلال ریاضی، Moonlight قابلیتهای برتر حل مسئله خود را به نمایش گذاشت. در GSM8K (Grade School Math 8K)، یک محک متشکل از مسائل کلمهای ریاضی در سطح مدرسه ابتدایی، امتیاز 77.4 را به دست آورد. در MATH، یک محک چالشبرانگیزتر که بر مسائل ریاضی پیشرفته تمرکز دارد، امتیاز 45.3 را کسب کرد. این نتایج بر توانایی Moonlight در مقابله با وظایف پیچیده استدلال ریاضی تأکید میکند.
توانایی چند زبانه: برتری در وظایف زبان چینی
قابلیتهای Moonlight به زبان انگلیسی محدود نمیشود. همچنین عملکرد قوی را در وظایف زبان چینی نشان میدهد. در C-Eval، یک مجموعه ارزیابی جامع چینی، امتیاز 77.2 را به دست آورد. در CMMLU، یک محک چینی دیگر که بر درک زبان چند وظیفهای تمرکز دارد، امتیاز 78.2 را به دست آورد. این نتایج اثربخشی Moonlight را در پردازش چند زبانه نشان میدهد و توانایی آن را در مدیریت تفاوتهای ظریف زبانی متنوع به نمایش میگذارد. عملکرد قوی و مداوم این مدل در چنین طیف متنوعی از محکها، شواهد قانع کنندهای از توانایی تعمیم قوی آن ارائه میدهد. این مدل میتواند در وظایف مختلف سازگار شود و عالی عمل کند و در عین حال هزینه محاسباتی به طور قابل توجهی کمتری را در مقایسه با مدلهای قبلی خود حفظ کند.
پرداختن به چالشهای مقیاسپذیری و تقویت تحقیقات آینده
نوآوریهای تجسم یافته در Muon مستقیماً به چالشهای حیاتی مقیاسپذیری میپردازند که مدتهاست آموزش مدلهای زبانی بزرگ را گرفتار کردهاند. با ترکیب کاهش وزن و بهروزرسانیهای RMS سازگار، محققان هم پایداری و هم کارایی را به طور قابل توجهی افزایش دادهاند. این امر Moonlight را قادر ساخته است تا مرزهای عملکرد را جابجا کند و در عین حال هزینههای آموزش را کاهش دهد. این پیشرفتها موقعیت Muon را به عنوان یک جایگزین قانع کننده برای بهینهسازهای مبتنی بر Adam تثبیت میکند. این بهینهساز کارایی نمونه برتری را ارائه میدهد بدون اینکه نیازمند تنظیم گستردهای باشد که معمولاً با Adam و انواع آن مرتبط است.
علاوه بر این، منبع باز کردن Muon و Moonlight نشان دهنده یک کمک قابل توجه به جامعه تحقیقاتی است. با در دسترس قرار دادن رایگان این ابزارها، محققان در حال تقویت اکتشاف و توسعه بیشتر روشهای آموزشی کارآمد برای مدلهای در مقیاس بزرگ هستند. این رویکرد باز، همکاری را تشویق میکند و پیشرفت در این زمینه را تسریع میبخشد و راه را برای مدلهای زبانی قدرتمندتر و در دسترستر در آینده هموار میکند. اصلاح مداوم بهینهسازهایی مانند Muon فقط در مورد ساخت مدلهای بزرگتر نیست. بلکه در مورد ساخت هوشمندانهتر آنها، استفاده بهینه از منابع موجود و دموکراتیزه کردن دسترسی به لبه برش تحقیقات هوش مصنوعی است.