Muon dan Moonlight Model Bahasa Besar

Pencarian Efisiensi dalam Pelatihan Model Bahasa Skala Besar

Pengejaran model bahasa yang semakin besar dan semakin mumpuni telah membawa kebutuhan mendesak: efisiensi. Melatih raksasa-raksasa ini tidak hanya membutuhkan kekuatan komputasi mentah, tetapi juga teknik canggih yang dapat memeras kinerja maksimal dari setiap watt dan setiap detik. Algoritma optimasi, mesin yang mendorong proses pembelajaran, sangatlah penting. Algoritma ini menentukan seberapa cepat, dan seberapa efektif, sebuah model dengan miliaran atau bahkan triliunan parameter dapat mencapai keadaan kinerja optimal. Meskipun pengoptimal seperti AdamW telah menjadi andalan industri, kehausan mereka akan penyetelan hyperparameter yang cermat dan selera rakus akan sumber daya komputasi telah memacu pencarian alternatif yang lebih efisien. Tujuan utamanya? Sebuah pengoptimal yang memberikan stabilitas pelatihan yang kokoh sekaligus secara drastis mengurangi beban komputasi.

Keterbatasan Teknik Optimasi yang Ada

Tantangan utama dalam melatih model bahasa kolosal terletak pada skala tuntutan komputasi. Seiring pertumbuhan model, jumlah parameter yang perlu diperbarui dengan setiap iterasi meledak. Banyak pengoptimal yang ada, meskipun efektif dalam pengaturan yang lebih kecil, mulai goyah di bawah tekanan besar ini. Mereka menjadi kurang efisien, membutuhkan penyesuaian dan penyetelan konstan yang memperpanjang jadwal pelatihan. Selain itu, masalah stabilitas dapat muncul, bermanifestasi sebagai pembaruan yang tidak menentu yang menurunkan kinerja model. Oleh karena itu, solusi yang benar-benar efektif harus mengatasi efisiensi dan stabilitas, memastikan pelatihan yang lancar dan andal tanpa memerlukan daya komputasi yang sangat besar atau penyesuaian parameter manual yang tak ada habisnya.

Pengoptimal Adam dan AdamW yang banyak digunakan, misalnya, mengandalkan tingkat pembelajaran adaptif dan penurunan bobot untuk menyempurnakan kinerja model. Metode ini telah membuktikan nilainya dalam berbagai aplikasi. Namun, efektivitasnya berkurang seiring dengan peningkatan skala model. Overhead komputasi yang terkait dengan pengoptimal ini meningkat secara dramatis, menjadikannya tidak efisien untuk upaya pelatihan skala besar yang sebenarnya. Hal ini telah memicu upaya penelitian yang bersemangat yang berfokus pada identifikasi dan pengembangan pengoptimal alternatif. Pendekatan baru ini bertujuan untuk memberikan kinerja dan efisiensi yang unggul, idealnya menghilangkan kebutuhan akan penyetelan hyperparameter yang melelahkan sambil mencapai hasil yang stabil dan terukur.

Muon: Pengoptimal Baru yang Dirancang untuk Skalabilitas

Para peneliti di Moonshot AI, bekerja sama dengan UCLA, telah memperkenalkan Muon, sebuah pengoptimal yang dirancang khusus untuk mengatasi keterbatasan yang mengganggu metode yang ada dalam skenario pelatihan skala besar. Sementara Muon awalnya menunjukkan kinerja yang mengesankan dalam model skala kecil, ia menemui rintangan ketika ditingkatkan untuk mengatasi raksasa dunia model bahasa. Untuk mengatasi tantangan ini, para peneliti menerapkan dua teknik penting.

Pertama, mereka menggabungkan weight decay, teknik regularisasi yang membantu mencegah overfitting dan meningkatkan stabilitas pelatihan. Kedua, mereka memperkenalkan pembaruan root mean square (RMS) yang konsisten. Ini memastikan bahwa penyesuaian diterapkan secara seragam di semua parameter, terlepas dari besarnya. Keseragaman ini sangat penting untuk menjaga pembelajaran yang seimbang di seluruh ruang parameter yang luas dari model bahasa yang besar. Peningkatan ini memberdayakan Muon untuk beroperasi secara efisien tanpa memerlukan penyetelan hyperparameter yang ekstensif. Kesiapan “out-of-the-box” ini menjadikannya pilihan yang menarik untuk melatih model skala besar, secara signifikan mengurangi overhead pengaturan dan konfigurasi.

Moonlight: Memanfaatkan Kekuatan Muon dalam Model Mixture-of-Experts

Membangun di atas kemajuan yang diwujudkan dalam Muon, para peneliti mengembangkan Moonlight, model Mixture-of-Experts (MoE). Moonlight tersedia dalam dua konfigurasi: versi 3 miliar parameter dan versi 16 miliar parameter yang lebih substansial. Keduanya dilatih pada dataset besar yang terdiri dari 5,7 triliun token yang mengejutkan. Moonlight memanfaatkan Muon untuk mengoptimalkan kinerjanya sekaligus meminimalkan biaya komputasi.

Untuk lebih meningkatkan efisiensi, versi terdistribusi dari Muon dikembangkan, menggunakan strategi optimasi gaya ZeRO-1. Pendekatan ini secara signifikan meningkatkan efisiensi memori dengan mendistribusikan status pengoptimal di beberapa perangkat. Ini juga meminimalkan overhead komunikasi, faktor penting dalam pelatihan terdistribusi skala besar. Penyempurnaan ini menghasilkan proses pelatihan yang sangat stabil. Moonlight mencapai kinerja mutakhir dengan jejak komputasi yang jauh lebih rendah dibandingkan dengan model sebelumnya dengan skala yang sama.

Pembandingan Kinerja: Moonlight Mengungguli Kompetisi

Evaluasi kinerja yang ketat telah menunjukkan bahwa Moonlight secara konsisten mengungguli model-model mutakhir yang ada dengan skala yang sebanding. Ini termasuk model-model yang dihormati seperti LLAMA3-3B dan Qwen2.5-3B. Eksperimen hukum penskalaan, yang mengeksplorasi hubungan antara ukuran model, data, dan kinerja, mengungkapkan keuntungan mencolok dari Muon: kira-kira dua kali lebih efisien sampel daripada Adam. Ini berarti pengurangan substansial dalam jumlah operasi floating-point (FLOP) yang diperlukan untuk pelatihan, sambil tetap mencapai hasil yang kompetitif.

Kecakapan Moonlight meluas di berbagai tugas benchmark. Dalam benchmark MMLU (Massive Multitask Language Understanding), ia mencapai skor yang mengesankan yaitu 70,0, secara signifikan melampaui LLAMA3-3B (54,75) dan Qwen2.5-3B (65,6). Dalam benchmark yang lebih khusus, seperti MMLU-pro dan BBH (Big-Bench Hard), Moonlight memperoleh skor masing-masing 42,4 dan 65,2, yang selanjutnya menyoroti kemampuannya yang ditingkatkan. Model ini juga menunjukkan kinerja yang kuat dalam TriviaQA, benchmark tanya jawab, dengan skor 66,3, mengungguli semua model yang sebanding.

Pembuatan Kode dan Penalaran Matematika: Menunjukkan Keserbagunaan

Kemampuan Moonlight melampaui pemahaman bahasa alami dan tanya jawab. Ia juga unggul dalam tugas-tugas yang berhubungan dengan kode. Dalam HumanEval, benchmark yang dirancang untuk mengevaluasi kemampuan pembuatan kode, ia mencapai skor 48,1. Dalam MBPP (Mostly Basic Programming Problems), benchmark pembuatan kode lainnya, ia mencetak skor 63,8. Hasil ini menunjukkan kemahirannya dalam menghasilkan kode fungsional, mengungguli model lain dengan jumlah parameter yang serupa.

Dalam bidang penalaran matematika, Moonlight menunjukkan kemampuan pemecahan masalah yang unggul. Ia mencapai skor 77,4 dalam GSM8K (Grade School Math 8K), benchmark yang terdiri dari soal cerita matematika tingkat sekolah dasar. Dalam MATH, benchmark yang lebih menantang yang berfokus pada masalah matematika tingkat lanjut, ia mencetak skor 45,3. Hasil ini menggarisbawahi kemampuan Moonlight untuk mengatasi tugas-tugas penalaran matematika yang kompleks.

Kecakapan Multibahasa: Unggul dalam Tugas Bahasa Mandarin

Kemampuan Moonlight tidak terbatas pada bahasa Inggris. Ia juga menunjukkan kinerja yang kuat dalam tugas-tugas bahasa Mandarin. Dalam C-Eval, rangkaian evaluasi bahasa Mandarin yang komprehensif, ia memperoleh skor 77,2. Dalam CMMLU, benchmark bahasa Mandarin lainnya yang berfokus pada pemahaman bahasa multi-tugas, ia mencapai skor 78,2. Hasil ini menetapkan efektivitas Moonlight dalam pemrosesan multibahasa, menunjukkan kemampuannya untuk menangani beragam nuansa linguistik. Kinerja model yang kuat secara konsisten di berbagai benchmark yang beragam memberikan bukti kuat tentang kemampuan generalisasinya yang kuat. Ia dapat beradaptasi dan unggul dalam berbagai tugas sambil mempertahankan biaya komputasi yang jauh lebih rendah dibandingkan dengan pendahulunya.

Mengatasi Tantangan Skalabilitas dan Mendorong Penelitian Masa Depan

Inovasi yang diwujudkan dalam Muon secara langsung mengatasi tantangan skalabilitas kritis yang telah lama mengganggu pelatihan model bahasa besar. Dengan menggabungkan weight decay dan pembaruan RMS yang konsisten, para peneliti telah secara signifikan meningkatkan stabilitas dan efisiensi. Hal ini telah memungkinkan Moonlight untuk mendorong batas kinerja sekaligus mengurangi biaya pelatihan. Kemajuan ini memperkuat posisi Muon sebagai alternatif yang menarik untuk pengoptimal berbasis Adam. Ia menawarkan efisiensi sampel yang unggul tanpa menuntut penyetelan ekstensif yang biasanya terkait dengan Adam dan variannya.

Selain itu, open-sourcing Muon dan Moonlight merupakan kontribusi yang signifikan bagi komunitas peneliti. Dengan membuat alat-alat ini tersedia secara bebas, para peneliti mendorong eksplorasi dan pengembangan lebih lanjut dari metode pelatihan yang efisien untuk model skala besar. Pendekatan terbuka ini mendorong kolaborasi dan mempercepat kemajuan di lapangan, membuka jalan bagi model bahasa yang lebih kuat dan mudah diakses di masa depan. Penyempurnaan berkelanjutan dari pengoptimal seperti Muon bukan hanya tentang membangun model yang lebih besar; ini tentang membangunnya dengan lebih cerdas, memanfaatkan sumber daya yang tersedia sebaik-baiknya, dan mendemokratisasikan akses ke penelitian AI mutakhir.