Pencarian Kecekapan dalam Latihan Model Bahasa Berskala Besar
Usaha tanpa henti untuk model bahasa yang lebih besar dan lebih berkemampuan telah membawa keperluan mendesak: kecekapan. Melatih model-model raksasa ini memerlukan bukan sahaja kuasa pengkomputeran mentah, tetapi juga teknik-teknik canggih yang dapat memaksimumkan prestasi daripada setiap watt dan setiap saat. Algoritma pengoptimuman, enjin yang memacu proses pembelajaran, adalah sangat kritikal. Algoritma ini menentukan seberapa cepat, dan seberapa berkesan, model dengan berbilion atau bahkan trilion parameter dapat menumpu kepada keadaan prestasi optimum. Walaupun pengoptimum seperti AdamW telah menjadi kuda kerja industri, kehausan mereka untuk penalaan hiperparameter yang teliti dan selera yang rakus untuk sumber pengkomputeran telah mendorong pencarian alternatif yang lebih diperkemas. Matlamat utama? Pengoptimum yang memberikan kestabilan latihan yang kukuh sambil mengurangkan beban pengkomputeran secara drastik.
Batasan Teknik Pengoptimuman Sedia Ada
Cabaran utama dalam melatih model bahasa yang besar terletak pada skala permintaan pengkomputeran yang besar. Apabila model berkembang, bilangan parameter yang perlu dikemas kini dengan setiap lelaran meletup. Banyak pengoptimum sedia ada, walaupun berkesan dalam tetapan yang lebih kecil, mula goyah di bawah tekanan yang besar ini. Mereka menjadi kurang cekap, memerlukan penyesuaian dan penalaan halus yang berterusan yang memanjangkan garis masa latihan. Selain itu, isu kestabilan boleh menyelinap masuk, menjelma sebagai kemas kini yang tidak menentu yang merendahkan prestasi model. Oleh itu, penyelesaian yang benar-benar berkesan mesti menangani kedua-dua kecekapan dan kestabilan, memastikan latihan yang lancar dan boleh dipercayai tanpa memerlukan kuasa pengkomputeran yang terlalu tinggi atau pelarasan parameter manual yang tidak berkesudahan.
Pengoptimum Adam dan AdamW yang digunakan secara meluas, contohnya, bergantung pada kadar pembelajaran adaptif dan pereputan berat untuk memperhalusi prestasi model. Kaedah ini telah membuktikan nilainya dalam pelbagai aplikasi. Walau bagaimanapun, keberkesanannya berkurangan apabila model meningkat. Overhed pengkomputeran yang berkaitan dengan pengoptimum ini meningkat secara mendadak, menjadikannya tidak cekap untuk usaha latihan berskala besar. Ini telah memacu usaha penyelidikan yang bertenaga yang tertumpu pada mengenal pasti dan membangunkan pengoptimum alternatif. Pendekatan baharu ini bertujuan untuk memberikan prestasi dan kecekapan yang unggul, idealnya menghapuskan keperluan untuk penalaan hiperparameter yang susah payah sambil mencapai hasil yang stabil dan berskala.
Muon: Pengoptimum Baharu Direka untuk Kebolehskalaan
Penyelidik di Moonshot AI, dengan kerjasama UCLA, telah memperkenalkan Muon, pengoptimum yang direka khusus untuk mengatasi batasan yang melanda kaedah sedia ada dalam senario latihan berskala besar. Walaupun Muon pada mulanya menunjukkan prestasi yang mengagumkan dalam model berskala lebih kecil, ia menghadapi halangan apabila dipertingkatkan untuk menangani gergasi dunia model bahasa. Untuk menangani cabaran ini, para penyelidik melaksanakan dua teknik penting.
Pertama, mereka menggabungkan pereputan berat, teknik regularisasi yang membantu mencegah pemasangan berlebihan dan meningkatkan kestabilan latihan. Kedua, mereka memperkenalkan kemas kini punca min kuasa dua (RMS) yang konsisten. Ini memastikan pelarasan digunakan secara seragam merentas semua parameter, tanpa mengira magnitudnya. Keseragaman ini adalah penting untuk mengekalkan pembelajaran yang seimbang merentas ruang parameter yang luas bagi model bahasa yang besar. Peningkatan ini memperkasakan Muon untuk beroperasi dengan cekap tanpa memerlukan penalaan hiperparameter yang meluas. Kesediaan “di luar kotak” ini menjadikannya pilihan yang menarik untuk melatih model berskala besar, dengan ketara mengurangkan overhed persediaan dan konfigurasi.
Moonlight: Memanfaatkan Kuasa Muon dalam Model Campuran Pakar
Membina kemajuan yang terkandung dalam Muon, para penyelidik membangunkan Moonlight, model Campuran Pakar (MoE). Moonlight tersedia dalam dua konfigurasi: versi 3 bilion parameter dan versi 16 bilion parameter yang lebih besar. Kedua-duanya dilatih pada set data besar yang terdiri daripada 5.7 trilion token yang mengejutkan. Moonlight memanfaatkan Muon untuk mengoptimumkan prestasinya sambil meminimumkan kos pengkomputeran secara serentak.
Untuk meningkatkan lagi kecekapan, versi teragih Muon telah dibangunkan, menggunakan strategi pengoptimuman gaya ZeRO-1. Pendekatan ini meningkatkan kecekapan memori dengan ketara dengan mengagihkan keadaan pengoptimum merentas berbilang peranti. Ia juga meminimumkan overhed komunikasi, faktor kritikal dalam latihan teragih berskala besar. Penambahbaikan ini memuncak dalam proses latihan yang sangat stabil. Moonlight mencapai prestasi terkini dengan jejak pengkomputeran yang jauh lebih rendah berbanding model sebelumnya yang berskala serupa.
Penandaarasan Prestasi: Moonlight Mengatasi Persaingan
Penilaian prestasi yang ketat telah menunjukkan bahawa Moonlight secara konsisten mengatasi model terkini sedia ada yang berskala setanding. Ini termasuk model yang dihormati seperti LLAMA3-3B dan Qwen2.5-3B. Eksperimen undang-undang penskalaan, yang meneroka hubungan antara saiz model, data dan prestasi, mendedahkan kelebihan ketara Muon: ia adalah kira-kira dua kali lebih cekap sampel daripada Adam. Ini diterjemahkan kepada pengurangan yang ketara dalam bilangan operasi titik terapung (FLOP) yang diperlukan untuk latihan, sambil tetap mencapai keputusan yang kompetitif.
Kehebatan Moonlight melangkaui pelbagai tugas penandaarasan. Dalam penandaarasan MMLU (Massive Multitask Language Understanding), ia mencapai skor 70.0 yang mengagumkan, jauh mengatasi LLAMA3-3B (54.75) dan Qwen2.5-3B (65.6). Dalam penandaarasan yang lebih khusus, seperti MMLU-pro dan BBH (Big-Bench Hard), Moonlight memperoleh skor masing-masing 42.4 dan 65.2, seterusnya menyerlahkan keupayaannya yang dipertingkatkan. Model itu juga menunjukkan prestasi yang kukuh dalam TriviaQA, penandaarasan menjawab soalan, dengan skor 66.3, mengatasi semua model yang setanding.
Penjanaan Kod dan Penaakulan Matematik: Menunjukkan Kepelbagaian
Keupayaan Moonlight melangkaui pemahaman bahasa semula jadi dan menjawab soalan. Ia juga cemerlang dalam tugas berkaitan kod. Dalam HumanEval, penandaarasan yang direka untuk menilai kebolehan penjanaan kod, ia mencapai skor 48.1. Dalam MBPP (Mostly Basic Programming Problems), satu lagi penandaarasan penjanaan kod, ia mendapat skor 63.8. Keputusan ini menunjukkan kecekapan dalam menjana kod berfungsi, mengatasi model lain dengan kiraan parameter yang serupa.
Dalam bidang penaakulan matematik, Moonlight mempamerkan keupayaan penyelesaian masalah yang unggul. Ia mencapai skor 77.4 dalam GSM8K (Grade School Math 8K), penandaarasan yang terdiri daripada masalah perkataan matematik peringkat sekolah rendah. Dalam MATH, penandaarasan yang lebih mencabar yang memfokuskan pada masalah matematik lanjutan, ia mendapat skor 45.3. Keputusan ini menggariskan keupayaan Moonlight untuk menangani tugas penaakulan matematik yang kompleks.
Kehebatan Berbilang Bahasa: Cemerlang dalam Tugas Bahasa Cina
Keupayaan Moonlight tidak terhad kepada bahasa Inggeris. Ia juga menunjukkan prestasi yang kukuh dalam tugas bahasa Cina. Dalam C-Eval, suite penilaian bahasa Cina yang komprehensif, ia memperoleh skor 77.2. Dalam CMMLU, satu lagi penandaarasan bahasa Cina yang memfokuskan pada pemahaman bahasa berbilang tugas, ia mencapai skor 78.2. Keputusan ini membuktikan keberkesanan Moonlight dalam pemprosesan berbilang bahasa, mempamerkan keupayaannya untuk mengendalikan pelbagai nuansa linguistik. Prestasi model yang konsisten kukuh merentas pelbagai penandaarasan yang pelbagai memberikan bukti kukuh tentang keupayaan generalisasinya yang teguh. Ia boleh menyesuaikan diri dan cemerlang dalam pelbagai tugas sambil mengekalkan kos pengkomputeran yang jauh lebih rendah berbanding pendahulunya.
Menangani Cabaran Kebolehskalaan dan Memupuk Penyelidikan Masa Depan
Inovasi yang terkandung dalam Muon secara langsung menangani cabaran kebolehskalaan kritikal yang telah lama melanda latihan model bahasa yang besar. Dengan menggabungkan pereputan berat dan kemas kini RMS yang konsisten, para penyelidik telah meningkatkan kestabilan dan kecekapan dengan ketara. Ini telah membolehkan Moonlight menolak sempadan prestasi sambil mengurangkan kos latihan secara serentak. Kemajuan ini mengukuhkan kedudukan Muon sebagai alternatif yang menarik kepada pengoptimum berasaskan Adam. Ia menawarkan kecekapan sampel yang unggul tanpa menuntut penalaan meluas yang biasanya dikaitkan dengan Adam dan variannya.
Tambahan pula, sumber terbuka kedua-dua Muon dan Moonlight mewakili sumbangan penting kepada komuniti penyelidikan. Dengan menjadikan alatan ini tersedia secara percuma, para penyelidik memupuk penerokaan dan pembangunan kaedah latihan yang cekap untuk model berskala besar. Pendekatan terbuka ini menggalakkan kerjasama dan mempercepatkan kemajuan dalam bidang itu, membuka jalan kepada model bahasa yang lebih berkuasa dan boleh diakses pada masa hadapan. Penambahbaikan berterusan pengoptimum seperti Muon bukan sahaja tentang membina model yang lebih besar; ia adalah mengenai membina mereka dengan lebih bijak, memanfaatkan sumber yang ada, dan mendemokrasikan akses kepada penyelidikan AI yang canggih.