Muon dan Moonlight Model Bahasa Besar
Peneliti Moonshot AI memperkenalkan Muon dan Moonlight teknik pelatihan efisien untuk optimasi model bahasa skala besar mengatasi tantangan komputasi dan stabilitas AdamW.
Peneliti Moonshot AI memperkenalkan Muon dan Moonlight teknik pelatihan efisien untuk optimasi model bahasa skala besar mengatasi tantangan komputasi dan stabilitas AdamW.
Kimi dari Moonshot AI merilis model ahli hibrida 'Moonlight' 30 miliar dan 160 miliar parameter yang dilatih pada arsitektur Muon dengan 57 triliun token mencapai efisiensi Pareto yang unggul dan pengoptimal Muon yang inovatif menggandakan efisiensi komputasi dibandingkan AdamW.
Model Kimi k1.5 dari Moonshot AI menunjukkan performa setara OpenAI o1, menandai kemajuan signifikan dalam AI. Model ini unggul dalam matematika, coding, dan penalaran multimodal, bahkan melampaui GPT-4o dan Claude 3.5 Sonnet dalam mode short-CoT. Pengembangan ini menekankan inovasi domestik dan semangat kolaborasi dalam komunitas AI.