Muon und Moonlight für LLM Training
Moonshot AI Forscher präsentieren Muon und Moonlight, die das Training großer Sprachmodelle durch effiziente Techniken optimieren. Sie überwinden Skalierungsprobleme, reduzieren Rechenkosten und verbessern die Leistung in verschiedenen Benchmarks, einschließlich Code-Generierung und mathematischem Denken. Muon ist doppelt so effizient wie Adam.