Kimi Luar Luar Modelo Hibrido
Kimi da Moonshot AI revela o modelo Moonlight MoE com 30B/160B parâmetros, treinado com o otimizador Muon em 57 trilhões de tokens. Ele alcança eficiência Pareto superior, superando modelos anteriores com menos FLOPs. O Muon, de código aberto, dobra a eficiência computacional do AdamW, promovendo o desenvolvimento de IA sustentável e acessível.