Moonshot AI推出Muon和Moonlight
Moonshot AI研究人员介绍了Muon和Moonlight,通过高效训练技术优化大规模语言模型。重点关注解决现有优化器(如AdamW)的可扩展性挑战,提高训练效率和稳定性,降低计算成本,并在各种基准测试中展示卓越性能。
Moonshot AI研究人员介绍了Muon和Moonlight,通过高效训练技术优化大规模语言模型。重点关注解决现有优化器(如AdamW)的可扩展性挑战,提高训练效率和稳定性,降低计算成本,并在各种基准测试中展示卓越性能。
月之暗面Kimi发布“月光”混合专家模型,包含300亿和1600亿参数版本。该模型基于Muon架构,使用57万亿token训练,提升性能的同时减少计算量,实现帕累托效率的突破。
月之暗面发布Kimi k1.5多模态模型,在数学、代码和多模态推理能力上全面对标OpenAI的满血版o1,成为OpenAI之外首个达到此高度的模型。该模型在短链思维领域达到SOTA水平,并公开了其强化学习训练技术细节,展现了中国在人工智能领域的重大突破。