Muon y Moonlight Optimizacion LLM
Investigadores de Moonshot AI presentan Muon y Moonlight optimizando modelos de lenguaje a gran escala con técnicas de entrenamiento eficientes reduciendo la carga computacional y mejorando el rendimiento.
Investigadores de Moonshot AI presentan Muon y Moonlight optimizando modelos de lenguaje a gran escala con técnicas de entrenamiento eficientes reduciendo la carga computacional y mejorando el rendimiento.
Kimi de Moonshot AI presenta Moonlight un modelo experto híbrido (MoE) con 30 mil millones y 160 mil millones de parámetros. Entrenado con la arquitectura Muon y 57 billones de tokens, logra un rendimiento superior y eficiencia Pareto, superando a optimizadores como AdamW. Se destaca por su escalabilidad y contribuciones de código abierto.
El modelo Kimi k1.5 de Moonshot AI alcanza un rendimiento comparable al de OpenAI o1, destacando en matemáticas, codificación y razonamiento multimodal. Su variante corta supera a GPT-4o y Claude 3.5 Sonnet. Este avance, basado en aprendizaje por refuerzo, marca un hito en la IA y fomenta la colaboración.