Muon e Moonlight Otimizam LLMs
Pesquisadores introduzem Muon um otimizador e Moonlight um modelo de linguagem. Ambos otimizam o treinamento de modelos de linguagem em larga escala com técnicas eficientes reduzindo o custo computacional e superando modelos anteriores.