La quête de l’efficacité dans l’entraînement des modèles de langage à grande échelle
La poursuite incessante de modèles de langage toujours plus grands et plus performants a entraîné un besoin urgent : l’efficacité. L’entraînement de ces mastodontes exige non seulement une puissance de calcul brute, mais aussi des techniques sophistiquées capables d’extraire le maximum de performances de chaque watt et de chaque seconde. Les algorithmes d’optimisation, les moteurs qui pilotent le processus d’apprentissage, sont absolument essentiels. Ils déterminent la rapidité et l’efficacité avec lesquelles un modèle comportant des milliards, voire des billions de paramètres, peut converger vers un état de performance optimale. Si des optimiseurs comme AdamW sont devenus des outils de référence dans l’industrie, leur besoin d’un réglage méticuleux des hyperparamètres et leur appétit vorace pour les ressources de calcul ont stimulé la recherche d’alternatives plus rationalisées. L’objectif ultime ? Un optimiseur qui offre une stabilité d’entraînement à toute épreuve tout en réduisant considérablement la charge de calcul.
Les limites des techniques d’optimisation existantes
Le principal défi de l’entraînement des modèles de langage colossaux réside dans l’ampleur des exigences de calcul. À mesure que les modèles grandissent, le nombre de paramètres à mettre à jour à chaque itération explose. De nombreux optimiseurs existants, bien qu’efficaces dans des contextes plus petits, commencent à faiblir sous cette immense pression. Ils deviennent moins efficaces, nécessitant des ajustements et des réglages constants qui allongent les délais d’entraînement. De plus, des problèmes de stabilité peuvent apparaître, se manifestant par des mises à jour erratiques qui dégradent les performances du modèle. Une solution vraiment efficace doit donc aborder à la fois l’efficacité et la stabilité, en assurant un entraînement fluide et fiable sans nécessiter une puissance de calcul exorbitante ou des heures interminables d’ajustements manuels des paramètres.
Les optimiseurs Adam et AdamW, largement utilisés, par exemple, s’appuient sur des taux d’apprentissage adaptatifs et une décroissance du poids (weight decay) pour affiner les performances du modèle. Ces méthodes ont prouvé leur valeur dans diverses applications. Cependant, leur efficacité diminue à mesure que les modèles augmentent en taille. La surcharge de calcul associée à ces optimiseurs augmente considérablement, les rendant inefficaces pour les entraînements à très grande échelle. Cela a alimenté un effort de recherche dynamique axé sur l’identification et le développement d’optimiseurs alternatifs. Ces nouvelles approches visent à offrir des performances et une efficacité supérieures, en éliminant idéalement le besoin d’un réglage laborieux des hyperparamètres tout en obtenant des résultats stables et évolutifs.
Muon : Un nouvel optimiseur conçu pour l’évolutivité
Les chercheurs de Moonshot AI, en collaboration avec l’UCLA, ont présenté Muon, un optimiseur spécialement conçu pour surmonter les limitations qui affectent les méthodes existantes dans les scénarios d’entraînement à grande échelle. Bien que Muon ait initialement démontré des performances impressionnantes dans les modèles à plus petite échelle, il a rencontré des obstacles lorsqu’il a été mis à l’échelle pour s’attaquer aux géants du monde des modèles de langage. Pour relever ces défis, les chercheurs ont mis en œuvre deux techniques essentielles.
Premièrement, ils ont incorporé la décroissance du poids (weight decay), une technique de régularisation qui aide à prévenir le surapprentissage et améliore la stabilité de l’entraînement. Deuxièmement, ils ont introduit des mises à jour RMS (Root Mean Square) cohérentes. Cela garantit que les ajustements sont appliqués uniformément à tous les paramètres, quelle que soit leur amplitude. Cette uniformité est cruciale pour maintenir un apprentissage équilibré dans le vaste espace des paramètres d’un grand modèle de langage. Ces améliorations permettent à Muon de fonctionner efficacement sans nécessiter de réglage approfondi des hyperparamètres. Cette disponibilité “prête à l’emploi” en fait un choix convaincant pour l’entraînement de modèles à grande échelle, réduisant considérablement les frais généraux de configuration et de paramétrage.
Moonlight : Exploiter la puissance de Muon dans un modèle Mixture-of-Experts
S’appuyant sur les avancées incarnées par Muon, les chercheurs ont développé Moonlight, un modèle Mixture-of-Experts (MoE). Moonlight est disponible en deux configurations : une version à 3 milliards de paramètres et une version plus substantielle à 16 milliards de paramètres. Les deux ont été entraîn