Le Plateau Imminent : Limites des Modèles de Raisonnement

Les modèles de raisonnement, salués comme la prochaine grande avancée dans l’évolution des grands modèles de langage (LLM), ont démontré des avancées remarquables, en particulier dans les domaines exigeant une résolution de problèmes complexe, tels que les mathématiques et la programmation informatique. Ces systèmes sophistiqués, qui se distinguent par une phase supplémentaire d’"entraînement au raisonnement", tirent parti de l’apprentissage par renforcement pour affiner leurs capacités à relever des défis complexes. L’o3 d’OpenAI se distingue comme un exemple pionnier, présentant des gains de performance significatifs par rapport à son prédécesseur, o1, selon les évaluations de référence. La question centrale qui plane désormais sur le domaine est la durabilité de ces progrès. Ces modèles peuvent-ils continuer à progresser au même rythme simplement en augmentant la puissance de calcul ?

Epoch AI, un organisme de recherche axé sur les impacts sociétaux de l’intelligence artificielle, s’est attelé à la tâche de démêler cette question. Josh You, analyste de données chez Epoch AI, a entrepris une analyse approfondie pour déterminer les niveaux actuels d’investissement en calcul dans l’entraînement au raisonnement et pour évaluer le potentiel d’expansion restant.

L’augmentation du calcul derrière les modèles de raisonnement

OpenAI a déclaré publiquement qu’o3 avait été entraîné avec dix fois plus de ressources de calcul consacrées au raisonnement que o1, une augmentation substantielle réalisée en seulement quatre mois. Un graphique produit par OpenAI illustre de manière saisissante la corrélation étroite entre la puissance de calcul et les performances sur le benchmark mathématique AIME. Epoch AI émet l’hypothèse que ces chiffres se rapportent spécifiquement à la deuxième phase de l’entraînement, l’entraînement au raisonnement, plutôt qu’au processus complet d’entraînement du modèle.

Pour mettre ces chiffres en perspective, Epoch AI a examiné des modèles comparables. DeepSeek-R1, par exemple, aurait été entraîné avec environ 6e23 FLOP (opérations en virgule flottante par seconde) à un coût estimé de 1 million de dollars, atteignant des résultats de référence similaires à o1.

Les géants de la technologie Nvidia et Microsoft ont également contribué au développement de modèles de raisonnement, en fournissant des données d’entraînement accessibles au public. Llama-Nemotron Ultra 253B de Nvidia a utilisé environ 140 000 heures de GPU H100, ce qui équivaut à environ 1e23 FLOP, pour sa phase d’entraînement au raisonnement. Phi-4-reasoning de Microsoft a utilisé encore moins de puissance de calcul, en dessous de 1e20 FLOP. Un facteur essentiel qui distingue ces modèles est leur forte dépendance à l’égard des données d’entraînement synthétiques générées par d’autres systèmes d’IA. Epoch AI souligne que cette dépendance rend les comparaisons directes avec des modèles comme o3 plus difficiles en raison des différences inhérentes entre les données réelles et synthétiques et de son impact sur l’apprentissage et la généralisation du modèle.

Définir l’"entraînement au raisonnement" : un domaine obscur

Une autre couche de complexité découle de l’absence de définition universellement acceptée de l’"entraînement au raisonnement". Outre l’apprentissage par renforcement, certains modèles intègrent des techniques telles que le réglage fin supervisé. L’ambiguïté entourant les composants inclus dans les estimations de calcul introduit des incohérences, ce qui rend difficile la comparaison précise des ressources entre différents modèles.

À l’heure actuelle, les modèles de raisonnement consomment toujours beaucoup moins de puissance de calcul que les cycles d’entraînement d’IA les plus importants, tels que Grok 3, qui dépasse 1e26 FLOP. Les phases d’entraînement au raisonnement contemporaines fonctionnent généralement entre 1e23 et 1e24 FLOP, ce qui laisse une marge considérable pour une expansion potentielle - du moins, c’est ce qu’il semble à première vue.

Dario Amodei, PDG d’Anthropic, partage un point de vue similaire. Il postule qu’un investissement de 1 million de dollars dans l’entraînement au raisonnement peut donner des résultats significatifs. Toutefois, les entreprises étudient activement des moyens d’augmenter le budget de cette phase d’entraînement secondaire à des centaines de millions de dollars, voire plus, ce qui laisse entrevoir un avenir où l’économie de l’entraînement évoluera considérablement.

Si la tendance actuelle, qui consiste à augmenter la puissance de calcul d’environ dix fois tous les trois à cinq mois, se poursuit, le calcul de l’entraînement au raisonnement pourrait potentiellement rattraper le calcul total d’entraînement des principaux modèles dès l’année prochaine. Toutefois, Josh You prévoit que la croissance finira par ralentir pour atteindre environ une augmentation de 4x par an, ce qui correspond aux tendances plus larges de l’industrie. Ce ralentissement sera probablement dû à une combinaison de facteurs, dont la diminution des rendements de l’investissement dans l’entraînement, le coût croissant des ressources de calcul et les limites des données d’entraînement disponibles.

Au-delà du calcul : les goulots d’étranglement à l’horizon

Epoch AI souligne que la puissance de calcul n’est pas le seul facteur limitatif. L’entraînement au raisonnement nécessite des quantités substantielles de tâches difficiles et de grande qualité. L’acquisition de ces données est difficile ; les générer de manière synthétique l’est encore plus. Le problème des données synthétiques n’est pas seulement l’authenticité ; beaucoup affirment que la qualité est médiocre. En outre, l’efficacité de cette approche en dehors des domaines très structurés tels que les mathématiques et la programmation informatique reste incertaine. Néanmoins, des projets tels que "Deep Research" dans ChatGPT, qui utilise une version personnalisée d’o3, suggèrent un potentiel d’applicabilité plus large.

Les tâches en coulisse qui nécessitent beaucoup de main-d’œuvre, telles que la sélection des tâches appropriées, la conception des fonctions de récompense et l’élaboration des stratégies d’entraînement, posent également des problèmes. Ces coûts de développement, souvent exclus des estimations de calcul, contribuent de manière significative au coût global de l’entraînement au raisonnement.

Malgré ces défis, OpenAI et d’autres développeurs restent optimistes. Comme le note Epoch AI, les courbes d’échelle pour l’entraînement au raisonnement ressemblent actuellement à la progression log-linéaire classique observée dans le pré-entraînement. De plus, o3 démontre des gains substantiels non seulement en mathématiques, mais aussi dans les tâches logicielles basées sur des agents, ce qui indique le potentiel polyvalent de cette nouvelle approche.

L’avenir de ces progrès dépend de l’évolutivité de l’entraînement au raisonnement - sur les plans technique, économique et en termes de contenu. Les points suivants explorent plusieurs facteurs clés qui détermineront l’avenir de ces modèles :

  • Évolutivité technique : Désigne la capacité d’augmenter les ressources de calcul utilisées dans l’entraînement sans rencontrer d’obstacles techniques insurmontables. Cela comprend les avancées en matière de matériel, de logiciels et d’algorithmes pour utiliser efficacement des ensembles de données plus volumineux et une infrastructure informatique plus puissante. À mesure que les modèles gagnent en taille et en complexité, l’évolutivité technique devient de plus en plus essentielle pour la poursuite des progrès. L’architecture sous-jacente devra évoluer pour suivre le rythme de l’ampleur des modèles.
  • Évolutivité économique : Implique la faisabilité d’augmenter les ressources de calcul dans des contraintes budgétaires raisonnables. Si le coût de l’entraînement augmente de façon linéaire ou exponentielle avec la taille du modèle, il peut devenir prohibitif de poursuivre les gains. En tant que tel, un entraînement moins cher et plus efficace peut être nécessaire. Les innovations en matière de matériel et les techniques d’optimisation qui réduisent le coût par FLOP sont essentielles pour l’évolutivité économique. La tendance a été de se concentrer sur des modèles toujours plus grands, mais avec un budget limité, les incitations se déplaceront vers l’entraînement des modèles les plus efficaces.
  • Évolutivité du contenu : Met en évidence la disponibilité de données d’entraînement de haute qualité qui peuvent stimuler efficacement les gains en capacité de raisonnement. À mesure que les modèles deviennent plus sophistiqués, des ensembles de données plus difficiles et plus diversifiés sont nécessaires pour les mettre au défi et empêcher le surajustement. La disponibilité de tels ensembles de données est limitée, en particulier dans les domaines qui nécessitent un raisonnement complexe. Les techniques de génération de données synthétiques peuvent aider à atténuer ce goulot d’étranglement, mais elles doivent être soigneusement conçues pour éviter les biais ou les inexactitudes qui pourraient dégrader les performances du modèle.

L’avenir du calcul

Il est facile pour les profanes de penser que nous sommes sur la voie d’un calcul infini. Toutefois, en réalité, il est limité, et à l’avenir, cette limite pourrait devenir plus apparente. Dans cette section, nous explorerons quelques façons dont le calcul pourrait évoluer à l’avenir et comment ces changements affecteront l’industrie des LLM.

L’informatique quantique

L’informatique quantique représente un changement de paradigme dans le calcul, tirant parti des principes de la mécanique quantique pour résoudre des problèmes qui sont insolubles pour les ordinateurs classiques. Bien qu’elle soit encore à ses débuts, l’informatique quantique recèle un immense potentiel pour accélérer les charges de travail de l’IA, y compris l’entraînement des modèles de raisonnement. Les algorithmes quantiques tels que le recuit quantique et les solveurs variationnels d’équations propres quantiques (VQE) pourraient potentiellement optimiser les paramètres du modèle plus efficacement que les méthodes d’optimisation classiques, réduisant ainsi les ressources de calcul nécessaires à l’entraînement. Par exemple, les algorithmes d’apprentissage automatique quantique pourraient améliorer l’optimisation des réseaux neuronaux complexes, ce qui entraînerait des temps d’entraînement plus rapides et potentiellement de meilleures performances du modèle.

Toutefois, des défis importants subsistent pour étendre les ordinateurs quantiques et développer des algorithmes quantiques robustes. La technologie est encore largement expérimentale et les ordinateurs quantiques pratiques avec suffisamment de qubits (bits quantiques) et de temps de cohérence ne sont pas encore facilement disponibles. De plus, le développement d’algorithmes quantiques adaptés à des tâches d’IA spécifiques nécessite une expertise spécialisée et est un domaine de recherche постоянной. L’adoption généralisée de l’informatique quantique dans l’IA reste à plusieurs années et n’est susceptible d’être pratique qu’une fois que les ordinateurs seront disponibles.

L’informatique neuromorphique

L’informatique neuromorphique imite la structure et la fonction du cerveau humain pour effectuer des calculs. Contrairement aux ordinateurs traditionnels qui reposent sur la logique binaire et le traitement séquentiel, les puces neuromorphiques utilisent des neurones et des synapses artificiels pour traiter l’information de manière parallèle et économe en énergie. Cette architecture est bien adaptée aux tâches d’IA qui impliquent la reconnaissance de formes, l’apprentissage et l’adaptation, telles que l’entraînement des modèles de raisonnement. Les puces neuromorphiques pourraient potentiellement réduire la consommation d’énergie et la latence associées à l’entraînement de grands modèles d’IA, ce qui les rendrait plus viables sur le plan économique et durables sur le plan environnemental.

Loihi d’Intel et TrueNorth d’IBM sont des exemples de puces neuromorphiques qui ont démontré des résultats prometteurs dans les applications d’IA. Ces puces sont capables d’effectuer des tâches d’IA complexes avec une consommation d’énergie nettement inférieure à celle des CPU et des GPU traditionnels. Toutefois, l’informatique neuromorphique est encore un domaine relativement nouveau et des défis subsistent dans le développement d’outils de programmation robustes et dans l’optimisation des algorithmes pour les architectures neuromorphiques. De plus, la disponibilité limitée du matériel neuromorphique et le manque d’expertise généralisée en informatique neuromorphique ont entravé l’adoption de cette technologie dans les applications d’IA courantes.

L’informatique analogique

L’informatique analogique utilise des quantités physiques continues, telles que la tension ou le courant, pour représenter et traiter l’information, plutôt que des signaux numériques discrets. Les ordinateurs analogiques peuvent effectuer certaines opérations mathématiques, telles que les équations différentielles et l’algèbre linéaire, beaucoup plus rapidement et plus efficacement que les ordinateurs numériques, en particulier dans les tâches qui peuventêtre utiles pour le raisonnement. Le calcul analogique peut être utile pour entraîner des modèles ou pour exécuter l’inférence en cas de besoin.

Toutefois, l’informatique analogique est confrontée à des défis en matière de précision, d’évolutivité et de programmabilité. Les circuits analogiques sont susceptibles de subir du bruit et de la dérive, ce qui peut dégrader la précision des calculs. L’augmentation de la taille des ordinateurs analogiques pour traiter de grands modèles d’IA complexes est également un défi technique. De plus, la programmation d’ordinateurs analogiques nécessite généralement une expertise spécialisée et est plus difficile que la programmation d’ordinateurs numériques. Malgré ces défis, l’intérêt pour l’informatique analogique en tant qu’alternative potentielle à l’informatique numérique pour des applications d’IA spécifiques, en particulier celles qui exigent une vitesse et une efficacité énergétique élevées, ne cesse de croître.

L’informatique distribuée

L’informatique distribuée consiste à répartir les charges de travail de l’IA sur plusieurs machines ou appareils connectés par un réseau. Cette approche permet aux organisations de tirer parti de la puissance de calcul collective d’un grand nombre de ressources pour accélérer l’entraînement et l’inférence de l’IA. L’informatique distribuée est essentielle pour entraîner de grands modèles de langage (LLM) et d’autres modèles d’IA complexes qui nécessitent des ensembles de données massifs et des ressources de calcul.

Les frameworks tels que TensorFlow, PyTorch et Apache Spark fournissent des outils et des API pour distribuer les charges de travail de l’IA sur des clusters de machines. Ces frameworks permettent aux organisations d’augmenter leurs capacités d’IA en ajoutant plus de ressources de calcul au besoin. Toutefois, l’informatique distribuée pose des problèmes en matière de gestion des données, de surcharge de communication et de synchronisation. La distribution efficace des données sur plusieurs machines et la réduction au minimum des délais de communication sont essentielles pour maximiser les performances des systèmes d’IA distribués. De plus, il est essentiel de s’assurer que les différentes machines ou appareils sont correctement synchronisés et coordonnés pour obtenir des résultats précis et fiables.

Conclusion

La trajectoire des modèles de raisonnement est indéniablement liée à la disponibilité et à l’évolutivité des ressources de calcul. Bien que le rythme actuel des progrès, stimulé par l’augmentation du calcul, soit impressionnant, plusieurs facteurs, dont la rareté des données d’entraînement de haute qualité, le coût croissant du calcul et l’émergence de paradigmes informatiques alternatifs, suggèrent que l’ère de l’augmentation débridée du calcul pourrait approcher de ses limites. L’avenir des modèles de raisonnement dépendra probablement de notre capacité à surmonter ces limites et à explorer de nouvelles approches pour améliorer les capacités de l’IA. Avec toutes ces informations, nous pouvons supposer que l’augmentation des capacités des modèles de raisonnement pourrait bientôt commencer à ralentir en raison de l’une des nombreuses contraintes évoquées.