La Genèse de GPT-4.5 : Une Odyssée de Deux Ans
L’initiative GPT-4.5, conçue deux ans avant son lancement, représentait l’entreprise la plus méticuleusement planifiée d’OpenAI à ce jour. Elle a exigé l’effort concerté de centaines d’individus, Altman notant que le projet a effectivement engagé ‘presque tout le monde’ chez OpenAI. Cette implication généralisée souligne l’importance stratégique de GPT-4.5 au sein de la mission plus large de l’organisation.
Au cours de la phase de développement, l’équipe OpenAI a rencontré ce qu’elle a appelé des ‘problèmes catastrophiques’. Le déploiement d’un cluster de 100 000 GPU a exposé des vulnérabilités d’infrastructure latentes qui se sont manifestées par des pannes peu fréquentes mais profondes. Pour trouver un équilibre entre la rapidité et les performances optimales, les ingénieurs système ont adopté une approche itérative, consistant essentiellement à ‘construire et réparer’ simultanément. Un bug particulièrement insaisissable a affecté le cluster avec des erreurs récurrentes, restant non détecté jusqu’à ce que le processus de formation ait atteint environ 40 % d’achèvement.
Paradoxalement, ces épreuves ont contribué au renforcement de la base technique d’OpenAI. L’expertise acquise permet désormais à une équipe restreinte de seulement 5 à 10 personnes de reproduire un modèle de l’ampleur de GPT-4. Le bond de performance de GPT-4 à GPT-4.5, estimé à environ dix fois, a été caractérisé par une ‘intelligence difficile à quantifier mais globalement améliorée’, surprenant même ceux qui travaillent chez OpenAI. Ce saut qualitatif suggère des progrès au-delà de la simple mise à l’échelle, pointant vers des améliorations fondamentales dans la capacité du modèle à raisonner et à comprendre.
Pour l’avenir, OpenAI reconnaît que la réalisation de la prochaine magnitude de performance ne dépendra pas uniquement de la puissance de calcul, mais plutôt de l’efficacité des données. L’accent est mis sur le développement d’algorithmes capables d’extraire plus de connaissances des ensembles de données existants, maximisant ainsi l’utilité des ressources de calcul disponibles.
De plus, l’architecture évolue d’un cluster unique à une conception multi-clusters, envisageant des scénarios de formation futurs impliquant un apprentissage collaboratif sur jusqu’à 10 millions de GPU. Cette transition nécessite des améliorations significatives de la tolérance aux pannes afin d’assurer la stabilité et la fiabilité de ces systèmes distribués à grande échelle.
La conversation a également approfondi la relation entre la ‘longue traîne’ des données et les lois d’échelle, les avantages d’une collaboration étroite entre les équipes d’apprentissage automatique et de systèmes (co-conception), l’essence de l’apprentissage non supervisé et une culture de résolution méticuleuse des problèmes.
Les Acteurs Clés Derrière GPT-4.5
Outre Altman, les trois autres membres de l’équipe OpenAI qui ont participé à cette conversation étaient :
- Alex Paino : Responsable des algorithmes d’apprentissage automatique de pré-formation de GPT-4.5.
- Amin Tootoonchian : Architecte système en chef d’OpenAI.
- Daniel Selsam : Recherche sur l’efficacité des données et les algorithmes.
Origines et Évolution de GPT-4.5
Sam Altman : Que faut-il vraiment pour construire un modèle aussi grand que GPT-4.5 ?
Alex Paino : Nous avons lancé ce projet il y a environ deux ans. À cette époque, OpenAI était sur le point de lancer un nouveau grand cluster de calcul, et notre équipe a vu cette opportunité et a effectué une série de tâches pour déterminer les fonctions que le modèle devait inclure, et a mené un grand nombre de tests d’opérations de réduction des risques.
Nous avons développé un long plan pour cela, impliquant l’ensemble de la pile technologique du système à l’apprentissage automatique. La réduction des risques et la préparation à la formation sont un long processus d’exécution, et la formation elle-même est également un très grand projet.
Amin Tootoonchian : Je pense que ce processus nécessite une coopération étroite entre l’équipe d’apprentissage automatique et l’équipe système dès le début, jusqu’à ce que nous sachions clairement quel modèle nous voulons entraîner, puis que nous commencions l’entraînement.
Nous avons fait des prédictions en apprentissage automatique et en systèmes, en essayant de minimiser l’écart entre les attentes et la réalité. Cependant, comme notre rythme de travail est très rapide et que nous devons utiliser les dernières ressources de calcul, la formation du modèle est devenue quelque chose qu’il est difficile de planifier parfaitement à l’avance.
Nous commençons presque toujours la formation avec de nombreux problèmes non résolus et essayons de surmonter les défis et de progresser au cours du processus. La principale solution est d’augmenter davantage les ressources de calcul.
La phase finale est l’exécution, qui nécessite que de nombreuses personnes investissent beaucoup d’énergie et de motivation pendant une longue période pour achever le processus de formation.
Sam Altman : Selon vous, quel est l’écart entre nos attentes et la réalité ?
Amin Tootoonchian : En termes de système, au début, nous sommes généralement loin de l’état attendu. Nous sommes toujours confrontés à un choix : reporter le lancement et attendre que le problème soit résolu, ou commencer tôt et résoudre le problème en cours de route. Cela nécessite toujours des compromis pour éviter des retards déraisonnables dans le processus.
Mais il y a presque toujours des problèmes inattendus, et ce que nous devons faire, c’est gérer ces nœuds autant que possible, traiter les facteurs inconnus et formuler un plan pour la formation du modèle.
Alex Paino : Dans ce projet, notre objectif est de créer GPT-4.5, ce qui signifie que ses capacités devraient être 10 fois plus intelligentes que GPT-4. C’est l’objectif initial que nous nous sommes fixé il y a environ 2 ans.
Il s’est passé beaucoup de choses dans ce processus. Nous nous demandions si nous pouvions faire mieux ou pire que prévu ? C’est un processus très compliqué, mais au final, en termes de calculs efficaces que nous avons réalisés, nous avons obtenu un modèle que nous pensons être 10 fois plus intelligent que GPT-4.
Amin Tootoonchian : En termes d’exécution, le temps consacré au projet GPT-4.5 est loin de ce que nous avions initialement prévu.
La Révolution de l’Équipe Restreinte : Entraîner GPT-4 avec un Minimum de Ressources
Sam Altman : Lorsque le cluster est passé de 10 000 cartes à 100 000 cartes, pourquoi avez-vous rencontré autant de problèmes ?
Amin Tootoonchian : Je pense que si les développeurs de systèmes sont suffisamment sensibles, la plupart des problèmes peuvent être observés au stade à petite échelle.
Il existe également des problèmes qui ne sont pas propres à la phase de formation à grande échelle, mais qui se produisaient à l’origine fréquemment, mais deviendront des problèmes catastrophiques après l’augmentation de l’échelle, en particulier lorsque l’équipe n’avait pas prévu à l’avance que ces problèmes se détérioreraient à un tel point.
Sam Altman : Quelles choses ont causé des conséquences désastreuses ?
Amin Tootoonchian : Je pense que les problèmes d’infrastructure sont bien connus. Le taux de défaillance, le type de défaillance et la quantité totale de défaillances sont très élevés. Le cluster de 100 000 cartes est un pool d’échantillons à grande échelle, nous avons donc également découvert des problèmes que le fournisseur de puissance de calcul n’avait pas observés.
Le réseau en fait partie, et les accélérateurs individuels peuvent également avoir des problèmes. Mais c’est aussi la beauté de ce système : presque tous les composants doivent fonctionner comme prévu pour produire les résultats escomptés. Notre travail consiste à minimiser ce problème autant que possible.
Sam Altman : Il est en effet difficile de travailler à la limite de l’échelle du cluster, mais j’ai également remarqué qu’il est devenu beaucoup plus facile de faire des choses qui ne sont plus à la pointe de la technologie. L’entraînement de GPT-4.5 nécessite des centaines de personnes, et presque tout le monde chez OpenAI est impliqué.
Mais aujourd’hui, si vous vous laissiez choisir une équipe la plus petite possible chez OpenAI et réentraîner GPT-4 à partir de zéro avec toutes les connaissances que nous connaissons et tout le travail système, combien de personnes cela prendrait-il ?
Alex Paino : Je pense qu’il faudrait environ 5 à 10 personnes pour créer un modèle de niveau GPT-4 maintenant. La pile technologique a été considérablement améliorée au cours du processus de réalisation de GPT-4.5.
En fait, nous avons fait des choses similaires au cours du processus d’entraînement de GPT-4.5 : nous avons entraîné GPT-4o, qui est un modèle de niveau GPT-4, et nous l’avons réentraîné en utilisant une grande partie du même contenu que le projet de recherche GPT-4.5. Moins de personnes ont été utilisées pour cet entraînement.
Efficacité des Données : La Clé pour Déverrouiller la Prochaine Génération de Modèles
Sam Altman : De votre point de vue, Dan ? Pourquoi est-il difficile d’entraîner de grands modèles ?
Daniel Selsam : Je pense qu’il est difficile de faire quelque chose de nouveau. Je pense que même le simple fait de découvrir que quelqu’un d’autre a fait quelque chose rend les choses beaucoup plus faciles, car le plus difficile est d’avoir la conviction que vous pouvez faire quelque chose en premier lieu. Je pense que le simple fait de savoir que quelque chose est faisable est un super code de triche, ce qui rend les choses beaucoup plus faciles.
Alex Paino : Nous augmentons l’opération de pré-entraînement GPT à 10 fois ce qu’elle était auparavant, et nous trouverons toujours de nouvelles choses intéressantes que vous ne pouvez pas nécessairement prédire.
Sam Altman : Que faut-il pour atteindre la prochaine croissance de 10x ou 100x de l’échelle de pré-entraînement ?
Daniel Selsam : Efficacité des données. L’architecture Transformer (qui est GPT) est très efficace dans l’utilisation des données. Elle peut absorber et compresser les informations correctement et réaliser une généralisation. Sa plus grande caractéristique est qu’elle peut absorber efficacement les informations avec des ressources de calcul.
Cependant, la profondeur de la perspicacité qu’elle tire des données est limitée. Lorsque la puissance de calcul croît rapidement tandis que les données croissent relativement lentement, les données deviennent un goulot d’étranglement dans ce modèle standard. Cela nécessite une innovation algorithmique, développement de méthodes qui peuvent utiliser plus de puissance de calcul pour apprendre plus de connaissances à partir de la même quantité de données.
Sam Altman : Quoi d’autre pensez-vous que nous devons maintenir l’expansion en plus de cela ?
Amin Tootoonchian : Ma réponse concerne le système. Je pense que l’énorme quantité de travail requise pour GPT-4.5 est essentiellement le résultat inévitable des spécifications du modèle. Nous ne pouvons pas entraîner GPT-4.5 avec exactement la même architecture technique que GPT-4.
En termes de gestion de l’état, comme les ressources de calcul requises ont dépassé la capacité de transport d’un seul cluster, nous devons passer à une architecture de formation multi-clusters. Pour atteindre cet objectif, nous devons intégrer plusieurs flux de travail différents en peu de temps.
Bien que cela nous ait aidés à réaliser une percée progressive, pour atteindre la prochaine magnitude d’amélioration des performances, nous devons encore résoudre plusieurs problèmes techniques connus mais temporairement mis de côté - ces problèmes ne peuvent être évités. C’est ce type de compromis technique qui prolonge constamment le cycle de développement d’un système parfait. Nous faisons toujours des compromis stratégiques dans le processus de recherche du plan de mise en œuvre optimal.
Il doit être clair que le système lui-même n’est pas l’objectif ultime. Sa valeur de production réelle est la considération centrale. Pour la prochaine amélioration de performance de 10x, je pense que la percée dans la tolérance aux pannes est cruciale. Nous devons construire un mécanisme tolérant aux pannes qui collabore en profondeur avec la charge de travail pour réduire considérablement l’anxiété liée à l’exploitation et à la maintenance. La complexité de l’exploitation et de la maintenance du système super-large actuel est essentiellement différente de celle des systèmes précédents.
Sam Altman : Savez-vous quel pourcentage de défaillances ont été causées par certains composants pendant l’entraînement de GPT-4.5 ?
Amin Tootoonchian : Je n’ai pas de chiffres spécifiques à partager, mais en général, le déploiement initial d’une nouvelle génération de matériel est souvent confronté à de nombreux défis techniques qui n’ont pas été entièrement compris. Nous avons choisi de faire avancer le projet avant que le problème ne soit entièrement clarifié, ce qui a conduit à un taux de défaillance initial élevé.
Mais l’expérience montre qu’au fur et à mesure que la cause profonde est identifiée et résolue, le taux de défaillance sera considérablement réduit. Ce phénomène reflète essentiellement notre compréhension approfondie de l’infrastructure - certains l’appellent le nettoyage de l’infrastructure ou la compréhension des problèmes fondamentaux de l’infrastructure.
Les premières étapes de l’exécution sont presque toujours assez douloureuses. Bien que nous fassions avancer le projet, nous découvrons et résolvons également en permanence de nouveaux modes de défaillance, mais finalement, le taux de défaillance diminuera progressivement et le temps de fonctionnement normal augmentera.
Il s’agit essentiellement d’une question de compromis de priorité : Au début du cycle de vie de l’infrastructure, son risque de défaillance est souvent difficile à estimer avec précision ; et si nous poursuivons excessivement l’état idéal ultime (l’original est ‘City Estate’, la conception de la cité-État idéale), cela peut conduire au système Les performances de disponibilité initiale sont extrêmement mauvaises.
Au-delà du Calcul : Innovation Algorithmique et le Potentiel Inexploité des Données
Sam Altman : Bien que le modèle d’inférence soit un élément clé de notre future pile technologique, concentrons-nous temporairement sur les limites de développement des modèles de pré-entraînement traditionnels. En supposant que nous ayons une puissance de calcul GPU illimitée, une bande passante réseau illimitée et une alimentation électrique illimitée, mais que nous soyons toujours limités par les goulots d’étranglement techniques existants - y compris les problèmes de fiabilité du système, le manque de méthodes de formation tolérantes aux pannes et les limitations des ensembles de données existants.
Selon notre règle d’évolution consistant à atteindre une augmentation d’échelle de 100 fois pour chaque numéro de version GPT majeur, sur la base des limites techniques actuelles, quel niveau peut atteindre le développement des modèles de pré-entraînement ? Plus précisément, pour les modèles de la série GPT, sur la base de notre système de connaissances existant, quel type de modèle peut théoriquement être entraîné ? Pouvons-nous faire GPT-5.5 ?
Alex Paino : Du point de vue de l’apprentissage automatique et du développement d’algorithmes, nous n’avons pas encore atteint de limite théorique claire. En fait, nous n’avons fait que commencer à explorer des algorithmes avec une efficacité de données plus élevée et comment utiliser plus pleinement les ressources de données existantes. Cette situation est très intéressante - même des modèles comme GPT-4 sont en grande partie développés dans des conditions de ressources de calcul limitées, ce qui a déterminé la direction de la plupart des recherches précédentes.
Mais la situation est complètement différente maintenant. Depuis GPT-4.5, dans certaines dimensions clés, les données plutôt que le calcul deviennent la principale contrainte. Ce changement rend la recherche connexe moins excitante.
Sam Altman : Mais c’est en effet un progrès incroyable, et le monde n’est peut-être pas pleinement conscient que les ressources de calcul ne sont plus le principal goulot d’étranglement sur le meilleur modèle que nous pouvons construire. Ce changement est très significatif, après tout, nous avons vécu dans un environnement à ressources de calcul limitées pendant trop longtemps.
Dévoilement des Surprises : Prévisibilité vs. Intelligence Imprévue
Sam Altman : Quelle est l’expérience d’apprentissage automatique la plus intéressante que nous ayons apprise lors de l’entraînement de GPT-4.5 ? Dites simplement ce que vous voulez partager.
Amin Tootoonchian : En général, les choses les plus stimulantes sont celles qui s’écartent de nos prédictions - en particulier lorsque nous essayons de comprendre pourquoi les performances réelles s’écartent de la courbe attendue.
Alex Paino : L’une des découvertes les plus surprenantes pour nous est que différents composants d’apprentissage automatique ont des performances d’évolutivité très différentes. Certaines parties peuvent être développées très bien, tandis que d’autres ne le peuvent pas. C’est ce que nous avons vraiment réalisé au cours du processus d’entraînement réel. Cette expérience nous a beaucoup inspirés.
Daniel Selsam : Je pense que les deux caractéristiques essentielles du paradigme GPT sont : premièrement, la perte de test (une métrique qui mesure les performances du modèle sur des données de test non vues) peut être prédite avec précision ; deuxièmement, les performances du modèle montrent une amélioration prévisible avec l’augmentation de l’échelle. Ce qui est encore plus étonnant, c’est que la réduction de la perte de test sera transformée en un niveau d’intelligence globalement amélioré de diverses manières difficiles à quantifier mais étonnantes et mystérieuses.
Sam Altman : Êtes-vous absolument optimiste à ce sujet ? Êtes-vous entièrement d’accord avec ce point de vue ?
Daniel Selsam : En fait, ce que je veux dire, c’est que nous avons trouvé un phénomène particulièrement intéressant dans le test GPT-4.5 - après un nouveau test, les nombreuses capacités sophistiquées démontrées par le modèle ont complètement dépassé les attentes de chacun.
Nous sommes sûrs qu’il deviendra plus intelligent de diverses manières difficiles à définir à l’avance, et ces améliorations subtiles peuvent être observées à partir de la satisfaction des utilisateurs après le déploiement réel : des réserves de bon sens plus fortes, une capacité de compréhension contextuelle plus précise et une compréhension sémantique plus subtile - c’est la magie apportée par ces pertes de test supplémentaires. À mon avis, Scaling Law a été parfaitement vérifiée dans cette dimension.
La Puissance de la Collaboration : Les Équipes d’Apprentissage Automatique et de Systèmes Travaillent en Harmonie
Sam Altman : Quel a été le moment le plus positif de l’ensemble du processus d’entraînement ? Quel est votre souvenir préféré ? Évidemment, il y a beaucoup de douleur, mais j’espère que cette douleur a été atténuée.
Alex Paino : J’ai bien un tel moment. Nous avons fait beaucoup de travail d’apprentissage automatique pendant l’entraînement, et je pense que certains des changements que nous avons apportés au cours du processus ont eu un assez bon impact, peut-être même meilleur que prévu, ce qui a été un moment très excitant pour nous.
Amin Tootoonchian : Pour moi, en même temps que l’entraînement, nous construisons également une infrastructure. Nous croyons fermement que nous pouvons franchir cette falaise de performance, et nous avons un plan, et tout le monde l’exécute, mais cela prend beaucoup de temps. C’est un travail difficile et certainement plus difficile que je ne le pensais. Ma prédiction était erronée, et j’ai sous-estimé le temps qu’il faudrait pour résoudre ces problèmes.
Le moment où l’équipe a finalement surmonté ces problèmes clés et où les performances se sont considérablement améliorées est encore frais dans ma mémoire. Vous pouvez clairement sentir le changement d’énergie dans toute l’équipe - tout le monde est soudainement plein d’énergie et se précipite vers l’objectif final avec une nouvelle motivation.
Le plus étonnant est que le temps d’achèvement estimé affiché sur notre traqueur d’état a continué de se raccourcir par rapport aux deux années initiales, et s’est finalement verrouillé sur un nœud temporel clair. Ce progrès visible est incommensurable pour remonter le moral de l’équipe. Je pense que c’est la beauté de la chose.
Je voudrais souligner que le travail d’apprentissage automatique ne s’est jamais arrêté. Même après le début de l’entraînement, ce processus de co-conception d’apprentissage automatique est toujours en cours. L’équipe d’apprentissage automatique a non seulement activement suivi les problèmes qui avaient été marqués comme ‘traitement ultérieur’, mais a également continué à apporter des améliorations qui ont véritablement optimisé le temps d’entraînement.
Cela incarne parfaitement notre esprit d’équipe - il n’y a pas de limite de travail ‘balayer la neige devant votre propre porte’ ici, mais une collaboration véritablement transparente. Cette cohésion est notre plus grand atout.
Planification Méticuleuse et Poursuite Inlassable des Anomalies dans le Pré-Entraînement GPT-4.5
Daniel Selsam : Le monde extérieur a beaucoup discuté des défis et de la précision prédictive de cet entraînement lui-même. Mais en fait, tout cela est basé sur une planification extrêmement méticuleuse - pouvez-vous en parler plus en détail ?
Alex Paino : C’est certainement le plan le plus méticuleux que nous ayons élaboré jusqu’à présent. Comme je l’ai dit, nous avons commencé à nous préparer à ce projet un an avant le lancement officiel de l’entraînement. Pendant cette période, nous avons effectué plusieurs tests de contrôle des risques à grande échelle.
Nous accordons une attention particulière à l’introduction progressive de toutes les améliorations : en partant d’une configuration de base à haute confiance - qui peut être comprise comme une architecture mature similaire à GPT-4, nous avons pleinement maîtrisé cette configuration au niveau de l’apprentissage automatique - puis en superposant de nouvelles fonctionnalités comme des blocs de construction.
La clé est de vérifier strictement l’évolutivité de chaque amélioration à différentes échelles : non seulement de voir les améliorations de performance, mais aussi de s’assurer que ces améliorations peuvent continuer à être efficaces à mesure que la taille du modèle augmente. De nombreuses améliorations fonctionnent bien dans les tests à petite échelle, mais échoueront dans les applications à grande échelle.
Par conséquent, nous avons maintenu un haut degré de vigilance tout au long du processus et continuons à itérer et à améliorer notre méthodologie de loi d’échelle. Grâce à cette pratique de contrôle des risques, nous avons accumulé beaucoup d’expérience précieuse, qui continuera à guider le développement des futurs modèles de la série GPT.
Amin Tootoonchian : Je me souviens d’un moment particulièrement intéressant qui me manque beaucoup. Vous savez, nous rencontrons presque inévitablement divers bugs chaque fois que nous commençons une tâche d’entraînement, ce qui est monnaie courante. Mais la clé est de s’assurer que les progrès ne sont pas entravés, et nous devons toujours confirmer si les progrès actuels sont effectivement sur la bonne voie et si ces bugs auront un impact fatal sur la santé de l’entraînement.
Bien que nous soyons initialement très sûrs qu’il y avait des défauts majeurs, grâce à l’ensemble du système de surveillance que nous avons construit, nous avons été en mesure de distinguer avec précision la cause profonde du problème : Est-ce une défaillance matérielle ? Quel type de défaillance matérielle ? Est-ce une corruption de données ? Ou est-ce un bug dans le modèle d’apprentissage automatique lui-même ? Ou est-ce une condition de course dans le code ?
À cette époque, nous avions plusieurs zones de discussion de problèmes ouvertes en même temps, avec une grande variété de symptômes. Après une série de corrections de bugs, nous sommes tombés dans une impasse : de multiples problèmes non résolus étaient empilés devant nous, et tout le monde se creusait la tête - étaient-ils causés par différents bugs ? Ou est-ce un bug qui cause des problèmes ?
Plus tard, nous avons organisé un vote et demandé aux membres de l’équipe de voter pour la cause profonde la plus probable. En conséquence, l’option la moins optimiste a frappé la vérité : il s’est avéré qu’il y avait un problème avec la fonction torch.sum en amont de PyTorch, une simple opération de sommation.
Ce bug est très intéressant. Vous savez que nous utilisons principalement le noyau Triton, et seulement dans certains scénarios marginaux insignifiants, nous retomberons sur les opérations torch. Le bug de la fonction torch.sum déclenché par notre chemin de code spécifique provoquera occasionnellement un accès mémoire illégal en raison des caractéristiques de distribution des données - il a fait une erreur lors du calcul du décalage de mémoire.
Le plus dramatique, c’est que lorsqu’un ingénieur a finalement localisé le problème et soumis une correction, toutes les erreurs avec différents symptômes ont disparu. Tout le monde a changé avec enthousiasme le canal Slack de la ‘théorie multi-bugs’ à la ‘théorie mono-bug’, et la scène était très joyeuse.
Depuis combien de temps ce bug se cachait-il ? Il existait depuis les premières étapes de l’entraînement et n’a été découvert que lorsque la barre de progression avait passé environ 40%. Le processus de découverte était également plein de drame : À cette époque, un noyau complexe appelait en permanence une séquence, et le deuxième appel déclenchait un accès mémoire illégal.
Bien que cette fréquence de crash soit extrêmement faible (elle ne se produit qu’une fois tous les quelques centaines, voire milliers d’étapes d’entraînement), il est facile de l’ignorer comme une défaillance occasionnelle, mais notre principe d’équipe est : ne jamais laisser passer aucune anomalie. La meilleure partie de cette histoire réside dans cette persévérance à ne pas abandonner à la légère.
La Quête de Systèmes Idéaux : Un Horizon Lointain
Sam Altman : Après le début du pré-entraînement GPT-4.5, que devez-vous faire d’autre ?
Alex Paino : Nous devons tous observer fréquemment la courbe de perte. De plus, nous devons optimiser en permanence le système et améliorer la co-conception qui n’avait pas été achevée avant le début de l’entraînement. Nous surveillons de près divers indicateurs statistiques pendant le processus d’entraînement pour nous assurer qu’il n’y a pas de tendances anormales inattendues. Dans le même temps, nous explorons les plans d’amélioration possibles du point de vue de l’apprentissage automatique. Bien que le travail au niveau des données soit temporairement réduit après le début du pré-entraînement, il reste un grand nombre de tâches à traiter.
Amin Tootoonchian : Je pense que l’apprentissage automatique dépend en grande partie de la justesse du jugement. Après le début du pré-entraînement, face à un grand nombre de signaux de bruit, nous sommes comme des diseurs de bonne aventure interprétant des feuilles de thé, et nous devons juger si le système est sain. C’est notre responsabilité.
Sam Altman : Au niveau du système, qu’est-ce qui nous empêche de mener l’entraînement du modèle ? Est-ce les puces, les processeurs, la mémoire, le réseau ou la puissance ?
Amin Tootoonchian : La beauté du système est que lors de la co-conception, la charge de travail peut s’adapter à l’infrastructure que vous construisez. Il n’y a pas de formule générale ici que le réseau soit le goulot d’étranglement, ou que la bande passante de la mémoire soit le goulot d’étranglement, et ainsi de suite. Même pour les modèles de la même spécification, nous pouvons choisir de transférer les exigences de ressources, et nous pouvons choisir de créer un système plus équilibré, mais avoir plus de bande passante de mémoire est toujours bénéfique. Il est difficile de répondre à cette question sans conditions limitatives.
Lors de la conception de GPT-4.5, nous pouvons avoir besoin que le système ait une sorte d’attribut, qui doit être généré sous la direction humaine. Par conséquent, la co-conception est très importante pour former l’architecture du modèle et les éléments architecturaux, et dans une certaine mesure connecte les aspects du système et de l’apprentissage automatique. Si le système a un attribut que nous ne voulons pas avoir beaucoup, ma situation idéale est que tout devrait être découplé pour donner à chacun l’espace maximum.
Parfois, les choses sont connectées, et nous devons répondre aux exigences de l’infrastructure, ou les choses devraient être comme ça. La plupart du temps, nous avons besoin d’un système équilibré et d’une communication équilibrée. Et le meilleur moyen d’ajustement que nous ayons est toutes ces co-conceptions.
Sam Altman : À quelle distance sommes-nous de cet objectif de système idéal ?
Amin Tootoonchian : Nous sommes encore loin de cet objectif. Le processus de construction d’un système est toujours comme ça : d’abord, il y a une vision idéalisée de la façon dont les choses devraient fonctionner, puis concilier ces différences avec les ressources existantes.
Je pense que nous ne le faisons pas pour la théorie pour la théorie, mais juste pour discuter de ce que nous voulons qu’il devienne, pour le réaliser et pour nous rapprocher le plus possible de cet idéal. C’est peut-être la partie la plus excitante du domaine du système. Les gens disaient que c’est une conception de système élégante, et finalement l’histoire nous dira si ce choix est correct ou incorrect.
Sam Altman : Si vous pouviez obtenir une réponse à un problème d’apprentissage automatique avant le prochain grand entraînement, qu’aimeriez-vous le plus savoir ?
Alex Paino : J’aimerais savoir quels algorithmes nous devrions utiliser dans des données limitées et des domaines spécifiques. Bien que ce soit une question large, c’est en effet la plus critique.
Sam Altman : Mènerez-vous un pré-entraînement synchrone avec 10 millions de GPU ouplus à l’avenir ?
Alex Paino : Je pense qu’il y en aura, mais il se peut que ce ne soit pas un modèle de pré-entraînement traditionnel. Sa forme peut être très différente de la technologie existante, mais elle conservera toujours le cœur de l’apprentissage non supervisé.
Amin Tootoonchian : Je préfère le mode semi-synchrone. En raison des lois physiques, la synchronisation complète n’est pas réaliste.
Daniel Selsam : Je pense qu’il est plus probable qu’il soit décentralisé. Il y aura certainement 10 millions de GPU travaillant ensemble dans un système d’IA pour apprendre et effectuer des tâches, mais comme les différentes parties du cerveau, ils ne peuvent pas nécessairement communiquer entre eux.
La Puissance Synergique des Améliorations Algorithmiques et de l’Efficacité des Données
Sam Altman : Quelle est la différence entre les algorithmes les plus avancés et l’efficacité des données humaines ? Pouvons-nous espérer rattraper notre retard à l’avenir ?
Daniel Selsam : Il est difficile de comparer directement les deux. L’écart dans l’apprentissage des langues est certainement énorme. La clé est de savoir comment définir la quantité d’informations reçues par les nerfs visuels humains. Je pense que les algorithmes sont généralement beaucoup moins efficaces en matière de données que les humains.
Pendant des décennies, l’apprentissage en profondeur s’est concentré sur l’efficacité de la puissance de calcul. En plus de la croissance des données et de la puissance de calcul, ce qui est vraiment surprenant, c’est l’effet synergique produit par les améliorations algorithmiques. Chaque fois que les performances de l’algorithme s’améliorent de 10 % ou 20 %, cela aura un effet significatif lorsqu’il est superposé à l’efficacité des données. Jusqu’à présent, il n’y a pas eu de mobilisation autour de l’efficacité des données, car cette approche n’en vaut pas la peine lorsque les données ne circulent pas et que la puissance de calcul est limitée.
Maintenant, nous entrons dans une nouvelle phase de la recherche en IA, et nous allons commencer à accumuler des victoires en matière d’efficacité des données. Je pense qu’il est quelque peu idiot de prédire maintenant que nous allons rencontrer des obstacles insurmontables. La façon dont le cerveau humain fonctionne est certainement différente de nos améliorations algorithmiques, et nous devrions être prudents à cet égard. Mais je pense que nous devrions rester optimistes quant au développement futur des algorithmes.
Sam Altman : Quelle est la corrélation entre le pré-entraînement à plus grande échelle et les capacités d’apprentissage et de raisonnement plus fortes du modèle ?
Alex Paino : Ce que nous avons observé, c’est qu’un meilleur pré-entraînement et un apprentissage non supervisé améliorent souvent l’intelligence globale du modèle et sont d’une grande aide dans la généralisation. Ceci est complémentaire de la capacité de raisonnement, tandis que le raisonnement peut être plus lent à améliorer l’intelligence. Je pense qu’ils sont complémentaires.
Sam Altman : Le pré-entraînement semble être général dans beaucoup de choses, tandis que l’entraînement d’un modèle ne peut que le faire bien dans un seul type de chose, n’est-ce pas ?
Alex Paino : C’est très intéressant, mais vous ne serez pas surpris par cette situation lorsque vous verrez les données qui les entraînent. La gamme d’ensembles de données de pré-entraînement est très large, et ce que nous recherchons, c’est l’étendue et la diversité. En ce qui concerne l’apprentissage par renforcement du modèle et le fait de lui faire obtenir clairement de bons signaux de récompense et un bon environnement d’entraînement, je pense qu’il est difficile d’équilibrer l’étendue de l’ensemble de données.
Daniel Selsam : Je suis d’accord, mais je pense qu’il y a un autre facteur. Le pré-entraînement consiste essentiellement à compresser les données, découvrant ainsi les liens entre différentes choses. Il s’agit d’analogies et de choses plus abstraites. Le raisonnement est une compétence qui nécessite une réflexion approfondie sur un problème spécifique et peut également obtenir des solutions à de nombreux types de problèmes. Cependant, dans le processus de pré-entraînement, des connaissances plus abstraites peuvent être apprises lors de la compression des données à travers différents domaines.
L’Essence de l’Intelligence : Compression et l’Effet Longue Traîne
Sam Altman : Pourquoi l’apprentissage non supervisé est-il efficace ?
Daniel Selsam : La clé est la compression. La forme idéale de l’intelligence est l’induction de Solomonoff. En général, l’apprentissage automatique considérera toutes les possibilités, mais aura tendance à commencer les tests avec des programmes plus simples.
L’essence du pré-entraînement actuel est un processus de compression, qui réalise une expression approximative en trouvant le programme le plus simple pour expliquer toutes les données produites par les humains jusqu’à présent.
Sam Altman : Comment la prédiction du jeton suivant aide-t-elle à réaliser la compression ?
Daniel Selsam : Il y a un paradoxe dans les statistiques - pourquoi les réseaux profonds peuvent-ils réaliser une généralisation alors qu’ils semblent incapables de compresser ? Normalement, lorsque vous avez beaucoup de données et quelques petits modèles,