Surmonter les ‘problèmes catastrophiques’ dans la formation à grande échelle
Le développement de GPT-4.5, un projet lancé il y a deux ans, représente l’entreprise la plus ambitieuse d’OpenAI à ce jour. Cette entreprise massive a impliqué les efforts de collaboration de centaines d’individus, Sam Altman, PDG d’OpenAI, notant que le projet exigeait un engagement organisationnel presque total.
Le parcours pour créer GPT-4.5 n’a pas été sans embûches. L’équipe a rencontré de nombreux ‘problèmes catastrophiques’ pendant la phase de recherche et développement. L’utilisation d’un cluster de 100 000 GPU a exposé des défaillances d’infrastructure auparavant invisibles, de faible probabilité, mais profondes. Afin d’équilibrer l’opportunité avec une performance optimale, l’équipe système d’OpenAI a été contrainte d’adopter une approche ‘réparer au fur et à mesure’. Un bogue particulièrement insaisissable a affecté le cluster avec des erreurs fréquentes, restant non détecté jusqu’à ce qu’environ 40% du processus de formation se soit écoulé.
Malgré ces défis, le projet GPT-4.5 a catalysé le développement d’une pile technologique plus robuste. Aujourd’hui, une petite équipe de seulement 5 à 10 personnes peut reproduire un grand modèle similaire à GPT-4. Les gains de performance de GPT-4 à GPT-4.5 étaient d’environ dix fois, ce qui a donné une ‘intelligence difficile à quantifier mais améliorée dans tous les aspects’, un résultat qui a surpris même le propre personnel d’OpenAI.
Changer de cap : de la puissance de calcul à l’efficacité des données
OpenAI s’est rendu compte que la réalisation du prochain bond de performance de dix à cent fois ne dépend pas de la puissance de calcul brute, mais de l’efficacité des données - plus précisément, de la capacité d’extraire plus de connaissances de la même quantité de données tout en exploitant de plus grandes ressources de calcul.
L’architecture évolue également d’un cluster unique à un paradigme multi-cluster. Les futures itérations de formation peuvent impliquer un apprentissage collaboratif sur jusqu’à 10 millions de GPU, ce qui nécessite une tolérance aux pannes accrue.
Dialogue de Sam Altman avec l’équipe GPT-4.5
Voici une compilation éditée d’une discussion entre Sam Altman et l’équipe OpenAI GPT-4.5 :
Sam Altman : Que faut-il pour construire un modèle aussi grand que GPT-4.5 ?
Alex Paino : Nous avons commencé ce projet il y a environ deux ans. À ce moment-là, OpenAI était sur le point de lancer un nouveau grand cluster informatique, et notre équipe y a vu une opportunité de mener une série d’opérations pour déterminer les fonctions que le modèle devait inclure, et a mené un grand nombre de tests d’opérations de réduction des risques.
Nous avons développé un plan à long terme pour cela, impliquant l’ensemble de la pile technologique, du système à l’apprentissage automatique. Réduire les risques et se préparer à la formation est un long processus d’exécution, et la formation elle-même est un très grand projet.
Amin Tootoonchian : Je pense que ce processus nécessite une coopération étroite entre l’équipe d’apprentissage automatique et l’équipe système dès le début, jusqu’à ce que nous clarifiions quel modèle nous voulons former, puis commencer la formation.
Nous avons fait des prédictions dans les aspects d’apprentissage automatique et de système, en essayant de réduire autant que possible l’écart entre l’attente et la réalité. Mais comme notre rythme de travail est rapide et que nous devons utiliser les dernières ressources informatiques, la formation du modèle est devenue quelque chose qui est difficile à planifier parfaitement à l’avance.
Nous commençons presque toujours la formation avec de nombreux problèmes non résolus et essayons de surmonter les défis et de progresser pendant l’opération. La principale solution est d’ajouter plus de ressources informatiques.
La phase finale est l’exécution, qui nécessite que de nombreuses personnes investissent beaucoup d’énergie et de motivation pendant longtemps pour terminer le processus de formation.
Sam Altman : Selon vous, quel est l’écart entre nos attentes et la réalité ?
Amin Tootoonchian : En termes de système, nous sommes généralement loin de l’état prévu au début. Nous sommes toujours confrontés à un choix : faut-il reporter le début et attendre que le problème soit résolu, ou commencer tôt et résoudre le problème en cours de route. Cela nécessite toujours un compromis pour éviter des retards déraisonnables dans le processus.
Mais il y a presque toujours des problèmes inattendus, et ce que nous devons faire, c’est traiter ces nœuds autant que possible, traiter les facteurs inconnus et formuler un plan pour la formation du modèle.
Alex Paino : Dans ce projet, notre objectif est de créer GPT-4.5, ce qui signifie que ses capacités devraient être 10 fois plus intelligentes que GPT-4. C’est l’objectif initial que nous nous sommes fixés il y a environ 2 ans.
Beaucoup de choses se sont produites pendant ce processus. Nous nous demandions si nous pouvions faire mieux ou si ce serait pire que prévu ? C’est un processus très compliqué, mais en fin de compte, en termes de calculs efficaces que nous avons investis, nous avons obtenu un modèle qui, selon nous, est 10 fois plus intelligent que GPT-4.
Amin Tootoonchian : En termes d’exécution, le temps passé sur le projet GPT-4.5 est loin de ce que nous avions initialement prévu.
Sam Altman : Pourquoi avez-vous rencontré autant de problèmes lorsque le cluster est passé de 10 000 cartes à 100 000 cartes ?
Amin Tootoonchian : Je pense que si les développeurs de systèmes sont suffisamment sensibles, la plupart des problèmes peuvent être observés dans la phase à petite échelle.
Certains problèmes ne sont pas propres à la phase de formation à grande échelle, mais se sont souvent produits auparavant, mais deviendront des problèmes catastrophiques après l’augmentation de l’échelle, en particulier lorsque l’équipe n’a pas prévu que ces problèmes s’aggraveraient à un tel point.
Sam Altman : Quelles sont les choses qui ont causé des conséquences catastrophiques ?
Amin Tootoonchian : Je pense que les problèmes d’infrastructure sont bien connus, que le taux de défaillance, le type de défaillance ou le montant total de la défaillance soient très élevés. Le cluster de 100 000 cartes est un pool d’échantillons à grande échelle, nous avons donc également découvert des problèmes que le fournisseur de puissance de calcul n’a pas observés.
Le réseau en est un, et les accélérateurs individuels peuvent également avoir des problèmes. Mais c’est aussi la beauté de ce système - presque tous les composants doivent fonctionner comme prévu pour produire les résultats attendus. Notre travail consiste à minimiser ce problème autant que possible.
Sam Altman : Il est en effet difficile de travailler à la limite de la taille du cluster, mais j’ai également remarqué qu’il est devenu beaucoup plus facile de faire des choses qui ne sont plus à la pointe de la technologie. La formation de GPT-4.5 nécessite des centaines de personnes, et OpenAI a presque tout le monde à bord.
Mais aujourd’hui, si vous deviez sélectionner la plus petite équipe d’OpenAI et reformer GPT-4 à partir de zéro avec toutes les connaissances et le travail système que nous connaissons, combien de personnes faudrait-il ?
Alex Paino : Je pense qu’il faut environ 5 à 10 personnes pour créer un modèle de niveau GPT-4 maintenant. La pile technologique a été grandement améliorée au cours du processus d’achèvement de GPT-4.5.
En fait, nous avons fait des choses similaires au cours du processus de formation de GPT-4.5 - nous avons formé GPT-4o, qui est un modèle de niveau GPT-4, et l’avons reformé en utilisant une grande partie du même contenu du projet de recherche GPT-4.5. Moins de personnes ont été utilisées pour cette formation.
Sam Altman : De votre point de vue, Dan ? Pourquoi est-il difficile de former de grands modèles ?
Daniel Selsam : Je pense qu’il est difficile de faire quelque chose de nouveau. Je pense que même le simple fait de découvrir que quelqu’un d’autre a fait quelque chose rend les choses beaucoup plus faciles, car le plus difficile est d’avoir la foi de faire quelque chose en premier lieu. Je pense que le simple fait de savoir que quelque chose est faisable est un super code de triche qui rend les choses beaucoup plus faciles.
Alex Paino : Nous étendons l’exécution de pré-formation GPT à 10 fois sa taille précédente, et nous trouvons toujours de nouvelles choses intéressantes que vous ne pouvez pas nécessairement prédire.
Sam Altman : Que faut-il pour atteindre la prochaine croissance de 10x ou 100x dans l’échelle de pré-formation ?
Daniel Selsam : Efficacité des données. L’architecture Transformer (c’est-à-dire GPT) est très efficace dans l’utilisation des données. Elle peut absorber et compresser les informations et réaliser la généralisation. Sa plus grande caractéristique est qu’elle peut absorber efficacement les informations avec les ressources informatiques.
Cependant, la profondeur de la perspicacité qu’elle tire des données est limitée. Lorsque la puissance de calcul augmente rapidement et que les données augmentent relativement lentement, les données deviennent un goulot d’étranglement pour ce modèle standard. Cela nécessite une innovation algorithmique pour développer des méthodes qui peuvent utiliser plus de puissance de calcul pour apprendre plus de connaissances à partir de la même quantité de données.
Sam Altman : Quoi d’autre pensez-vous que nous devons maintenir l’expansion ?
Amin Tootoonchian : Ma réponse concerne le système. Je pense que l’énorme quantité de travail requise pour GPT-4.5 est essentiellement le résultat inévitable des spécifications du modèle. Nous ne pouvons pas former GPT-4.5 avec exactement la même architecture technique que GPT-4.
En termes de gestion d’état, parce que les ressources informatiques requises ont dépassé la capacité d’un seul cluster, nous devons nous tourner vers une architecture de formation multi-cluster. Pour atteindre cet objectif, nous devons intégrer de multiples flux de travail différents en peu de temps.
Bien que cela nous ait effectivement aidés à réaliser des percées d’étape, pour atteindre la prochaine amélioration de performance d’un ordre de grandeur, nous devons encore résoudre plusieurs problèmes techniques connus mais temporairement mis de côté - ces problèmes ne peuvent être évités. C’est ce genre de compromis technique qui prolonge constamment le cycle de R&D du système parfait, et nous faisons toujours des compromis stratégiques dans le processus de poursuite du plan de mise en œuvre optimal.
Il doit être clair que le système lui-même n’est pas l’objectif ultime, et sa valeur de sortie réelle est la considération principale. Pour la prochaine amélioration de performance de 10x, je pense que la percée dans la tolérance aux pannes est cruciale. Nous devons construire un mécanisme de tolérance aux pannes qui est profondément synergique avec la charge de travail pour réduire considérablement l’anxiété d’exploitation et de maintenance. La complexité d’exploitation et de maintenance des systèmes ultra-larges actuels est essentiellement différente des systèmes précédents.
Sam Altman : Savez-vous quel pourcentage de défaillances ont été causées par certains composants pendant la formation de GPT-4.5 ?
Amin Tootoonchian : Je n’ai pas de chiffres spécifiques à partager, mais en général, dans les premières étapes du déploiement d’une nouvelle génération de matériel, l’exploitation du système est souvent confrontée à de nombreux défis techniques qui ne sont pas entièrement compris. Nous avons choisi d’avancer le projet avant que le problème ne soit entièrement défini, ce qui a conduit à un taux de défaillance initial élevé.
Mais l’expérience a montré qu’au fur et à mesure que la cause profonde est identifiée et résolue, le taux de défaillance diminuera considérablement. Ce phénomène reflète essentiellement notre compréhension approfondie de l’infrastructure - certains l’appellent le nettoyage de l’infrastructure ou la compréhension des problèmes fondamentaux de l’infrastructure.
Les premières étapes de l’exécution sont presque toujours assez douloureuses. Tout en faisant avancer le projet, nous découvrons et résolvons également en continu de nouveaux modes de défaillance, mais le taux de défaillance diminuera progressivement et le temps de fonctionnement normal deviendra plus long.
Il s’agit essentiellement d’une question de compromis de priorité : dans les premières étapes du cycle de vie de l’infrastructure, son risque de défaillance est souvent difficile à estimer avec précision ; et si nous poursuivons excessivement l’état idéal ultime (l’original est ‘City Estate’, la conception idéale de la cité-État), cela peut conduire à une performance de disponibilité du système extrêmement médiocre dans les premières étapes.
Sam Altman : Bien que le modèle de raisonnement soit un élément clé de notre future pile technologique, concentrons-nous temporairement sur la limite de développement du modèle de pré-formation traditionnel. Supposons que nous ayons une puissance de calcul GPU illimitée, une bande passante réseau illimitée et une alimentation électrique illimitée, mais que nous soyons toujours limités par les goulots d’étranglement techniques existants, y compris les problèmes de fiabilité du système, le manque de méthodes de formation tolérantes aux pannes et les limitations des ensembles de données existants.
Selon notre loi d’évolution consistant à atteindre une augmentation d’échelle de 100 fois dans chaque numéro de version GPT majeur, sur la base des limites techniques actuelles, quel niveau peut atteindre le développement du modèle de pré-formation ? Spécifiquement pour les modèles de la série GPT, avec notre système de connaissances existant, quel type de modèle pouvons-nous théoriquement former ? GPT-5.5 peut-il être réalisé ?
Alex Paino : Du point de vue de l’apprentissage automatique et du développement d’algorithmes, nous n’avons pas encore atteint une limite supérieure théorique claire. En fait, nous ne faisons que commencer à explorer des algorithmes avec une efficacité des données plus élevée et comment utiliser plus pleinement les ressources de données existantes. Cette situation est très intéressante - même des modèles comme GPT-4 sont largement développés sous les contraintes de ressources informatiques limitées, ce qui détermine également la direction de la plupart des recherches précédentes.
Mais la situation est complètement différente maintenant. Depuis GPT-4.5, dans certaines dimensions clés, les données plutôt que le calcul deviennent la principale contrainte. Ce changement rend la recherche connexe moins excitante.
Sam Altman : Mais c’est en effet un progrès étonnant, et le monde ne réalise peut-être pas pleinement que les ressources informatiques ne sont plus le principal goulot d’étranglement dans le meilleur modèle que nous pouvons construire. Ce changement est profond, après tout, nous avons vécu trop longtemps dans un environnement contraint par le calcul.
Sam Altman : Quelle est l’expérience d’apprentissage automatique la plus intéressante que nous ayons apprise au cours du processus de formation de GPT-4.5 ? Parlez simplement de ce que vous voulez partager.
Amin Tootoonchian : En général, les plus stimulants sont les situations qui s’écartent de nos prédictions - en particulier lorsque nous essayons de comprendre pourquoi les performances réelles s’écartent de la courbe attendue.
Alex Paino : L’une des découvertes les plus surprenantes pour nous est que les performances d’évolutivité des différents composants d’apprentissage automatique varient considérablement. Certaines parties peuvent être bien mises à l’échelle, tandis que d’autres ne le peuvent pas. C’est ce que nous avons vraiment réalisé dans le processus de formation réel. Cette expérience nous a beaucoup inspiré.
Daniel Selsam : Je pense que les deux principales caractéristiques du paradigme GPT sont : premièrement, la perte de test (une métrique pour mesurer la performance du modèle sur des données de test invisibles) peut être prédite avec précision ; deuxièmement, la performance du modèle montre une amélioration prévisible avec l’expansion de l’échelle. Plus magiquement, la réduction de la perte de test se transformera en un niveau d’intelligence amélioré dans tous les domaines de diverses manières qui sont difficiles à quantifier mais étonnantes.
Sam Altman : Êtes-vous absolument optimiste à ce sujet ? Êtes-vous entièrement d’accord avec ce point de vue ?
Daniel Selsam : En fait, ce que je veux dire, c’est que nous avons trouvé des phénomènes particulièrement intéressants dans le test GPT-4.5 - après un nouveau test, le modèle a montré de nombreuses capacités subtiles qui ont complètement dépassé les attentes de chacun.
Nous sommes sûrs qu’il deviendra plus intelligent de diverses manières qui ne peuvent être définies à l’avance, et après le déploiement réel, nous pouvons observer ces niveaux subtils d’amélioration à partir de la satisfaction des utilisateurs : des réserves de bon sens plus fortes, des capacités de compréhension contextuelle plus précises et une compréhension sémantique plus délicate - c’est exactement la magie apportée par ces pertes de test supplémentaires. À mon avis, la loi de mise à l’échelle a été parfaitement vérifiée dans cette dimension.
Sam Altman : Quel a été le moment le plus positif de l’ensemble du processus de formation ? Quel est votre souvenir préféré ? Il y a évidemment beaucoup de douleur, mais j’espère que ces douleurs ont été atténuées.
Alex Paino : J’ai un tel moment. Nous avons fait beaucoup de travail d’apprentissage automatique pendant la formation. Je pense que certains des changements que nous avons apportés pendant l’opération ont eu un impact assez bon, peut-être meilleur que prévu, ce qui a été un moment très excitant pour nous.
Amin Tootoonchian : Pour moi, en même temps que la formation, nous construisons également une infrastructure. Nous croyons fermement que nous pouvons franchir cette falaise de performance, et nous avons un plan, et tout le monde l’exécute, mais cela prend beaucoup de temps. C’est un travail difficile et certainement plus difficile que je ne le pensais. Ma prédiction était fausse, et j’ai sous-estimé le temps qu’il faudrait pour résoudre ces problèmes.
Le moment où l’équipe a finalement surmonté ces problèmes clés et que la performance s’est considérablement améliorée est encore frais dans ma mémoire. Vous pouvez clairement sentir la transformation énergétique de toute l’équipe - tout le monde est soudainement plein d’énergie et se précipite vers l’objectif final avec une nouvelle motivation.
Le plus magique, c’est que le temps d’achèvement estimé affiché sur notre suivi d’état a continué de raccourcir par rapport aux deux années initiales, et s’est finalement fixé sur un nœud de temps clair. Ce progrès visible a un coup de pouce incommensurable pour le moral de l’équipe. Je pense que c’est la beauté de la chose.
Je voudrais souligner que le travail d’apprentissage automatique ne s’est jamais arrêté. Même après le début de la formation, ce processus de co-conception d’apprentissage automatique se poursuit. L’équipe d’apprentissage automatique non seulement assure activement le suivi des problèmes qui ont été marqués comme ‘traitement ultérieur’, mais continue également à fournir des améliorations qui optimisent véritablement le temps de formation.
Cela reflète parfaitement notre esprit d’équipe - il n’y a pas de frontière de travail ‘chaque personne balaie la neige devant sa propre porte’ ici, mais une collaboration véritablement transparente, et cette cohésion est notre plus grande force.
Sam Altman : Le monde extérieur a beaucoup discuté des défis et de la précision de la prédiction de cette formation elle-même. Mais en fait, tout cela est basé sur une planification extrêmement approfondie - pouvez-vous en parler plus en détail ?
Alex Paino : C’est certainement notre plan le plus approfondi à ce jour. Comme je l’ai dit, nous avons commencé à nous préparer à ce projet un an avant le début officiel de la formation. Pendant cette période, nous avons mené plusieurs tests de contrôle des risques à grande échelle.
Nous accordons une attention particulière à l’introduction progressive de toutes les améliorations : en commençant par une configuration de base à haute confiance - qui peut être comprise comme une architecture mature similaire à GPT-4, nous avons pleinement maîtrisé cette configuration au niveau de l’apprentissage automatique - puis en ajoutant de nouvelles fonctionnalités couche par couche comme des blocs de construction.
La clé est de vérifier strictement l’évolutivité de chaque amélioration à différentes échelles : non seulement pour voir les améliorations de performance, mais aussi pour s’assurer que ces améliorations continuent d’être efficaces à mesure que l’échelle du modèle se développe. De nombreuses améliorations fonctionnent bien dans les tests à petite échelle, mais échoueront dans les applications à grande échelle.
Par conséquent, nous avons maintenu un haut degré de vigilance tout au long du processus et continuons d’itérer et d’améliorer notre méthodologie de loi d’expansion. Grâce à cette pratique de contrôle des risques, nous avons accumulé beaucoup d’expérience précieuse qui continuera à guider le développement des futurs modèles de la série GPT.
Amin Tootoonchian : Je me souviens d’un moment particulièrement intéressant qui me manque beaucoup. Vous savez, nous rencontrons presque toujours divers bogues chaque fois que nous démarrons une tâche de formation. C’est déjà monnaie courante. Mais la clé est de s’assurer que les progrès ne sont pas bloqués et de toujours confirmer que les progrès actuels sont effectivement sur la bonne voie et si ces bogues auront un impact fatal sur la santé de la formation.
Bien que nous ayons été initialement très confiants qu’il y avait des défauts majeurs, grâce à l’ensemble du système de surveillance que nous avons construit, nous avons pu distinguer avec précision la cause profonde du problème : s’agit-il d’une défaillance matérielle ? Quel type de défaillance matérielle ? S’agit-il d’une corruption de données ? Ou s’agit-il d’un bogue dans le modèle d’apprentissage automatique lui-même ? Ou s’agit-il d’une condition de concurrence dans le code ?
À ce moment-là, nous avions plusieurs zones de discussion sur les problèmes ouvertes en même temps, avec divers symptômes. Après une série de corrections de bogues, nous étions bloqués : il y avait plusieurs problèmes non résolus devant nous, et tout le monde se creusait la tête - étaient-ils causés par différents bogues ? Ou s’agit-il d’un bogue au travail ?
Plus tard, nous avons organisé un vote pour laisser les membres de l’équipe voter pour la cause racine la plus probable. L’option la moins prometteuse a frappé la vérité : il s’est avéré qu’il y avait un problème avec la fonction torch.sum en amont de PyTorch, une simple opération de sommation.
Ce bogue est particulièrement intéressant. Vous savez, nous utilisons principalement le noyau Triton, et nous ne reviendrons aux opérations torch que dans certains scénarios de bord non importants. Et le bogue de la fonction torch.sum déclenché par notre chemin de code spécifique causera accidentellement un accès illégal à la mémoire en raison des caractéristiques de distribution des données - il a fait une erreur lors du calcul du décalage de mémoire.
Le plus dramatique, c’est que lorsqu’un ingénieur a finalement localisé le problème et soumis une correction, tous les rapports d’erreurs avec différents symptômes ont disparu. Tout le monde a changé avec enthousiasme le canal Slack de la ‘théorie des multi-bogues’ à la ‘théorie du bogue unique’, et la scène était très joyeuse.
Depuis combien de temps ce bogue se cache-t-il ? Il existe depuis les premières étapes de la formation et n’a été identifié qu’après que la barre de progression a dépassé environ 40%. Le processus de découverte était également plein de drame : à ce moment-là, un noyau complexe appelait séquentiellement des séquences, et le deuxième appel déclenchait un accès illégal à la mémoire.
Bien que cette fréquence de plantage soit extrêmement faible (elle ne se produit qu’une fois tous les quelques centaines voire milliers d’étapes de formation), il est facile de l’ignorer comme un échec occasionnel, mais la ligne directrice de notre équipe est la suivante : ne jamais lâcher prise sur aucune anomalie. La meilleure partie de cette histoire réside dans cette persévérance à ne pas abandonner facilement.
Sam Altman : Que devez-vous faire d’autre après le démarrage de la pré-formation GPT-4.5 ?
Alex Paino : Nous devons tous observer fréquemment la courbe de perte. De plus, nous devons continuer à optimiser le système et à améliorer la co-conception qui n’a pas été achevée avant le début de la formation. Nous surveillons de près diverses statistiques pendant le processus de formation pour nous assurer qu’il n’y a pas de tendances inattendues. En même temps, nous explorons les plans d’amélioration possibles du point de vue de l’apprentissage automatique. Bien que le travail au niveau des données soit temporairement réduit après le démarrage de la pré-formation, il reste encore beaucoup de tâches à traiter.
Amin Tootoonchian : Je pense que l’apprentissage automatique dépend en grande partie du jugement de la justesse. Après le démarrage de la pré-formation, face à une grande quantité de signaux de bruit, nous sommes comme des diseuses de bonne aventure interprétant le marc de thé, et nous devons juger si le système est sain. C’est notre responsabilité.
Sam Altman : Au niveau du système, qu’est-ce qui nous empêchera de mener une formation de modèle ? Est-ce la puce, le processeur, la mémoire, le réseau ou l’alimentation électrique ?
Amin Tootoonchian : La beauté du système est que, lors de la conception collaborative, la charge de travail peut s’adapter à l’infrastructure que vous construisez. Il n’y a pas de dicton universel selon lequel le réseau est le goulot d’étranglement, ou la bande passante de la mémoire est le goulot d’étranglement, etc. Même pour les modèles de la même spécification, nous pouvons choisir de transférer les exigences de ressources. Nous pouvons choisir de créer un système plus équilibré, mais avoir plus de bande passante mémoire est toujours bénéfique. Il est difficile de répondre à cette question sans limiter les conditions.
Lors de la conception de GPT-4.5, nous pouvons avoir besoin d’avoir un certain attribut dans le système, qui doit être généré par le biais d’une orientation humaine. Par conséquent, la conception collaborative est très importante pour former l’architecture du modèle et les éléments architecturaux, et relie dans une certaine mesure les aspects système et apprentissage automatique. Si le système a un attribut que nous ne voulons pas avoir beaucoup. Ma situation idéale est que tout devrait être découplé pour donner à chacun le plus grand espace.
Parfois, les choses sont connectées ensemble, et nous devons répondre aux exigences de l’infrastructure, ou les choses devraient être comme ça. La plupart du temps, nous avons besoin d’un système équilibré, d’une communication équilibrée. Et le meilleur moyen de réglementation dont nous disposons est toutes ces conceptions collaboratives.
Sam Altman : Dans quelle mesure sommes-nous proches d’un tel objectif de système idéal ?
Amin Tootoonchian : Nous sommes loin de cet objectif. Le processus de construction d’un système est toujours comme ceci : d’abord, il y a une vision idéalisée de la façon dont les choses devraient fonctionner, puis ces différences sont réconciliées avec les ressources existantes.
Je ne pense pas que nous le faisons pour la théorie pour le bien de la théorie, mais juste pour discuter de ce que nous voulons qu’il devienne, pour le réaliser et pour se rapprocher le plus possible de cet idéal. C’est peut-être la partie la plus excitante du domaine des systèmes. Les gens disaient autrefois qu’il s’agissait d’une conception de système élégante, et finalement l’histoire nous dira si ce choix est bon ou mauvais.
Sam Altman : Si vous pouviez obtenir une réponse à une question d’apprentissage automatique avant la prochaine grande formation, que voudriez-vous le plus savoir ?
Alex Paino : Je veux savoir quels algorithmes nous devrions utiliser avec des données limitées et des domaines spécifiques. Bien que ce soit une question large, elle est en effet la plus critique.
Sam Altman : Mènerez-vous une pré-formation synchrone avec 10 millions de GPU ou plus à l’avenir ?
Alex Paino : Je pense qu’il y en aura, mais ce ne sera peut-être pas le modèle de pré-formation traditionnel. Sa forme peut être très différente des technologies existantes, mais elle conservera toujours le cœur de l’apprentissage non supervisé.
Amin Tootoonchian : Je préfère un modèle semi-synchrone. En raison des lois physiques, la synchronisation complète n’est pas très réaliste.
Daniel Selsam : Je pense qu’il est plus probable qu’il soit décentralisé. Il y aura certainement 10 millions de GPU travaillant ensemble dans un système d’IA qui apprend et effectue des tâches, mais comme les différentes parties du cerveau, ils ne communiqueront pas nécessairement entre eux.
Sam Altman : Quelle est la différence entre les algorithmes les plus avancés actuels et l’efficacité des données humaines ? Est-il possible de rattraper son retard à l’avenir ?
Daniel Selsam : Les deux sont difficiles à comparer directement. L’écart dans l’apprentissage des langues est certainement énorme. La clé réside dans la façon de définir la quantité d’informations reçues par les nerfs optiques humains. Je pense que l’efficacité globale des données des algorithmes est bien inférieure à celle des humains.
Pendant des décennies, l’apprentissage profond s’est concentré sur l’efficacité informatique. En plus de la croissance des données et de la puissance de calcul, ce qui est vraiment surprenant, c’est l’effet superposé produit par les améliorations algorithmiques. Chaque fois que la performance de l’algorithme est améliorée de 10% ou 20%, cela aura un effet significatif lorsqu’il est superposé à l’efficacité des données. Jusqu’à présent, il n’y a pas eu une telle mobilisation autour de l’efficacité des données, car cela n’en vaut pas la peine lorsque les données ne circulent pas et que la puissance de calcul est limitée.
Maintenant, nous entrons dans une nouvelle étape de la recherche sur l’IA, et nous allons commencer à accumuler des victoires en matière d’efficacité des données. Je pense qu’il est un peu insensé de prédire maintenant que nous allons rencontrer des obstacles insurmontables. La façon dont le cerveau humain fonctionne est certainement différente de nos améliorations algorithmiques, et nous devrions être prudents à cet égard. Mais je pense que nous devrions rester optimistes quant au développement futur des algorithmes.
Sam Altman : Quelle est la corrélation entre la pré-formation à plus grande échelle et les capacités d’apprentissage et de raisonnement plus fortes du modèle ?
Alex Paino : Ce que nous avons observé, c’est qu’une meilleure pré-formation et un meilleur apprentissage non supervisé ont tendance à améliorer l’intelligence globale du modèle et à grandement contribuer à la généralisation, ce qui est complémentaire à la capacité de raisonnement, tandis que le raisonnement peut être un peu plus ennuyeux dans l’amélioration de l’intelligence. Je pense qu’ils sont complémentaires.
Sam Altman : La pré-formation semble être universelle dans beaucoup de choses, tandis que la formation d’un modèle ne peut que lui permettre de bien faire dans un seul type de chose, c’est bien ça ?
Alex Paino : C’est très intéressant, mais quand vous voyez les données qui les forment, vous ne serez pas surpris par cette situation. L’ensemble des données de pré-formation est très large, et ce que nous recherchons, c’est l’étendue et la diversité. En ce qui concerne l’apprentissage par renforcement du modèle et lui faire obtenir clairement de bons signaux de récompense et un bon environnement de formation, je pense qu’il est difficile de prendre en compte l’étendue de l’ensemble des données.
Daniel Selsam : Je suis d’accord, mais je pense qu’il y a un autre facteur. La pré-formation consiste essentiellement à compresser des données, découvrant ainsi les liens entre différentes choses. Il s’agit d’analogie et de plus abstrait. Le raisonnement est une compétence qui nécessite une réflexion approfondie sur une question spécifique et peut également obtenir des solutions pour de nombreux types de problèmes. Mais dans le processus de pré-formation, des connaissances plus abstraites peuvent être apprises lors de la compression de données dans différents domaines.
Sam Altman : Pourquoi l’apprentissage non supervisé est-il efficace ?
Daniel Selsam : La clé est la compression. La forme idéale d’intelligence est l’induction de Solomonov. En général, l’apprentissage automatique considérera toutes les possibilités, mais aura tendance à commencer par des programmes plus simples pour les tests.
L’essence de la pré-formation actuelle est un processus de compression, qui réalise une expression approximative en trouvant le programme le plus simple pour expliquer toutes les données que les humains ont produites jusqu’à présent.
Sam Altman : Comment la prédiction du prochain jeton aide-t-elle à réaliser la compression ?
Daniel Selsam : Il y a un paradoxe dans les statistiques - pourquoi les réseaux profonds semblent-ils incapables de compresser mais peuvent réaliser la généralisation ? Normalement, lorsque vous avez beaucoup de données et de petits modèles, ces modèles doivent passer par la compression pour apprendre quelque chose.
Dans la pré-formation, l’échelle des données et des modèles est très grande. Certaines personnes pensent que cette formation n’est que de la mémoire et de l’apprentissage par interpolation. En fait, ils ignorent une autre perspective de compréhension de la compression - la compression préquentielle. C’est comme un compresseur. Même si le poids des données est très important, le binaire n’a pas besoin de stocker cette information. Le résultat de la prédiction du prochain jeton peut rapidement récupérer des informations utiles et améliorer l’efficacité de la compression.
Sam Altman : Le processus de formation de GPT-4.5 a coûté beaucoup de main-d’œuvre, de temps et d’argent, ce qui peut en fait être considéré comme une expérience pour vérifier la loi de mise à l’échelle, et les résultats prouvent qu’elle est efficace et se poursuivra pendant longtemps. Pourquoi la loi de mise à l’échelle peut-elle être appelée la loi de l’univers ?
Daniel Selsam : Plus le degré de compression est élevé, plus l’intelligence est puissante, ce qui a des implications philosophiques profondes. Pourquoi faut-il plus de temps pour former des modèles plus grands et le taux de compression est-il plus élevé ? Cela implique de nombreuses théories, parmi lesquelles j’aime les représentations éparses.
Les concepts clés dans la réalité suivent une distribution de loi de puissance. Par exemple, le 100e concept le plus important ne peut apparaître qu’une fois dans tous les 100 documents, et il existe un effet de longue traîne évident. Cette caractéristique de distribution signifie que des données et une puissance de calcul à grande échelle sont nécessaires pour capturer efficacement tous les concepts clés, et détermine également que la loi de mise à l’échelle sera efficace pendant longtemps.