L’aube de l’évolution de l’IA : Un voyage de 25 ans de PageRank à l’AGI
Deux sommités de l’odyssée technologique de Google, Jeff Dean, l’actuel Chief Scientist, et Noam Shazeer, une figure centrale derrière le modèle Transformer qui a rejoint les rangs, ont récemment participé à un dialogue éclairant. Animée par le célèbre podcasteur Dwarkesh Patel, leur conversation a offert un aperçu de l’évolution de l’IA, allant des jours fondateurs de MapReduce à l’ère transformatrice des architectures Transformer et MoE.
Ces vétérans chevronnés, avec une expérience combinée de plusieurs décennies chez Google, ont non seulement été témoins, mais ont activement façonné les technologies déterminantes de l’internet et de l’intelligence artificielle. Ironiquement, Shazeer a avoué que sa motivation initiale pour rejoindre Google était une quête financière à court terme, un plan qui a été considérablement bouleversé par ses contributions ultérieures au domaine.
L’état actuel et la trajectoire future du calcul de l’IA
Dans un échange tentaculaire de deux heures, Dean et Shazeer ont dévoilé des informations sur l’état actuel du calcul de l’IA, révélant que :
- L’échelle des opérations a transcendé les centres de données individuels ; l’entraînement de Gemini s’étend désormais sur plusieurs centres de données dans différentes zones métropolitaines, fonctionnant de manière asynchrone.
- Il existe une marge de croissance substantielle dans la mise à l’échelle du calcul d’inférence, car l’interaction avec l’IA reste considérablement plus rentable que la lecture traditionnelle.
- Les futures architectures de modèles devraient surpasser la flexibilité de MoE, permettant le développement indépendant de divers composants de modèles par différentes équipes.
Aperçus des tranchées : Programmes de primes aux bogues et architectures futures
La conversation a également suscité l’intérêt sur les médias sociaux, les utilisateurs mettant en évidence des concepts intrigants, tels que :
- Le potentiel de stockage de vastes modèles MoE en mémoire.
- Les avantages inattendus des bogues dans le code, qui, à mesure que l’échelle augmente, peuvent conduire par inadvertance à des découvertes révolutionnaires.
Dean a contesté l’idée que le calcul de l’IA est prohibitif. En comparant le coût d’interaction avec un livre par rapport à l’interaction avec une IA à propos du même livre, il a illustré un point convaincant :
Les modèles linguistiques les plus avancés fonctionnent à un coût étonnamment bas d’environ $10^{-18}$ par opération, ce qui se traduit par un million de jetons traités pour un seul dollar. En revanche, l’achat d’un livre de poche offre seulement 10 000 jetons par dollar.
Cette différence frappante - un avantage de coût centuple pour l’interaction avec l’IA - souligne le potentiel inexploité d’amélioration de l’intelligence de l’IA grâce à un calcul d’inférence accru.
D’un point de vue infrastructurel, l’importance croissante du calcul au moment de l’inférence pourrait remodeler la planification des centres de données. Cela pourrait nécessiter un matériel spécifiquement adapté aux tâches d’inférence, rappelant les TPU de première génération de Google, initialement conçus pour l’inférence et plus tard adaptés à l’entraînement.
Calcul distribué et asynchrone : Un nouveau paradigme
L’accent croissant mis sur l’inférence suggère qu’une communication continue entre les centres de données pourrait devenir inutile, conduisant potentiellement à un modèle de calcul plus distribué et asynchrone.
Gemini 1.5 s’est déjà engagé sur cette voie, en exploitant les ressources de calcul dans plusieurs grandes villes. Les réseaux à haut débit synchronisent les calculs provenant de différents centres de données, atteignant des échelles d’entraînement sans précédent. Pour les grands modèles, où chaque étape d’entraînement peut prendre plusieurs secondes, même une latence de réseau de 50 millisecondes a un impact minimal.
Dans le domaine de l’inférence, la sensibilité à la latence devient une considération essentielle. Alors que les réponses immédiates exigent des performances optimisées à faible latence, les tâches non urgentes, telles que l’analyse contextuelle complexe, peuvent tolérer des temps de traitement plus longs.
Un système plus adaptable et efficace pourrait gérer de manière asynchrone plusieurs tâches, améliorant les performances globales tout en minimisant les temps d’attente des utilisateurs. De plus, les avancées algorithmiques, comme l’utilisation de modèles de brouillon plus petits, peuvent atténuer les goulots d’étranglement dans le processus d’inférence. Cette approche implique que des modèles plus petits génèrent des jetons potentiels, qui sont ensuite vérifiés par des modèles plus grands, accélérant considérablement le processus d’inférence grâce à la parallélisation.
Shazeer a ajouté que pendant l’entraînement asynchrone, chaque réplique de modèle fonctionne indépendamment, envoyant des mises à jour de gradient à un système central pour une application asynchrone. Malgré les implications théoriques de légères fluctuations de paramètres, cette méthode s’est avérée remarquablement efficace.
En revanche, l’entraînement synchrone offre stabilité et reproductibilité, une préférence pour de nombreux chercheurs. Pour assurer la reproductibilité de l’entraînement, Dean a souligné la pratique de l’enregistrement des opérations, en particulier les mises à jour de gradient et la synchronisation des lots de données. En rejouant ces journaux, même l’entraînement asynchrone peut produire des résultats reproductibles, ce qui rend le débogage plus facile à gérer et atténue les incohérences causées par des facteurs environnementaux.
Le rôle fortuit des bogues
Développant ce point, Shazeer a présenté une perspective intrigante :
Alors que les modèles d’entraînement rencontrent divers bogues, la tolérance au bruit inhérente à ces modèles permet un auto-ajustement, conduisant à des résultats imprévus. Certains bogues produisent même des effets positifs, présentant des opportunités d’amélioration à mesure que l’échelle amplifie les anomalies expérimentales.
Lorsqu’on l’a interrogé sur les pratiques de débogage, Shazeer a décrit leur approche consistant à effectuer de nombreuses expériences à petite échelle pour une validation rapide. Cette méthode simplifie la base de code et raccourcit les cycles d’expérimentation à quelques heures au lieu de quelques semaines, facilitant la rétroaction et les ajustements rapides.
Dean a acquiescé, notant que de nombreuses expériences avec des résultats initialement défavorables pourraient plus tard fournir des informations cruciales. Cependant, les chercheurs sont confrontés au défi de la complexité du code ; bien que des améliorations progressives soient nécessaires, elles introduisent également des défis de performance et de maintenance, nécessitant un équilibre entre la propreté du système et l’innovation.
La structure organique des futurs modèles
Dean et Shazeer envisagent un changement significatif dans les modèles d’IA, passant de structures monolithiques à des architectures modulaires.
Les modèles comme Gemini 1.5 Pro utilisent déjà une architecture Mixture of Experts (MoE), activant différents composants en fonction de la tâche. Par exemple, les problèmes mathématiques engagent la section compétente en mathématiques, tandis que le traitement d’images active le module spécialisé correspondant.
Cependant, les structures de modèles actuelles restent quelque peu rigides, les modules d’experts étant de taille uniforme et manquant de flexibilité. Dean a proposé une vision plus avant-gardiste : les futurs modèles devraient adopter une structure organique, permettant à différentes équipes de développer ou d’améliorer indépendamment des parties distinctes du modèle.
Par exemple, une équipe spécialisée dans les langues d’Asie du Sud-Est pourrait affiner le module pertinent, tandis qu’une autre se concentre sur l’amélioration de la compréhension du code. Cette approche modulaire non seulement stimule l’efficacité du développement, mais permet également aux équipes mondiales de contribuer à l’avancement du modèle.
Techniquement, les modèles peuvent optimiser continuellement les modules individuels grâce à la distillation. Cela implique de condenser de grands modules performants en versions plus petites et efficaces, qui continuent ensuite d’acquérir de nouvelles connaissances.
Un routeur peut sélectionner la version de module appropriée en fonction de la complexité de la tâche, équilibrant performance et efficacité - un concept central de l’architecture Pathway de Google.
Cette nouvelle architecture exige une infrastructure robuste, comprenant des clusters TPU puissants et une mémoire à large bande passante (HBM) abondante. Bien que chaque appel puisse utiliser seulement une fraction des paramètres du modèle, l’ensemble du système doit conserver le modèle complet en mémoire pour servir les requêtes simultanées.
Les modèles actuels peuvent décomposer une tâche en 10 sous-tâches avec un taux de réussite de 80 %. Les futurs modèles pourraient potentiellement décomposer une tâche en 100 ou 1 000 sous-tâches, atteignant des taux de réussite de 90 % ou plus.
Le moment “Holy Shit” : Reconnaissance précise des chats
En rétrospective, 2007 a marqué une étape importante pour les grands modèles linguistiques (LLM).
À cette époque, Google a entraîné un modèle N-gram utilisant 2 billions de jetons pour la traduction automatique. Cependant, la dépendance au stockage sur disque pour les données N-gram a entraîné une latence élevée en raison d’E/S disque étendues (par exemple, 100 000 recherches/mot), prenant 12 heures pour traduire une seule phrase.
Pour résoudre ce problème, ils ont conçu plusieurs stratégies, notamment la compression de la mémoire, l’architecture distribuée et l’optimisation de l’API de traitement par lots :
- Compression de la mémoire : Charger les données N-gram entièrement en mémoire pour éviter les E/S disque.
- Architecture distribuée : Distribuer les données sur plusieurs machines (par exemple, 200) pour les requêtes parallèles.
- Optimisation de l’API de traitement par lots : Réduire la surcharge par requête pour améliorer le débit.
Au cours de cette période, la puissance de calcul a commencé à suivre la loi de Moore, conduisant à une croissance exponentielle.
“À partir de la fin de 2008, grâce à la loi de Moore, les réseaux neuronaux ont vraiment commencé à fonctionner.”
Lorsqu’on lui a demandé un moment “Holy shit” - un moment d’incrédulité qu’un effort de recherche particulier ait réellement fonctionné - Jeff a raconté le projet d’une équipe Google au début où ils ont entraîné un modèle pour apprendre des caractéristiques de haut niveau (comme la reconnaissance des chats et des piétons) à partir d’images vidéo YouTube. Grâce à l’entraînement distribué (2 000 machines, 16 000 cœurs), ils ont réalisé un apprentissage non supervisé à grande échelle.
Après le pré-entraînement non supervisé, les performances du modèle dans les tâches supervisées (ImageNet) se sont améliorées de 60 %, démontrant le potentiel de l’entraînement à grande échelle et de l’apprentissage non supervisé.
Répondant à la question de savoir si Google reste principalement une entreprise de recherche d’informations, Jeff a souligné :
“L’IA remplit la mission originale de Google.”
En substance, l’IA non seulement récupère des informations, mais comprend et génère également un contenu complexe, avec un vaste potentiel futur. Quant à la direction future de Google, “Je ne sais pas”.
Cependant, on peut anticiper l’intégration de Google et d’un certain code open-source dans le contexte de chaque développeur. En d’autres termes, en permettant aux modèles de traiter plus de jetons, la recherche dans la recherche améliorera encore les capacités et l’utilité du modèle.
Ce concept est déjà expérimenté en interne chez Google.
“En fait, nous avons déjà effectué un entraînement supplémentaire sur le modèle Gemini pour les développeurs internes sur notre base de code interne.”
Plus précisément, Google a atteint en interne l’objectif de 25 % de son code étant écrit par l’IA.
Les moments les plus heureux chez Google
Fait intéressant, le duo a également partagé des expériences plus intrigantes liées à Google.
Pour Noam en 1999, rejoindre une grande entreprise comme Google était initialement peu attrayant, car il sentait que ses compétences pourraient être sous-utilisées. Cependant, après avoir vu le graphique de l’indice de volume de recherche quotidien de Google, il a rapidement changé d’avis :
“Ces gens vont forcément réussir, et il semble qu’ils aient beaucoup de problèmes intéressants à résoudre.”
Il a rejoint avec une intention “petite” spécifique :
“Gagner de l’argent, puis poursuivre joyeusement mes propres intérêts de recherche en IA.”
En rejoignant Google, il a rencontré son mentor, Jeff (de nouveaux employés ont été affectés à des mentors), et ils ont collaboré sur plusieurs projets.
À ce stade, Jeff a interrompu avec sa propre appréciation pour Google :
“J’aime le mandat large de Google pour la vision RM (Responsive et Multimodal), même si c’est une seule direction, nous pouvons faire de nombreux petits projets.”
Cela a également fourni à Noam la liberté qui a conduit la personne qui avait initialement prévu de “frapper et courir” à rester à long terme.
Pendant ce temps, lorsque le sujet s’est tourné vers Jeff, sa thèse de premier cycle sur la rétropropagation parallèle a été revisitée.
Ce document de 8 pages est devenu la meilleure thèse de premier cycle de 1990 et est conservé dans la bibliothèque de l’Université du Minnesota. Dans ce document, Jeff a exploré deux méthodes d’entraînement parallèle des réseaux neuronaux basées sur la rétropropagation :
- Approche partitionnée par motif : Représenter l’ensemble du réseau neuronal sur chaque processeur et diviser les motifs d’entrée entre les processeurs disponibles.
- Approche partitionnée par réseau (approche pipelinée) : Distribuer les neurones du réseau neuronal entre les processeurs disponibles, formant un anneau communicant. Les caractéristiques passent à travers ce pipeline, traitées par les neurones sur chaque processeur.
Il a testé ces méthodes avec des réseaux neuronaux de différentes tailles et diverses données d’entrée. Les résultats ont montré que pour l’approche partitionnée par motif, les grands réseaux et plus de motifs d’entrée ont donné une meilleure accélération.
Plus particulièrement, le document révèle à quoi ressemblait un “grand” réseau neuronal en 1990 :
“Un réseau neuronal à 3 couches avec 10, 21 et 10 neurones par couche était considéré comme très grand.”
Jeff a rappelé qu’il avait utilisé jusqu’à 32 processeurs pour ses tests.
(À cette époque, il ne pouvait probablement pas imaginer que 12 ans plus tard, lui, avec Andrew Ng, Quoc Le et d’autres, utiliseraient 16 000 cœurs de CPU pour identifier les chats à partir de données massives.)
Cependant, Jeff a admis que pour que ces résultats de recherche soient vraiment efficaces, “nous avions besoin d’environ un million de fois plus de puissance de calcul.”
Plus tard, ils ont discuté des risques potentiels de l’IA, en particulier du problème de la boucle de rétroaction lorsque l’IA devient extrêmement puissante. En d’autres termes, l’IA pourrait entrer dans une boucle d’accélération incontrôlable (c’est-à-dire “explosion d’intelligence”) en écrivant du code ou en améliorant ses algorithmes.
Cela pourrait conduire à ce que l’IA dépasse rapidement le contrôle humain, créant même des versions malveillantes. Comme l’a dit l’animateur, imaginez “un million de meilleurs programmeurs comme Jeff, se transformant finalement en un million de Jeffs maléfiques”.
(Internaute) : “Nouveau cauchemar débloqué, haha !”
Enfin, réfléchissant à leurs moments les plus heureux chez Google, tous deux ont partagé leurs souvenirs.
Pour Jeff, les moments les plus joyeux des premières années de Google ont été de voir la croissance explosive du trafic de recherche de Google.
“Construire quelque chose que 2 milliards de personnes utilisent maintenant est incroyable.”
Récemment, il a été ravi de construire des choses avec l’équipe Gemini que les gens n’auraient pas cru possibles il y a même cinq ans, et il prévoit que l’impact du modèle s’étendra encore davantage.
Noam a répété des expériences similaires et un sentiment de mission, mentionnant même affectueusement les “micro-cuisines” de Google.
Il s’agit d’un espace spécial avec environ 50 tables, offrant du café et des collations, où les gens peuvent discuter et échanger des idées librement.
À cette mention, même Jeff est devenu animé (doge).