Dans une fascinante collision d’ères technologiques, un récit a émergé qui jette un pont entre les débuts de l’informatique domestique généralisée et la pointe de l’intelligence artificielle. Marc Andreessen, figure éminente du monde de la tech et co-fondateur de l’influente société de capital-risque Andreessen Horowitz, a récemment mis en lumière un exploit remarquable : une version compacte du modèle d’intelligence artificielle Llama de Meta a été opérée avec succès sur un ordinateur exécutant le vénérable système d’exploitation Windows 98, équipé de seulement 128 mégaoctets de RAM. Cette révélation sert de puissant rappel du potentiel technologique et soulève des questions intrigantes sur la trajectoire historique de l’informatique.
L’idée même de faire tourner une IA sophistiquée, même réduite, sur du matériel datant de plus d’un quart de siècle semble presque paradoxale. L’IA générative moderne, la technologie derrière des outils comme ChatGPT et le propre Copilot de Microsoft, est généralement associée à des processeurs puissants, des allocations mémoire substantielles et, souvent, une infrastructure basée sur le cloud. Microsoft lui-même a massivement investi dans l’intégration des capacités d’IA, en particulier son assistant Copilot, profondément dans son dernier système d’exploitation, Windows 11, et une nouvelle génération de matériel baptisée Copilot+ PCs, conçue explicitement pour les charges de travail d’IA. Ce contraste rend l’expérience Windows 98 d’autant plus frappante. Elle remet en question nos hypothèses sur les ressources réellement nécessaires pour certaines fonctions d’IA et offre un aperçu d’une chronologie technologique alternative.
Ressusciter le Passé : L’Effort Herculéen Derrière l’Expérience
Bien qu’Andreessen ait attiré une plus large attention sur cet accomplissement, le travail technique de fond semble provenir de travaux antérieurs, notamment de l’équipe d’Exo Labs. Leur parcours pour amadouer une IA moderne sur une machine aussi ancienne était loin d’être simple ; c’était un exercice d’archéologie numérique et de résolution créative de problèmes, soulignant les vastes différences entre l’informatique d’hier et d’aujourd’hui.
Le premier obstacle concernait la logistique de base et la compatibilité matérielle. Trouver du matériel fonctionnel de l’ère Windows 98 est déjà un défi. Mais au-delà du simple démarrage de la machine, l’équipe avait besoin de périphériques. Les interfaces USB modernes, omniprésentes aujourd’hui, n’étaient pas la norme à l’apogée de Windows 98. Cela a nécessité de se procurer des périphériques d’entrée compatibles utilisant les anciens connecteurs PS/2 – des claviers et des souris que de nombreux jeunes passionnés de technologie n’ont peut-être jamais rencontrés.
Une fois la configuration physique réglée, l’obstacle majeur suivant était le transfert de données. Comment transférer les fichiers du modèle d’IA nécessaires et les outils de développement sur une machine dépourvue d’options de connectivité modernes comme les ports USB haut débit ou une intégration réseau transparente ? Cela a probablement impliqué de recourir à des méthodes plus anciennes et plus lentes, peut-être en gravant des fichiers sur des CD ou en utilisant les protocoles réseau limités de l’époque, transformant une simple copie de fichier en un processus potentiellement chronophage.
Le défi technique principal résidait cependant dans la compilation de code moderne pour un environnement ancien. Le modèle d’IA, basé sur l’architecture Llama de Meta, est construit à l’aide de pratiques et de langages de programmation contemporains. Rendre ce code compréhensible et exécutable par Windows 98 nécessitait un compilateur – un programme qui traduit le code source en langage machine – capable de fonctionner sur l’ancien système d’exploitation et de gérer les complexités du code de l’IA.
Exo Labs s’est initialement tourné vers Borland C++ 5.02, lui-même un morceau d’histoire logicielle – un environnement de développement intégré (IDE) et une combinaison de compilateur vieux de 26 ans qui fonctionnait nativement sous Windows 98. Ce choix représentait un pont potentiel entre la base de code moderne et le système d’exploitation vintage. Cependant, le chemin était semé d’embûches. Les subtilités des normes et bibliothèques C++ modernes se sont avérées difficiles à concilier avec les capacités et les limitations du compilateur Borland et de l’environnement Windows 98. Des problèmes de compatibilité sont apparus, forçant l’équipe à pivoter.
Leur solution a impliqué de revenir à une version plus ancienne du langage de programmation C. Bien que C soit un langage fondamental et le précurseur de C++, utiliser une ancienne norme C signifiait sacrifier certaines des abstractions de plus haut niveau et des commodités de C++. Cela a nécessité un processus de codage plus laborieux, gérant manuellement des éléments comme les fonctions et les variables que C++ gère plus élégamment. Les progrès étaient inévitablement plus lents, exigeant une attention méticuleuse aux détails pour éviter les erreurs que les anciens outils de développement pourraient ne pas détecter facilement.
La Compression de la Mémoire : Dompter Llama pour des Ressources Limitées
La contrainte la plus redoutable était peut-être la mémoire vive (RAM) extrêmement limitée. La machine cible ne possédait que 128 mégaoctets de RAM. Pour mettre cela en perspective, les smartphones modernes sont couramment livrés avec 8, 12, voire 16 gigaoctets de RAM (un gigaoctet équivalant à environ 1000 mégaoctets). Les PC haut de gamme conçus pour les jeux ou le travail professionnel disposent souvent de 32 Go, 64 Go ou plus. Exécuter une application complexe comme un modèle d’IA dans une empreinte mémoire aussi minuscule revient à effectuer une chirurgie complexe dans un placard à balais.
La famille de modèles Llama de Meta, bien que généralement considérée comme plus économe en ressources que des mastodontes comme GPT-4 d’OpenAI, comprend toujours des versions avec des milliards de paramètres. L’architecture Llama 2, par exemple, inclut des modèles allant jusqu’à 70 milliards de paramètres. Ces modèles plus grands exigent une puissance de calcul importante et, surtout, de vastes quantités de mémoire pour charger les poids du modèle et gérer les calculs impliqués dans le traitement des informations et la génération de réponses. Un modèle Llama 2 standard serait totalement incapable de fonctionner dans une contrainte de 128 Mo.
Par conséquent, le succès de l’expérience reposait sur l’utilisation ou le développement d’une itération hautement optimisée et significativement plus petite de l’architecture Llama. Cette version spécialisée devait être spécifiquement adaptée pour fonctionner sous de sévères limitations matérielles. Elle impliquait probablement des techniques telles que la quantification du modèle (réduction de la précision des nombres utilisés dans les calculs du modèle) et l’élagage (suppression des parties moins importantes du réseau neuronal) pour réduire considérablement son empreinte mémoire et computationnelle. Exo Labs a rendu sa version adaptée disponible sur GitHub, présentant les modifications spécifiques nécessaires.
Cette minuscule IA, fonctionnant sur du matériel obsolète, ne posséderait pas les vastes connaissances ou les capacités conversationnelles nuancées de ses cousins plus grands, exécutés dans le cloud. Ses capacités seraient restreintes. Pourtant, le simple fait qu’elle puisse fonctionner et effectuer des tâches génératives de base représente une réalisation technique significative. Cela démontre que les concepts fondamentaux des grands modèles de langage peuvent, en principe, être considérablement réduits, même si l’utilité pratique est limitée à de tels extrêmes.
La Provocation d’Andreessen : Une Chronologie Perdue pour l’Informatique Conversationnelle ?
Marc Andreessen s’est emparé de cette démonstration technique pour formuler une remarque plus large et plus provocatrice sur l’histoire et l’avenir potentiel de l’informatique. Sa réflexion ne portait pas seulement sur la curiosité technique de faire tourner un nouveau logiciel sur du vieux matériel ; c’était une méditation sur une possible histoire alternative de l’interaction homme-machine.
Il a articulé cela en suggérant que le fonctionnement réussi de Llama sur un PC Dell vieux de 26 ans implique une opportunité manquée s’étendant sur des décennies. ‘Tous ces vieux PC auraient littéralement pu être intelligents pendant tout ce temps’, a postulé Andreessen. ‘Nous aurions pu parler à nos ordinateurs depuis 30 ans maintenant.’
Cette déclaration nous invite à imaginer un monde où la trajectoire du développement de l’IA aurait convergé différemment avec l’essor de l’informatique personnelle. Au lieu que les PC soient principalement des outils de calcul, de création de documents et, finalement, d’accès à Internet, peut-être auraient-ils pu évoluer beaucoup plus tôt en partenaires conversationnels. L’image évoquée est celle d’utilisateurs interagissant avec leurs machines Windows 95, 98, ou même antérieures par le langage naturel, posant des questions, obtenant de l’aide et engageant un dialogue d’une manière qui n’est devenue une réalité courante qu’avec l’avènement des assistants numériques modernes et des LLM sophistiqués.
Bien sûr, il s’agit d’un saut contrefactuel important. L’IA générative, telle que nous la comprenons aujourd’hui, avec sa dépendance à des ensembles de données massifs, des architectures de réseaux neuronaux sophistiquées (comme l’architecture Transformer sous-jacente aux modèles Llama et GPT), et une immense puissance de calcul pour l’entraînement, est un phénomène relativement récent. La recherche en IA des années 1980 et 1990, bien qu’ambitieuse, se concentrait sur des paradigmes différents, tels que les systèmes experts et le raisonnement symbolique. Le matériel de l’époque, bien que capable de faire tourner la version allégée de Llama démontrée par Exo Labs, était des ordres de grandeur moins puissant que les systèmes actuels, et les vastes ensembles de données numériques nécessaires pour entraîner des modèles génératifs capables n’existaient tout simplement pas sous une forme accessible.
Andreessen a reconnu ce contexte, notant l’optimisme du boom de l’IA des années 1980 : ‘Beaucoup de gens intelligents dans les années 80 pensaient que tout cela allait se produire alors.’ Cette époque a vu des investissements et des recherches importants en intelligence artificielle, mais elle a finalement conduit à un ‘hiver de l’IA’ – une période de financement et d’intérêt réduits lorsque la technologie n’a pas réussi à tenir ses promesses les plus ambitieuses. Les limitations en termes de puissance de calcul, de disponibilité des données et d’approches algorithmiques étaient profondes.
Par conséquent, le commentaire d’Andreessen est peut-être mieux compris non pas comme une affirmation littérale selon laquelle une IA sophistiquée, semblable à l’humain, était réalisable sur le matériel des années 1990 de la manière dont nous l’expérimentons maintenant, mais plutôt comme une expérience de pensée. Elle met en évidence le potentiel qui aurait pu être débloqué si les priorités de recherche, les percées algorithmiques et le développement matériel avaient suivi un cours différent. Elle souligne l’idée que les éléments constitutifs d’une certaine forme d’interaction intelligente auraient pu être techniquement réalisables, même si le résultat aurait été beaucoup plus simple que l’IA d’aujourd’hui.
Contraste des Époques : Des Rêves du Dial-Up à la Réalité Infusée d’IA
L’expérience Windows 98 sert de point de contraste frappant avec le paysage actuel de l’intégration de l’IA. Aujourd’hui, l’IA passe rapidement d’un service centré sur le cloud à une intégration profonde au sein du système d’exploitation et même du matériel lui-même.
La poussée de Microsoft avec Copilot et les Copilot+ PCs illustre cette tendance. Windows 11 propose de nombreux points d’entrée pour Copilot, offrant une assistance IA pour des tâches allant du résumé de documents et de la rédaction d’e-mails à la génération d’images et à l’ajustement des paramètres système. La nouvelle spécification Copilot+ PC impose l’inclusion d’une unité de traitement neuronal (NPU) – du silicium spécialisé conçu pour accélérer efficacement les calculs d’IA. Cela signifie un changement fondamental où le traitement de l’IA devient une fonction essentielle de l’ordinateur personnel, gérée localement plutôt que de dépendre uniquement de serveurs distants.
Cette approche moderne suppose, et exploite, des ressources abondantes. Les Copilot+ PCs nécessitent un minimum de 16 Go de RAM et un stockage SSD rapide, des spécifications dépassant largement les humbles 128 Mo de la machine Windows 98. Les modèles d’IA employés, bien qu’optimisés pour l’exécution côté client, sont beaucoup plus complexes et capables que la version miniature de Llama utilisée dans l’expérience. Ils bénéficient de décennies de raffinement algorithmique, d’ensembles de données d’entraînement massifs et de matériel spécifiquement architecturé pour leurs besoins.
Le contraste éclaire plusieurs points :
- Optimisation Logicielle vs. Gonflement (‘Bloat’) : L’expérience d’Exo Labs est un témoignage d’optimisation extrême, forçant des algorithmes modernes dans un environnement très contraint. Elle critique implicitement la tendance des logiciels modernes à supposer des ressources matérielles toujours croissantes, conduisant parfois à l’inefficacité ou au ‘gonflement’.
- Évolution du Matériel : La différence pure de puissance de calcul et de mémoire entre un PC typique de 1998 et un Copilot+ PC de 2024 est stupéfiante, représentant plusieurs générations de la loi de Moore et d’innovation architecturale.
- Accessibilité des Données : L’entraînement des LLM modernes repose sur des ensembles de données à l’échelle d’Internet qui étaient inimaginables à l’ère de Windows 98. L’univers numérique était tout simplement trop petit et déconnecté à l’époque.
- Percées Algorithmiques : Le développement d’architectures comme le modèle Transformer en 2017 a été un moment charnière, permettant la mise à l’échelle et les performances observées dans l’IA générative d’aujourd’hui. Les approches antérieures de l’IA avaient des limitations fondamentales.
Alors qu’Andreessen rêve d’ordinateurs parlants il y a 30 ans, la réalité est que la confluence de la puissance matérielle, de la disponibilité des données et de l’innovation algorithmique requise pour l’expérience IA d’aujourd’hui ne s’est produite que beaucoup plus récemment.
Qu’est-ce que Tout Cela Signifie ? Réflexions au-delà de la Nostalgie
Le déploiement réussi d’un modèle Llama sur Windows 98 n’est-il qu’un hack astucieux, un coup de pub nostalgique pour les passionnés de technologie ? Ou revêt-il une signification plus profonde ? Il sert sans doute plusieurs objectifs :
- Démontrer une Scalabilité Extrême : Il prouve que les principes fondamentaux derrière les grands modèles de langage peuvent être adaptés pour fonctionner sous des contraintes de ressources incroyablement serrées. Cela a des implications potentielles pour le déploiement de l’IA sur des systèmes embarqués de faible puissance, des appareils IoT, ou du matériel plus ancien qui reste en usage dans diverses parties du monde.
- Souligner le Pouvoir des Contraintes : Travailler dans des limites sévères force souvent l’innovation et l’efficacité. L’équipe d’Exo Labs a dû trouver des solutions créatives et optimiser sans relâche, des compétences précieuses même dans des environnements riches en ressources.
- Remettre en Question les Hypothèses : Il incite à réfléchir si toute la puissance de calcul et la mémoire utilisées par les applications modernes sont strictement nécessaires pour la valeur qu’elles fournissent. Certains logiciels pourraient-ils être plus légers et plus efficaces ?
- Illustrer la Contingence des Chemins Technologiques : L’histoire suit rarement une ligne droite. Le fait qu’une IA rudimentaire ait pu être possible sur du matériel plus ancien souligne comment différents choix, directions de recherche, ou même des découvertes fortuites auraient pu nous conduire sur un chemin technologique différent.
Cette expérience ne réécrit pas l’histoire, ni ne signifie que les expériences d’IA sophistiquées de 2024 étaient d’une manière ou d’une autre réalisables en 1998. Le fossé des technologies habilitantes – puissance de traitement, mémoire, données, algorithmes – reste immense. Cependant, elle fournit un point de données fascinant, un témoignage de l’ingéniosité technique, et un catalyseur pour contempler le chemin sinueux du progrès technologique. Elle nous rappelle que les limitations d’hier peuvent parfois être surmontées avec les connaissances d’aujourd’hui, produisant des résultats surprenants et nous incitant à reconsidérer ce qui pourrait être possible, à la fois maintenant et à l’avenir. Le fantôme dans la vieille machine murmure non seulement ce qui fut, mais peut-être aussi un potentiel inexploité résidant dans la simplicité et l’efficacité.