L’évolution rapide de la technologie de l’IA, illustrée par les avancées de DeepSeek, nécessite une réévaluation fondamentale de la manière dont nous construisons les centres de données, les puces et les systèmes pour fournir la puissance de calcul nécessaire. Les innovations d’ingénierie de DeepSeek ont considérablement réduit les coûts de calcul de l’IA, ce qui a suscité une discussion plus large sur l’avenir de l’infrastructure de l’IA.
Bien que DeepSeek n’ait peut-être pas considérablement élargi les frontières de la technologie de l’IA, son influence sur le marché de l’IA est profonde. Les technologies telles que Mixture of Experts (MoE), Multi-Layer Attention (MLA) et Multi-Token Prediction (MTP) ont gagné en importance aux côtés de DeepSeek. Bien que toutes ces technologies n’aient pas été lancées par DeepSeek, leur mise en œuvre réussie a stimulé une adoption généralisée. MLA, en particulier, est devenu un point central de discussion sur diverses plates-formes, des appareils de périphérie au cloud computing.
MLA et le défi de l’innovation algorithmique
Elad Raz, PDG de NextSilicon, a récemment souligné que si MLA améliore l’efficacité de la mémoire, il peut également augmenter la charge de travail des développeurs et compliquer l’application de l’IA dans les environnements de production. Les utilisateurs de GPU pourraient avoir besoin de s’engager dans une optimisation ‘hand-code’ pour MLA. Cet exemple souligne la nécessité de repenser la mise en œuvre des puces d’IA et des architectures d’infrastructure à l’ère post-DeepSeek.
Pour comprendre l’importance de MLA, il est essentiel de saisir les concepts sous-jacents des grands modèles de langage (LLM). Lors de la génération de réponses aux entrées de l’utilisateur, les LLM s’appuient fortement sur les vecteurs KV – clés et valeurs – qui permettent au modèle de se concentrer sur les données pertinentes. Dans les mécanismes d’attention, le modèle compare les nouvelles demandes avec les clés pour déterminer le contenu le plus pertinent.
Elad Raz utilise une analogie d’un livre, la clé étant comme ‘les titres des chapitres d’un livre, indiquant de quoi parle chaque partie, la valeur étant des résumés plus détaillés sous ces titres. Ainsi, lorsqu’un utilisateur soumet une demande, il demande un terme de recherche pour aider à générer une réponse. Il demande : ‘Dans ce scénario, quel chapitre est le plus pertinent ?’’
MLA compresse ces titres de chapitre (clés) et ces résumés (valeurs), accélérant le processus de recherche de réponses et augmentant l’efficacité. En fin de compte, MLA aide DeepSeek à réduire l’utilisation de la mémoire de 5 à 13 %. Des informations plus détaillées peuvent être trouvées dans le document officiel de DeepSeek. La conférence des développeurs de MediaTek a même discuté de la prise en charge de MLA dans leurs puces mobiles Dimensity, soulignant l’influence considérable de DeepSeek.
Les technologies comme MLA représentent des innovations algorithmiques typiques de l’ère de l’IA. Cependant, le rythme rapide du développement de la technologie de l’IA conduit à un flux constant d’innovations, ce qui crée à son tour de nouveaux défis, en particulier lorsque ces innovations sont adaptées à des plates-formes spécifiques. Dans le cas de MLA, les utilisateurs de GPU non-NVIDIA nécessitent un codage manuel supplémentaire pour tirer parti de la technologie.
Bien que les technologies de DeepSeek démontrent l’innovation et la valeur de l’ère de l’IA, le matériel et les logiciels doivent s’adapter à ces innovations. Selon Elad Raz, une telle adaptation devrait minimiser la complexité pour les développeurs et les environnements de production. Sinon, le coût de chaque innovation devient prohibitif.
La question devient alors : ‘Que se passe-t-il si la prochaine innovation algorithmique ne se traduit pas bien et simplement dans les architectures existantes ?’
Le conflit entre la conception des puces et l’innovation algorithmique
Au cours des dernières années, les fabricants de puces d’IA ont constamment signalé que la conception de grandes puces d’IA prend au moins 1 à 2 ans. Cela signifie que la conception des puces doit commencer bien avant la sortie d’une puce sur le marché. Compte tenu des avancées rapides de la technologie de l’IA, la conception des puces d’IA doit être tournée vers l’avenir. Se concentrer uniquement sur les besoins actuels se traduira par des puces d’IA obsolètes qui ne peuvent pas s’adapter aux dernières innovations d’application.
L’innovation algorithmique des applications d’IA se produit désormais chaque semaine. Comme mentionné dans les articles précédents, la puissance de calcul requise pour que les modèles d’IA atteignent les mêmes capacités diminue de 4 à 10 fois par an. Le coût d’inférence des modèles d’IA atteignant une qualité similaire à GPT-3 a diminué de 1200 fois au cours des trois dernières années. Actuellement, les modèles avec 2B de paramètres peuvent atteindre le même niveau que le GPT-3 de 170B de paramètres d’hier. Cette innovation rapide dans les couches supérieures de la pile technologique de l’IA présente des défis importants pour la planification et la conception traditionnelles de l’architecture des puces.
Elad Raz estime que l’industrie doit reconnaître les innovations comme DeepSeek MLA comme la norme pour la technologie de l’IA. ‘Le calcul de nouvelle génération doit non seulement optimiser les charges de travail d’aujourd’hui, mais également prendre en compte les futures avancées.’ Cette perspective s’applique non seulement à l’industrie des puces, mais à l’ensemble de l’infrastructure de niveau moyen à inférieur de la pile technologique de l’IA.
‘DeepSeek et d’autres innovations ont démontré la progression rapide de l’innovation algorithmique’, a déclaré Elad Raz. ‘Les chercheurs et les scientifiques des données ont besoin d’outils plus polyvalents et résilients pour stimuler de nouvelles connaissances et découvertes. Le marché a besoin de plates-formes informatiques matérielles intelligentes et définies par logiciel qui permettent aux clients de ‘remplacer par insertion’ les solutions d’accélérateur existantes, tout en permettant aux développeurs de porter leur travail sans douleur.’
Pour faire face à cette situation, l’industrie doit concevoir une infrastructure informatique plus intelligente, adaptable et flexible.
La flexibilité et l’efficacité sont souvent des objectifs contradictoires. Les CPU sont très flexibles, mais ont une efficacité de calcul parallèle nettement inférieure à celle des GPU. Les GPU, avec leur programmabilité, peuvent être moins efficaces que les puces ASIC d’IA dédiées.
Elad Raz a noté que NVIDIA s’attend à ce que les racks de centres de données d’IA atteignent bientôt 600 kW de consommation électrique. Pour le contexte, 75 % des centres de données d’entreprise standard ont une consommation électrique de pointe de seulement 15 à 20 kW par rack. Indépendamment des gains d’efficacité potentiels de l’IA, cela pose un défi important pour les centres de données qui construisent des systèmes d’infrastructure informatique.
Selon Elad Raz, les GPU et les accélérateurs d’IA actuels peuvent ne pas être suffisants pour répondre aux demandes potentielles de l’IA et du calcul haute performance (HPC). ‘Si nous ne repensons pas fondamentalement la façon dont nous améliorons l’efficacité du calcul, l’industrie risque d’atteindre des limites physiques et économiques. Ce mur aura également des effets secondaires, limitant l’accès à l’IA et au HPC pour davantage d’organisations, entravant l’innovation même avec les progrès des algorithmes ou des architectures GPU traditionnelles.’
Recommandations et exigences pour l’infrastructure informatique de nouvelle génération
Sur la base de ces observations, Elad Raz a proposé ‘quatre piliers’ pour définir l’infrastructure informatique de nouvelle génération :
(1) Remplaçabilité Plug-and-Play : ‘L’histoire a montré que les transitions d’architecture complexes, comme la migration du CPU vers le GPU, peuvent prendre des décennies à être pleinement mises en œuvre. Par conséquent, les architectures informatiques de nouvelle génération doivent prendre en charge une migration en douceur.’ Pour une remplaçabilité ‘plug-and-play’, Elad Raz suggère que les nouvelles architectures informatiques devraient s’inspirer des écosystèmes x86 et Arm, en obtenant une adoption plus large grâce à la compatibilité descendante.
Les conceptions modernes devraient également éviter d’obliger les développeurs à réécrire de grandes quantités de code ou à créer des dépendances vis-à-vis de fournisseurs spécifiques. ‘Par exemple, la prise en charge des technologies émergentes comme MLA devrait être standardisée, plutôt que d’exiger des ajustements manuels supplémentaires comme c’est le cas avec les GPU non-NVIDIA. Les systèmes de nouvelle génération devraient comprendre et optimiser de nouvelles charges de travail prêtes à l’emploi, sans nécessiter de modifications manuelles du code ni d’ajustements importants de l’API.’
(2) Optimisation des performances adaptable en temps réel : Elad Raz estime que l’industrie devrait s’éloigner des accélérateurs à fonction fixe. ‘L’industrie doit s’appuyer sur des fondations matérielles intelligentes et définies par logiciel qui peuvent s’auto-optimiser dynamiquement au moment de l’exécution.’
‘En apprenant continuellement des charges de travail, les futurs systèmes peuvent s’ajuster en temps réel, maximisant l’utilisation et les performances soutenues, quelle que soit la charge de travail spécifique de l’application. Cette adaptabilité dynamique signifie que l’infrastructure peut fournir une efficacité constante dans des scénarios réels, qu’il s’agisse d’exécuter des simulations HPC, des modèles d’IA complexes ou des opérations de base de données vectorielle.’
(3) Efficacité évolutive : ‘En découplant le matériel et les logiciels et en se concentrant sur l’optimisation intelligente en temps réel, les futurs systèmes devraient atteindre une utilisation plus élevée et une consommation d’énergie globale plus faible. Cela rendrait l’infrastructure plus rentable et évolutive pour répondre aux demandes en constante évolution de nouvelles charges de travail.’
(4) Conception future : Ce point correspond à l’exigence prospective pour l’infrastructure d’IA, en particulier la conception des puces. ‘Les algorithmes de pointe d’aujourd’hui peuvent être obsolètes demain.’ ‘Qu’il s’agisse de réseaux neuronaux d’IA ou de modèles LLM basés sur Transformer, l’infrastructure informatique de nouvelle génération doit être adaptable, garantissant que les investissements technologiques des entreprises restent résilients pour les années à venir.’
Ces suggestions offrent une perspective relativement idéalisée mais stimulante. Cette méthodologie de guidage devrait être envisagée pour le développement futur des technologies d’IA et de HPC, mêmesi certaines contradictions inhérentes restent des problèmes de longue date dans l’industrie. ‘Pour libérer le potentiel de l’IA, du HPC et d’autres charges de travail informatiques et gourmandes en données du futur, nous devons repenser l’infrastructure et adopter des solutions dynamiques et intelligentes pour soutenir l’innovation et les pionniers.’