Stratégie IA Agent : Nvidia à l'assaut

Nvidia se tourne vers la prochaine vague d’IA basée sur des agents, un domaine qui promet d’imposer des exigences sans précédent en matière de capacités d’inférence. Pour relever ce défi, Nvidia a dévoilé une stratégie globale englobant des innovations matérielles et logicielles.

Stratégie Matérielle : Montée en Puissance et Extension Horizontale

Au cœur de la stratégie matérielle de Nvidia se trouve la poursuite incessante de GPU toujours plus puissants. L’entreprise adopte une approche à deux volets, se concentrant d’abord sur la montée en puissance verticale, puis sur l’extension horizontale. L’objectif n’est pas seulement de développer un seul supercalculateur d’IA ultra-puissant dans un rack, mais de créer un écosystème entier de racks interconnectés, formant un immense complexe de supercalculateurs d’IA. Cette approche d’”usine d’IA” est conçue pour fournir la puissance de calcul nécessaire aux charges de travail d’IA les plus exigeantes.

Le nouveau supercalculateur d’IA monté en rack Blackwell Ultra, dévoilé lors de la récente conférence GTC, illustre parfaitement cette stratégie. Conçu pour accélérer à la fois la formation et l’inférence à l’échelle lors des tests, le Blackwell Ultra tire parti de l’architecture Blackwell existante, mais intègre le GB300 NVL72, plus puissant. Cette configuration comprend 72 GPU Blackwell Ultra interconnectés via NVLink, offrant une puissance de calcul stupéfiante de 1,1 exaflops en précision FP4. Le GB300 NVL72 offre 1,5 fois les performances d’IA du GB200 NVL72. Un seul système DGS GB300 offre 15 exaflops de calcul. Prévu pour être commercialisé au second semestre 2025, le Blackwell Ultra sera pris en charge par un large éventail de fournisseurs d’équipements de serveurs, notamment Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron et Quanta. De plus, les fournisseurs de services cloud comme AWS, GCP et Azure offriront des services de calcul basés sur le Blackwell Ultra.

Au-delà de ces systèmes d’usine d’IA de niveau centrale électrique, Nvidia a également introduit une nouvelle gamme d’ordinateurs ciblant les besoins d’inférence au sein des entreprises. Il s’agit notamment des ordinateurs personnels d’IA DGX Spark et DGX Station. Le DGX Spark, de la taille d’un Mac mini, offre jusqu’à 1 PFlops de puissance de calcul.

Pour mettre cela en perspective, le supercalculateur Taiwania 3, lancé en 2021 avec plus de 50 000 cœurs, ne fournit que 2,7 PFlops de performances. En seulement quatre ans, la puissance de calcul de trois ordinateurs personnels d’IA de la taille d’un ordinateur de bureau a dépassé celle de Taiwania 3. Au prix de 3 999 $ (environ 130 000 NT$) pour la configuration de 128 Go de mémoire, ces nouveaux ordinateurs personnels d’IA sont conçus pour alimenter les futurs besoins internes d’IA au sein des entreprises, servant de mini-usines d’IA, voire fonctionnant dans des environnements d’IA périphériques.

Feuille de Route Future : Vera Rubin et Au-Delà

Pour l’avenir, le PDG de Nvidia, Jensen Huang, a présenté une feuille de route des produits pour les deux prochaines années. Au second semestre 2026, l’entreprise prévoit de lancer le Vera Rubin NVL144, du nom de l’astronome américaine qui a découvert la matière noire. Le Vera Rubin NVL144 offrira 3,3 fois les performances du GB300 NVL72, avec une capacité de mémoire, une bande passante et des vitesses NVLink augmentant de plus de 1,6 fois. Au second semestre 2027, Nvidia lancera le Rubin Ultra NVL576, qui offrira 14 fois les performances du GB300 NVL72, avec une capacité de mémoire et des vitesses de bande passante considérablement améliorées via NVLink7 et CX9.

Après l’architecture Vera Rubin, l’architecture de prochaine génération de Nvidia portera le nom du célèbre physicien américain Richard Feynman, connu pour son travail sur l’enquête sur la catastrophe de la navette spatiale Challenger.

Stratégie Logicielle : Nvidia Dynamo

Nvidia a toujours accordé une grande importance aux logiciels, les considérant comme encore plus essentiels que le matériel. Cette orientation stratégique s’étend aux initiatives d’usine d’IA de l’entreprise.

En plus d’étendre la bibliothèque d’accélération d’IA CUDA-X à divers domaines et de développer des bibliothèques d’accélération spécialisées, Nvidia a introduit Nvidia Dynamo, un nouveau système d’exploitation d’usine d’IA. Il est important de noter que Nvidia a mis ce système d’exploitation en open source.

Nvidia Dynamo est un framework de service d’inférence open source conçu pour créer des plateformes qui fournissent des services d’inférence LLM. Il peut être déployé sur des environnements K8s et utilisé pour déployer et gérer des tâches d’inférence d’IA à grande échelle. Nvidia prévoit d’intégrer Dynamo dans son framework de microservices NIM, ce qui en fera un composant du framework Nvidia AI Enterprise.

Dynamo est le produit de nouvelle génération de la plateforme de serveur d’inférence open source existante de Nvidia, Triton. Sa principale caractéristique est la division des tâches d’inférence LLM en deux étapes, ce qui permet une utilisation plus flexible et efficace des GPU pour optimiser le traitement de l’inférence, améliorer l’efficacité et maximiser l’utilisation des GPU. Dynamo peut allouer dynamiquement des GPU en fonction des besoins d’inférence et accélérer le transfert de données asynchrone entre les GPU, réduisant ainsi les temps de réponse de l’inférence du modèle.

Les modèles GAI basés sur Transformer divisent l’inférence en deux étapes : Prefill (pré-entrée), qui convertit les données d’entrée en jetons pour le stockage, et Decode, un processus séquentiel qui génère le jeton suivant en fonction du précédent.

L’inférence LLM traditionnelle affecte les tâches Prefill et Decode au même GPU. Cependant, en raison des différentes caractéristiques de calcul de ces tâches, Dynamo les divise, en attribuant les ressources GPU en conséquence et en ajustant dynamiquement l’allocation en fonction des caractéristiques de la tâche. Cela optimise les performances du cluster GPU.

Les tests de Nvidia montrent que l’utilisation de Dynamo avec le modèle DeepSeek-R1 à 671 milliards de paramètres sur GB200 NVL72 peut améliorer les performances d’inférence de 30 fois. Les performances sur Llama 70B s’exécutant sur des GPU Hopper peuvent également être améliorées de plus du double.

La gestion des tâches d’inférence est complexe en raison de la nature complexe du calcul d’inférence et de la variété des modèles de traitement parallèle. Huang a souligné que Nvidia a lancé le framework Dynamo pour fournir un système d’exploitation pour les usines d’IA.

Les centres de données traditionnels s’appuient sur des systèmes d’exploitation comme VMware pour orchestrer différentes applications sur les ressources informatiques de l’entreprise. Les agents d’IA sont les applications du futur, et les usines d’IA ont besoin de Dynamo, pas de VMware.

Le nom donné par Huang au nouveau système d’exploitation d’usine d’IA, d’après la dynamo, un moteur qui a déclenché la révolution industrielle, révèle ses attentes et ses ambitions pour la plateforme.