Le paysage de l’intelligence artificielle (IA) est en perpétuelle évolution, les avancées matérielles jouant un rôle essentiel dans l’ouverture de nouvelles possibilités. Google, un chef de file de l’innovation en matière d’IA, a récemment dévoilé sa septième génération d’unité de traitement tenseur (TPU), nom de code Ironwood, marquant une avancée significative dans les capacités de calcul de l’IA. Cet accélérateur d’IA de pointe possède une prouesse informatique qui surpasse même les superordinateurs les plus rapides au monde d’un facteur étonnant de 24 dans les déploiements à grande échelle.
Annoncé lors de la conférence Google Cloud Next ‘25, Ironwood représente un pivot stratégique dans le parcours décennal de Google en matière de développement de puces d’IA. Contrairement à ses prédécesseurs, qui ont été principalement conçus pour les charges de travail d’entraînement et d’inférence de l’IA, Ironwood est spécialement conçu pour exceller dans les tâches d’inférence, annonçant une nouvelle ère d’applications axées sur l’IA.
Selon Amin Vahdat, vice-président et directeur général de l’apprentissage automatique, des systèmes et de l’IA en nuage chez Google, ‘Ironwood est conçu pour prendre en charge la prochaine phase de l’IA générative et ses énormes besoins en calcul et en communication. C’est ce que nous appelons l’’ère de l’inférence’, où les agents d’IA récupéreront et généreront de manière proactive des données pour fournir en collaboration des informations et des réponses, et pas seulement des données.’
Dévoilement des capacités sans précédent d’Ironwood
Les spécifications techniques d’Ironwood sont tout simplement extraordinaires. Lorsqu’il est mis à l’échelle à un groupe de 9 216 puces, il peut fournir une puissance de calcul d’IA stupéfiante de 42,5 exaflops. Ce chiffre éclipse les 1,7 exaflops offerts par El Capitan, le détenteur actuel du titre de superordinateur le plus rapide au monde. Chaque puce Ironwood individuelle possède une capacité de calcul maximale de 4 614 TFLOPs.
Au-delà de la simple puissance de traitement, Ironwood présente également des améliorations significatives en matière de mémoire et de bande passante. Chaque puce est équipée de 192 Go de mémoire à bande passante élevée (HBM), soit une multiplication par six par rapport à la TPU de la génération précédente, Trillium, qui a été lancée l’année dernière. De plus, la bande passante de la mémoire par puce atteint 7,2 térabits/s, ce qui représente une amélioration de 4,5 fois par rapport à Trillium.
À une époque où les centres de données se développent et où la consommation d’énergie devient une préoccupation critique, Ironwood se distingue également par son efficacité énergétique. Ses performances par watt sont deux fois supérieures à celles de Trillium et près de 30 fois supérieures à celles de la première TPU introduite en 2018.
L’accent mis sur l’optimisation de l’inférence signifie un changement fondamental dans le paysage de l’IA. Ces dernières années, les principaux laboratoires d’IA se sont principalement concentrés sur la construction de modèles de base toujours plus grands avec un nombre de paramètres croissant. L’accent mis par Google sur l’optimisation de l’inférence suggère une transition vers une nouvelle phase axée sur l’efficacité du déploiement et les capacités d’inférence.
Bien que l’entraînement des modèles reste crucial, le nombre d’itérations d’entraînement est limité. En revanche, à mesure que les technologies d’IA s’intègrent de plus en plus à diverses applications, les opérations d’inférence devraient se produire des milliards de fois par jour. À mesure que les modèles gagnent en complexité, la viabilité économique de ces applications devient inextricablement liée aux coûts d’inférence.
Au cours des huit dernières années, la demande de calcul de l’IA de Google a été multipliée par dix, atteignant un nombre stupéfiant de 100 millions. Sans architectures spécialisées comme Ironwood, même les progrès incessants de la loi de Moore auraient du mal à suivre cette croissance exponentielle.
Notamment, l’annonce de Google met en évidence l’accent qu’il met sur les ‘modèles mentaux’ capables d’effectuer des tâches de raisonnement complexes plutôt que la simple reconnaissance de formes. Cela suggère que Google envisage un avenir où l’IA s’étend au-delà des modèles plus grands et englobe des modèles capables de décomposer des problèmes, d’effectuer un raisonnement en plusieurs étapes et d’imiter les processus de pensée humaine.
Alimenter la prochaine génération de grands modèles
Google positionne Ironwood comme l’infrastructure de base de ses modèles d’IA les plus avancés, y compris Gemini 2.5, qui possède des capacités de raisonnement intégrées en mode natif.
Google a également récemment lancé Gemini 2.5 Flash, une variante plus petite de son modèle phare conçu pour les applications quotidiennes sensibles à la latence. Gemini 2.5 Flash peut ajuster dynamiquement sa profondeur de raisonnement en fonction de la complexité de l’invite.
Google a également présenté sa suite complète de modèles génératifs multimodaux, y compris le texte en image, le texte en vidéo et la nouvelle fonctionnalité de texte en musique, Lyria. Une démo a illustré comment ces outils pourraient être combinés pour produire une vidéo promotionnelle complète pour un concert.
Ironwood n’est qu’un élément de la stratégie d’infrastructure d’IA plus large de Google. Google a également annoncé Cloud WAN, un service de réseau étendu géré qui permet aux entreprises d’accéder à l’infrastructure de réseau privé à l’échelle mondiale de Google.
De plus, Google élargit ses offres de logiciels pour les charges de travail d’IA, y compris Pathways, un environnement d’exécution d’apprentissage automatique développé par Google DeepMind. Pathways permet désormais aux clients de mettre à l’échelle la diffusion de modèles sur des centaines de TPU.
Favoriser la collaboration des agents d’IA avec A2A
Au-delà des avancées matérielles, Google a également exposé sa vision d’un écosystème d’IA centré sur les systèmes multi-agents. Pour faciliter le développement d’agents intelligents, Google a introduit le protocole Agent-to-Agent (A2A), conçu pour permettre une communication sécurisée et standardisée entre différents agents d’IA.
Google estime que 2025 marquera une année de transformation pour l’IA, les applications d’IA générative évoluant, passant de la réponse à des questions uniques à la résolution de problèmes complexes par le biais de systèmes d’agents.
Le protocole A2A permet l’interopérabilité entre les agents sur différentes plateformes et frameworks, en leur fournissant un ‘langage’ commun et des canaux de communication sécurisés. Ce protocole peut être considéré comme une couche réseau pour les agents intelligents, visant à simplifier la collaboration des agents dans des flux de travail complexes. En permettant à des agents d’IA spécialisés de travailler ensemble sur des tâches de complexité et de durée variables, A2A cherche à améliorer les capacités globales grâce à la collaboration.
A2A fonctionne en établissant une manière standardisée pour les agents d’échanger des informations et de coordonner des actions, sans exiger qu’ils partagent le code sous-jacent ou les structures de données. Cela permet la création de systèmes d’IA plus modulaires et flexibles, où les agents peuvent être facilement ajoutés, supprimés ou reconfigurés au besoin.
Google a établi une comparaison entre les protocoles MCP et A2A dans un billet de blog.
- MCP (Model Context Protocol) est conçu pour la gestion des outils et des ressources.
- Il connecte les agents aux outils, aux API et aux ressources via des entrées/sorties structurées.
- Le Google ADK prend en charge les outils MCP, permettant à divers serveurs MCP de fonctionner avec les agents.
- A2A (Agent2Agent Protocol) est conçu pour la collaboration entre les agents.
- Il permet une communication dynamique et multimodale entre les agents sans partager de mémoire, de ressources ou d’outils.
- Il s’agit d’une norme ouverte pilotée par la communauté.
- Des exemples peuvent être consultés à l’aide de Google ADK, LangGraph, Crew.AI et d’autres outils.
En substance, A2A et MCP sont complémentaires : MCP fournit aux agents une assistance pour les outils, tandis qu’A2A permet à ces agents équipés d’outils de communiquer et de collaborer entre eux.
À en juger par les partenaires initiaux, A2A semble prêt à susciter la même attention que MCP. Plus de 50 entreprises ont rejoint la collaboration initiale, y compris des entreprises technologiques de premier plan et les meilleurs fournisseurs mondiaux de services de conseil et d’intégration de systèmes.
Google souligne l’ouverture du protocole, le positionnant comme un moyen standard pour les agents de collaborer, quel que soit le framework technologique sous-jacent ou le fournisseur de services. Google a exposé cinq principes clés qui ont guidé la conception du protocole en collaboration avec ses partenaires :
- Adopter les capacités de l’agent : A2A se concentre sur la possibilité pour les agents de collaborer de manière naturelle et non structurée, même s’ils ne partagent pas la mémoire, les outils et le contexte. Le protocole vise à permettre de véritables scénarios multi-agents, plutôt que de limiter les agents à de simples ‘outils’.
- S’appuyer sur les normes existantes : Le protocole s’appuie sur les normes populaires existantes, notamment HTTP, SSE et JSON-RPC, ce qui facilite l’intégration aux piles informatiques existantes couramment utilisées par les entreprises.
- Sécurisé par défaut : A2A est conçu pour prendre en charge l’authentification et l’autorisation de niveau entreprise, comparables aux schémas d’authentification d’OpenAPI au lancement.
- Prendre en charge les tâches de longue durée : A2A est conçu pour être flexible, prenant en charge un large éventail de scénarios, des tâches rapides à la recherche approfondie qui peut prendre des heures, voire des jours (lorsque des humains sont impliqués). Tout au long du processus, A2A peut fournir aux utilisateurs des commentaires, des notifications et des mises à jour d’état en temps réel.
- Agnostique en termes de modalité : Le monde des agents ne se limite pas au texte, c’est pourquoi A2A est conçu pour prendre en charge diverses modalités, y compris les flux audio et vidéo.
Google fournit un exemple de la manière dont A2A peut considérablement rationaliser le processus d’embauche.
Dans une interface unifiée comme Agentspace, un responsable du recrutement peut affecter un agent pour trouver des candidats appropriés en fonction des exigences du poste. Cet agent peut interagir avec des agents spécialisés pour trouver des candidats, planifier des entretiens et même faire appel à d’autres agents spécialisés pour l’aider à effectuer des vérifications des antécédents, permettant ainsi l’automatisation intelligente de l’ensemble du processus d’embauche sur différents systèmes.
Adopter le Model Context Protocol (MCP)
En plus de ses efforts dans le développement d’A2A, Google adopte également le Model Context Protocol (MCP). Quelques semaines seulement après qu’OpenAI a annoncé son adoption de MCP, Google a emboîté le pas.
Demis Hassabis, PDG de Google DeepMind, a récemment annoncé sur X que Google ajoutera la prise en charge de MCP à ses modèles Gemini et SDK. Cependant, il n’a pas fourni de calendrier spécifique.
Hassabis a déclaré que ‘MCP est un excellent protocole qui devient rapidement la norme ouverte pour l’ère des agents d’IA. Je suis impatient de travailler avec l’équipe MCP et d’autres partenaires de l’industrie pour faire progresser cette technologie.’
Depuis sa sortie en novembre 2024, MCP a rapidement gagné du terrain, devenant un moyen simple et standardisé de connecter les modèles linguistiques aux outils et aux données.
MCP permet aux modèles d’IA d’accéder aux données provenant de sources telles que les outils et logiciels d’entreprise pour effectuer des tâches, ainsi que d’accéder aux bibliothèques de contenu et aux environnements de développement d’applications. Le protocole permet aux développeurs d’établir des connexions bidirectionnelles entre les sources de données et les applications alimentées par l’IA, telles que les chatbots.
Les développeurs peuvent exposer des interfaces de données via des serveurs MCP et créer des clients MCP (tels que des applications et des flux de travail) pour se connecter à ces serveurs. Depuis qu’Anthropic a mis MCP en open source, plusieurs entreprises ont intégré la prise en charge de MCP dans leurs plateformes.