L’annonce d’Ironwood, la septième génération de Tensor Processing Unit (TPU) de Google, a considérablement modifié le paysage du traitement de l’intelligence artificielle (IA). Cet accélérateur d’IA de pointe possède des capacités de calcul qui, dans les déploiements à grande échelle, dépassent de plus de 24 fois le supercalculateur le plus rapide au monde.
Cette nouvelle puce, dévoilée lors de la conférence Google Cloud Next ‘25, marque un moment charnière dans la stratégie décennale de Google en matière de développement de puces IA. Contrairement à ses prédécesseurs, qui ont été principalement conçus pour les charges de travail d’apprentissage et d’inférence de l’IA, Ironwood est spécifiquement conçu pour l’inférence, ce qui témoigne d’un changement stratégique visant à optimiser l’efficacité du déploiement de l’IA.
Amin Vahdat, vice-président et directeur général de l’apprentissage automatique, des systèmes et de l’IA en nuage de Google, a souligné cette transition en déclarant : ‘Ironwood est conçu pour prendre en charge la prochaine phase de l’IA générative et ses immenses besoins en calcul et en communication. C’est ce que nous appelons l’’ère de l’inférence’, où les agents d’IA récupèrent et génèrent de manière proactive des données pour fournir des informations et des réponses de manière collaborative, plutôt que de simplement traiter des données.’
Une puissance de calcul de 42,5 exaflops qui brise les barrières
Les spécifications techniques d’Ironwood sont vraiment impressionnantes. Lorsqu’elle est mise à l’échelle d’un pod de 9 216 puces, elle offre une puissance de calcul d’IA stupéfiante de 42,5 exaflops. Pour mettre cela en perspective, elle éclipse le supercalculateur le plus rapide au monde, El Capitan, qui fonctionne à 1,7 exaflops. Chaque puce Ironwood individuelle peut atteindre une capacité de calcul de pointe de 4614 TFLOPs.
Au-delà de la puissance de traitement brute, Ironwood améliore considérablement la mémoire et la bande passante. Chaque puce est équipée de 192 Go de mémoire à large bande passante (HBM), soit une multiplication par six par rapport à la TPU de la génération précédente, Trillium, sortie l’année dernière. La bande passante mémoire par puce atteint 7,2 térabits/s, soit 4,5 fois celle de Trillium.
- Puissance de calcul : 42,5 exaflops (par pod de 9 216 puces)
- Puissance de calcul de pointe par puce : 4614 TFLOPs
- Mémoire : 192 Go de HBM par puce
- Bande passante mémoire : 7,2 térabits/s par puce
À une époque où les centres de données se développent et où la consommation d’énergie est une préoccupation croissante, Ironwood démontre également des améliorations significatives en matière d’efficacité énergétique. Elle offre deux fois plus de performances par watt que Trillium et près de 30 fois plus que la première TPU introduite en 2018.
Cette optimisation pour l’inférence marque un tournant décisif dans l’évolution de l’IA. Ces dernières années, les principaux laboratoires d’IA se sont concentrés sur le développement de modèles de base de plus en plus vastes avec des nombres de paramètres en constante augmentation. L’accent mis par Google sur l’optimisation de l’inférence suggère une évolution vers un nouveau paradigme centré sur l’efficacité du déploiement et les capacités d’inférence.
Bien que l’apprentissage des modèles reste essentiel, les opérations d’inférence sont beaucoup plus fréquentes, se produisant des milliards de fois par jour à mesure que les technologies d’IA se généralisent. Pour les entreprises qui tirent parti de l’IA, l’économie est intrinsèquement liée aux coûts d’inférence à mesure que les modèles deviennent plus complexes.
La demande de calcul IA de Google a été multipliée par dix au cours des huit dernières années, atteignant un chiffre stupéfiant de 100 millions. Sans des architectures spécialisées comme Ironwood, il serait impossible de maintenir cette trajectoire de croissance grâce aux progrès traditionnels de la loi de Moore à eux seuls.
Notamment, l’annonce de Google a mis l’accent sur une concentration sur les ‘modèles de raisonnement’ capables d’exécuter des tâches d’inférence complexes plutôt que de simples reconnaissances de formes. Cela suggère une conviction que l’avenir de l’IA réside non seulement dans des modèles plus vastes, mais aussi dans des modèles capables de décomposer les problèmes, de s’engager dans un raisonnement en plusieurs étapes et d’imiter les processus de pensée de type humain.
Alimenter les grands modèles de nouvelle génération
Google positionne Ironwood comme l’infrastructure fondamentale de ses modèles d’IA les plus avancés, y compris son propre Gemini 2.5, qui se vante de ‘capacités de raisonnement natives’.
La société a également récemment présenté Gemini 2.5 Flash, une version plus petite de son modèle phare conçue pour ‘ajuster la profondeur du raisonnement en fonction de la complexité de l’invite’. Ce modèle est orienté vers les applications quotidiennes qui nécessitent des temps de réponse rapides.
Google a en outre présenté sa suite complète de modèles de génération multimodale, englobant le texte-en-image, le texte-en-vidéo et sa nouvelle capacité texte-en-musique, Lyria. Une démo a illustré comment ces outils peuvent être combinés pour créer une vidéo promotionnelle complète pour un concert.
Ironwood n’est qu’un composant de la stratégie d’infrastructure d’IA plus large de Google. La société a également annoncé Cloud WAN, un service de réseau étendu géré qui fournit aux entreprises un accès à l’infrastructure de réseau privé à l’échelle mondiale de Google.
Google étend également ses offres de logiciels pour les charges de travail d’IA, y compris Pathways, un moteur d’exécution d’apprentissage automatique développé par Google DeepMind. Pathways permet désormais aux clients de mettre à l’échelle la diffusion de modèles sur des centaines de TPU.
Présentation d’A2A : favoriser un écosystème de collaboration d’agents intelligents
Au-delà des avancées matérielles, Google a présenté sa vision de l’IA centrée sur les systèmes multi-agents, en dévoilant un protocole pour faciliter le développement d’agents intelligents : Agent-to-Agent (A2A). Ce protocole est conçu pour promouvoir une communication sécurisée et standardisée entre différents agents d’IA.
Google estime que 2025 marquera une année de transformation pour l’IA, avec l’application de l’IA générative évoluant de la réponse à des questions uniques à la résolution de problèmes complexes grâce à des systèmes d’agents intelligents.
Le protocole A2A permet l’interopérabilité entre les plateformes et les frameworks, en fournissant aux agents un ‘langage’ commun et des canaux de communication sécurisés. Ce protocole peut être considéré comme la couche réseau pour les agents intelligents, visant à simplifier la collaboration des agents dans des flux de travail complexes. Il permet aux agents d’IA spécialisés de travailler ensemble sur des tâches de complexité et de durée variables, améliorant ainsi les capacités globales grâce à la collaboration.
Comment fonctionne A2A
Google a fourni une comparaison entre les protocoles MCP et A2A dans son article de blog :
- MCP (Model Context Protocol) : Pour la gestion des outils et des ressources
- Connecte les agents aux outils, aux API et aux ressources via une entrée/sortie structurée.
- Google ADK prend en charge les outils MCP, permettant à différents serveurs MCP de fonctionner avec les agents.
- A2A (Agent2Agent Protocol) : Pour la collaboration entre les agents
- Permet une communication multimodale dynamique entre les agents sans partager de mémoire, de ressources ou d’outils.
- Une norme ouverte pilotée par la communauté.
- Des exemples peuvent être visualisés à l’aide d’outils tels que Google ADK, LangGraph et Crew.AI.
En substance, A2A et MCP sont complémentaires. MCP fournit aux agents un support d’outil, tandis qu’A2A permet à ces agents équipés de communiquer et de collaborer les uns avec les autres.
La liste des partenaires annoncée par Google suggère qu’A2A est sur le point de recevoir une attention similaire à celle de MCP. L’initiative a déjà attiré plus de 50 entreprises dans sa cohorte de collaboration initiale, y compris des entreprises technologiques de premier plan et les principaux fournisseurs mondiaux de services de conseil et d’intégration de systèmes.
Google a souligné l’ouverture du protocole, le positionnant comme la méthode standard pour la collaboration des agents, indépendamment des frameworks technologiques ou des fournisseurs de services sous-jacents. La société a déclaré qu’elle avait adhéré aux cinq principes clés suivants lors de la conception du protocole avec ses partenaires :
- Adopter les capacités des agents : A2A se concentre sur la capacité des agents à collaborer de manière naturelle et non structurée, même s’ils ne partagent pas de mémoire, d’outils et de contexte. L’objectif est de permettre de véritables scénarios multi-agents sans limiter les agents à de simples ‘outils’.
- S’appuyer sur les normes existantes : Le protocole s’appuie sur les normes populaires existantes, notamment HTTP, SSE et JSON-RPC, ce qui facilite l’intégration aux piles informatiques existantes utilisées par les entreprises.
- Sécurisé par défaut : A2A est conçu pour prendre en charge l’authentification et l’autorisation de niveau entreprise, comparables aux schémas d’authentification d’OpenAPI au lancement.
- Prendre en charge les tâches de longue durée : A2A est conçu avec une flexibilité pour prendre en charge un large éventail de scénarios, des tâches rapides à la recherche approfondie qui peut prendre des heures, voire des jours (lorsque des humains sont impliqués). Tout au long du processus, A2A peut fournir aux utilisateurs des commentaires, des notifications et des mises à jour d’état en temps réel.
- Agnostique à la modalité : Le monde des agents ne se limite pas au texte, c’est pourquoi A2A est conçu pour prendre en charge diverses modalités, y compris les flux audio et vidéo.
Exemple : Processus d’embauche rationalisé via A2A
Un exemple fourni par Google illustre comment A2A peut considérablement rationaliser le processus d’embauche.
Dans une interface unifiée comme Agentspace, un responsable du recrutement peut affecter un agent à la recherche de candidats appropriés en fonction des exigences du poste. Cet agent peut interagir avec des agents spécialisés dans des domaines spécifiques pour compléter la recherche de candidats. L’utilisateur peut également demander à l’agent de planifier des entretiens et permettre à d’autres agents spécialisés d’aider aux vérifications des antécédents, permettant ainsi une embauche collaborative entièrement automatisée et inter-systèmes.
Adopter MCP : Rejoindre l’écosystème Model Context Protocol
Parallèlement, Google adopte également MCP. Quelques semaines seulement après qu’OpenAI a annoncé son adoption du Model Context Protocol (MCP) d’Anthropic, Google a emboîté le pas et a rejoint l’initiative.
Le PDG de Google DeepMind, Demis Hassabis, a annoncé sur X que Google ajouterait la prise en charge de MCP à ses modèles et SDK Gemini, bien qu’aucun calendrier précis n’ait été fourni.
Hassabis a déclaré : ‘MCP est un excellent protocole qui devient rapidement la norme ouverte pour l’ère des agents d’IA. Nous sommes impatients de travailler avec l’équipe MCP et d’autres partenaires de l’industrie pour faire progresser le développement de cette technologie.’
Depuis sa sortie en novembre 2024, MCP a rapidement gagné en popularité et en attention, émergeant comme un moyen simple et standardisé de connecter les modèles de langage aux outils et aux données.
MCP permet aux modèles d’IA d’accéder aux données provenant de sources de données telles que les outils et logiciels d’entreprise pour effectuer des tâches et d’accéder aux bibliothèques de contenu et aux environnements de développement d’applications. Le protocole permet aux développeurs d’établir des connexions bidirectionnelles entre les sources de données et les applications basées sur l’IA, telles que les chatbots.
Les développeurs peuvent exposer des interfaces de données via des serveurs MCP et créer des clients MCP (tels que des applications et des flux de travail) pour se connecter à ces serveurs. Depuis qu’Anthropic a rendu MCP open source, plusieurs sociétés ont intégré la prise en charge de MCP dans leurs plateformes.
Analyse approfondie des concepts clés :
Pour clarifier davantage l’impact et la signification des récentes annonces de Google, approfondissons les composants de base : Ironwood, A2A et MCP.
Ironwood : une plongée profonde dans l’ère de l’inférence
Le passage d’une concentration principalement sur l’apprentissage des modèles à une optimisation pour l’inférence est une évolution essentielle dans le paysage de l’IA. L’apprentissage implique de fournir de grandes quantités de données à un modèle pour lui apprendre à reconnaître des modèles et à faire des prédictions. L’inférence, en revanche, est le processus d’utilisation d’un modèle entraîné pour faire des prédictions sur de nouvelles données invisibles.
Bien que l’apprentissage soit un événement unique (ou peu fréquent) à forte intensité de ressources, l’inférence se produit en continu et à grande échelle dans les applications du monde réel. Considérez des applications comme :
- Chatbots : Répondre aux requêtes des utilisateurs en temps réel.
- Systèmes de recommandation : Suggérer des produits ou du contenu en fonction des préférences de l’utilisateur.
- Détection de fraude : Identifier les transactions frauduleuses au fur et à mesure qu’elles se produisent.
- Reconnaissance d’image : Analyser les images pour identifier des objets, des personnes ou des scènes.
Ces applications nécessitent une inférence rapide et efficace pour offrir une expérience utilisateur transparente. Ironwood est spécialement conçu pour exceller dans ces tâches.
Principaux avantages d’Ironwood pour l’inférence :
- Débit élevé : L’énorme puissance de calcul (42,5 exaflops) permet à Ironwood de gérer simultanément un grand volume de demandes d’inférence.
- Faible latence : La mémoire à large bande passante (HBM) et l’architecture efficace minimisent le temps nécessaire pour traiter chaque demande d’inférence.
- Efficacité énergétique : L’amélioration des performances par watt réduit les coûts d’exploitation associés à l’exécution de déploiements d’inférence à grande échelle.
En optimisant pour l’inférence, Google permet aux entreprises de déployer des applications basées sur l’IA de manière plus efficace et rentable.
A2A : La base de l’IA collaborative
Le protocole Agent-to-Agent (A2A) représente une étape importante vers la création de systèmes d’IA plus sophistiqués et collaboratifs. Dans un système multi-agents, plusieurs agents d’IA travaillent ensemble pour résoudre un problème complexe. Chaque agent peut avoir ses propres compétences et connaissances spécialisées, et ils communiquent et se coordonnent les uns avec les autres pour atteindre un objectif commun.
Considérez un scénario impliquant un support client automatisé :
- Agent 1 : Comprend la requête initiale du client et identifie le problème sous-jacent.
- Agent 2 : Accède à une base de connaissances pour trouver des informations pertinentes.
- Agent 3 : Planifie un rendez-vous de suivi avec un agent humain si nécessaire.
Ces agents doivent être en mesure de communiquer et de partager des informations de manière transparente pour offrir une expérience client cohérente. A2A fournit le cadre pour ce type de collaboration.
Principaux avantages d’A2A :
- Interopérabilité : Permet aux agents développés sur différentes plateformes et frameworks de communiquer entre eux.
- Standardisation : Fournit un ‘langage’ commun et un ensemble de protocoles pour la communication des agents.
- Sécurité : Garantit une communication sécurisée entre les agents, protégeant les données sensibles.
- Flexibilité : Prend en charge un large éventail de modalités de communication, notamment le texte, l’audio et la vidéo.
En favorisant la collaboration entre les agents d’IA, A2A permet le développement de systèmes d’IA plus puissants et polyvalents.
MCP : Combler le fossé entre l’IA et les données
Le Model Context Protocol (MCP) relève le défi de connecter les modèles d’IA aux grandes quantités de données nécessaires pour effectuer efficacement leurs tâches. Les modèles d’IA ont besoin d’accéder aux données en temps réel provenant de diverses sources, telles que les bases de données, les API et les services cloud, pour faire des prédictions précises et prendre des décisions éclairées.
MCP fournit un moyen standardisé pour les modèles d’IA d’accéder et d’interagir avec ces sources de données. Il définit un ensemble de protocoles pour :
- Découverte de données : Identifier les sources de données disponibles.
- Accès aux données : Récupérer des données à partir des sources de données.
- Transformation de données : Convertir les données dans un format que le modèle d’IA peut comprendre.
En fournissant une interface standardisée pour l’accès aux données, MCP simplifie le processus d’intégration des modèles d’IA aux données du monde réel.
Principaux avantages de MCP :
- Intégration simplifiée : Facilite la connexion des modèles d’IA aux sources de données.
- Standardisation : Fournit un ensemble commun de protocoles pour l’accès aux données.
- Efficacité accrue : Réduit le temps et les efforts nécessaires pour accéder aux données et les transformer.
- Précision améliorée : Permet aux modèles d’IA d’accéder aux informations les plus récentes, ce qui conduit à des prédictions plus précises.
En connectant les modèles d’IA aux données dont ils ont besoin, MCP leur permet de fonctionner plus efficacement et d’offrir une plus grande valeur.