Ironwood TPU de Google : Un Bond Quantique

Le paysage de l’intelligence artificielle a été redéfini avec le dévoilement par Google de sa septième génération de Tensor Processing Unit (TPU), baptisée Ironwood. Cet accélérateur d’IA de pointe possède une prouesse de calcul qui éclipse même les superordinateurs les plus redoutables au monde. Dans un déploiement à grande échelle, les capacités d’Ironwood dépassent celles du superordinateur le plus rapide par un facteur stupéfiant de 24.

Le dévoilement d’Ironwood lors de l’événement Google Cloud Next ‘25 marque un moment charnière dans la quête décennale de Google pour l’innovation en matière de puces d’IA. Alors que les itérations précédentes du TPU répondaient principalement aux charges de travail d’entraînement et d’inférence des modèles d’IA, Ironwood se distingue comme la première puce méticuleusement conçue et optimisée pour les tâches d’inférence.

Selon Amin Vahdat, vice-président et directeur général de l’apprentissage automatique, des systèmes et de l’IA cloud chez Google, ‘Ironwood est conçu pour propulser la prochaine phase de l’IA générative, en répondant à ses immenses demandes de calcul et de communication. Nous entrons dans ce que nous appelons l’’ère de l’inférence’, où les agents d’IA récupéreront et généreront de manière proactive des données pour fournir en collaboration des informations et des réponses, dépassant ainsi les capacités du simple traitement des données.’

Libérer une puissance de calcul sans précédent : une plongée dans les capacités d’Ironwood

Les spécifications techniques d’Ironwood se lisent comme une liste de souhaits pour les chercheurs et les développeurs en IA. S’échelonnant sur un pod de 9 216 puces, Ironwood offre une quantité stupéfiante de 42,5 exaflops de calcul d’IA. Pour mettre cela en perspective, il surpasse largement les capacités du champion actuel des superordinateurs, El Capitan, qui culmine à 1,7 exaflops. Individuellement, chaque puce Ironwood possède une capacité de calcul de pointe de 4614 TFLOPs.

Au-delà de la puissance de traitement brute, Ironwood introduit des améliorations significatives en matière de mémoire et de bande passante. Chaque puce est équipée de 192 Go de mémoire à bande passante élevée (HBM), soit une augmentation de six fois par rapport au TPU de génération précédente, Trillium. La bande passante de la mémoire a également été considérablement améliorée, atteignant 7,2 térabits/s par puce, soit 4,5 fois celle de Trillium.

À une époque où les centres de données se développent et où la consommation d’énergie devient un facteur de plus en plus critique, Ironwood fait preuve d’une efficacité énergétique remarquable. Ses performances par watt sont deux fois supérieures à celles de Trillium et près de 30 fois supérieures à celles du TPU initial introduit en 2018.

Ce passage à l’optimisation de l’inférence représente une étape importante dans l’évolution de l’IA. Au cours des dernières années, les principaux laboratoires d’IA se sont concentrés sur la construction de modèles de fondation avec un nombre de paramètres toujours croissant. L’accent mis par Google sur l’optimisation de l’inférence signale un passage à la priorisation de l’efficacité du déploiement et des capacités d’inférence dans le monde réel.

Alors que l’entraînement des modèles d’IA est une activité relativement peu fréquente, les opérations d’inférence se produisent des milliards de fois par jour à mesure que les technologies d’IA deviennent plus omniprésentes. La viabilité économique des entreprises alimentées par l’IA est intrinsèquement liée aux coûts d’inférence, en particulier à mesure que les modèles deviennent de plus en plus complexes.

Au cours des huit dernières années, la demande de calcul d’IA de Google a augmenté de façon exponentielle, multipliée par dix pour atteindre un chiffre stupéfiant de 100 millions. Sans architectures spécialisées comme Ironwood, la loi de Moore ne peut à elle seule soutenir cette trajectoire de croissance.

L’accent mis par Google sur les ‘modèles de raisonnement’ capables de tâches d’inférence complexes, plutôt que sur la simple reconnaissance de formes, est particulièrement remarquable. Cela suggère que Google envisage un avenir où l’IA excelle non seulement grâce à des modèles plus vastes, mais aussi grâce à des modèles capables de décomposer des problèmes, d’effectuer un raisonnement en plusieurs étapes et d’imiter les processus de pensée humains.

Alimenter la prochaine génération de grands modèles linguistiques

Google positionne Ironwood comme l’infrastructure de base pour ses modèles d’IA les plus avancés, y compris Gemini 2.5, qui se vante de ‘capacités de raisonnement natives’.

Parallèlement à Ironwood, Google a dévoilé Gemini 2.5 Flash, une version rationalisée de son modèle phare conçu pour les applications quotidiennes sensibles à la latence. Gemini 2.5 Flash peut ajuster dynamiquement sa profondeur de raisonnement en fonction de la complexité de l’invite.

Google a également présenté sa suite de modèles génératifs multimodaux, englobant le texte en image, le texte en vidéo et la fonctionnalité texte en musique nouvellement introduite, Lyria. Une démo convaincante a mis en évidence la façon dont ces outils peuvent être combinés pour produire une vidéo promotionnelle complète pour un concert.

Ironwood n’est qu’un élément de la stratégie d’infrastructure d’IA complète de Google. La société a également présenté Cloud WAN, un service de réseau étendu géré qui permet aux entreprises d’exploiter l’infrastructure de réseau privé à l’échelle mondiale de Google.

Google élargit également ses offres de logiciels pour les charges de travail d’IA, notamment Pathways, un environnement d’exécution d’apprentissage automatique développé par Google DeepMind, qui permet aux clients de faire évoluer la diffusion de modèles sur des centaines de TPU.

Une vision de l’intelligence collaborative : présentation de la prise en charge d’A2A et de MCP

Au-delà des avancées matérielles, Google a articulé sa vision de l’IA centrée sur les systèmes multi-agents et a introduit le protocole Agent-to-Agent (A2A), conçu pour favoriser une communication sécurisée et normalisée entre divers agents d’IA.

Google prévoit que 2025 sera une année transformatrice pour l’IA, les applications d’IA générative évoluant de la réponse à des questions simples à la résolution de problèmes complexes grâce à des systèmes d’agents interconnectés.

Le protocole A2A permet l’interopérabilité entre les plateformes et les frameworks, fournissant aux agents d’IA un ‘langage’ commun et des canaux de communication sécurisés. Considérez-le comme une couche réseau pour les agents d’IA, simplifiant la collaboration dans les flux de travail complexes et permettant aux agents d’IA spécialisés de s’attaquer collectivement à des tâches de complexité et de durée variables, améliorant ainsi les capacités globales grâce à la coopération.

Comment fonctionne A2A

Google a fourni une vue d’ensemble comparative des protocoles MCP et A2A :

  • MCP (Model Context Protocol) : Se concentre sur la gestion des outils et des ressources.
    • Connecte les agents aux outils, aux API et aux ressources via une entrée/sortie structurée.
    • Google ADK prend en charge les outils MCP, facilitant une interaction transparente entre les serveurs MCP et les agents.
  • A2A (Agent2Agent Protocol) : Facilite la collaboration entre les agents.
    • Permet une communication dynamique et multimodale entre les agents sans nécessiter de mémoire, de ressources ou d’outils partagés.
    • Il s’agit d’une norme ouverte pilotée par la communauté.
    • Des exemples peuvent être explorés à l’aide d’outils tels que Google ADK, LangGraph et Crew.AI.

A2A et MCP sont complémentaires. MCP équipe les agents d’outils, tandis qu’A2A permet à ces agents équipés de converser et de collaborer.

La liste initiale de partenaires de Google suggère qu’A2A est sur le point de recevoir une attention similaire à celle de MCP. L’initiative a déjà attiré plus de 50 organisations, dont des entreprises technologiques de premier plan et des fournisseurs mondiaux de services de conseil et d’intégration de systèmes.

Google souligne l’ouverture du protocole, le positionnant comme une norme pour la collaboration inter-agents qui transcende les frameworks technologiques sous-jacents ou les fournisseurs de services. Google a mis en évidence cinq principes directeurs qui ont façonné la conception du protocole :

  1. Adopter les capacités des agents : A2A donne la priorité à la capacité des agents à collaborer naturellement, même sans partager de mémoire, d’outils ou de contexte. L’objectif est de permettre de véritables scénarios multi-agents, et pas simplement de limiter les agents à agir comme des ‘outils’.
  2. S’appuyer sur les normes existantes : Le protocole s’appuie sur des normes existantes et largement adoptées, notamment HTTP, SSE et JSON-RPC, ce qui simplifie l’intégration aux piles informatiques existantes.
  3. Sécurité par défaut : A2A est conçu pour prendre en charge l’authentification et l’autorisation de niveau entreprise, comparables aux schémas d’authentification d’OpenAPI.
  4. Prendre en charge les tâches de longue durée : La flexibilité d’A2A lui permet de prendre en charge un large éventail de scénarios, des tâches rapides à la recherche approfondie qui peut prendre des heures, voire des jours (en particulier lorsque l’intervention humaine est nécessaire). Tout au long du processus, A2A peut fournir aux utilisateurs des commentaires en temps réel, des notifications et des mises à jour d’état.
  5. Agnostique à la modalité : Reconnaissant que le monde des agents s’étend au-delà du texte, A2A prend en charge diverses modalités, notamment les flux audio et vidéo.

Google a fourni un exemple de la façon dont A2A rationalise le processus d’embauche.

Dans une interface unifiée comme Agentspace, un responsable du recrutement peut affecter un agent à l’identification des candidats appropriés en fonction des exigences du poste. Cet agent peut interagir avec des agents spécialisés pour trouver des candidats. Les utilisateurs peuvent également demander aux agents de planifier des entretiens et d’engager d’autres agents spécialisés pour les aider à effectuer des vérifications des antécédents, ce qui permet un recrutement entièrement automatisé et intelligent dans tous les systèmes.

Adopter le Model Context Protocol (MCP)

Google adopte également MCP. Peu de temps après qu’OpenAI a annoncé son adoption du Model Context Protocol (MCP) d’Anthropic, Google a emboîté le pas.

Demis Hassabis, PDG de Google DeepMind, a annoncé sur X (anciennement Twitter) que Google ajouterait la prise en charge de MCP dans ses modèles et SDK Gemini, bien qu’il n’ait pas fourni de calendrier précis.

Hassabis a déclaré que ‘MCP est un excellent protocole qui devient rapidement une norme ouverte pour l’ère des agents d’IA. Nous sommes impatients de travailler avec l’équipe MCP et d’autres partenaires du secteur pour faire progresser cette technologie.’

Depuis sa sortie en novembre 2024, MCP a gagné beaucoup de terrain en tant que moyen simple et normalisé de connecter les modèles linguistiques aux outils et aux données.

MCP permet aux modèles d’IA d’accéder aux données des outils et logiciels d’entreprise pour effectuer des tâches et accéder aux bibliothèques de contenu et aux environnements de développement d’applications. Le protocole permet aux développeurs d’établir des connexions bidirectionnelles entre les sources de données et les applications alimentées par l’IA telles que les chatbots.

Les développeurs peuvent exposer les interfaces de données via les serveurs MCP et créer des clients MCP (tels que des applications et des flux de travail) pour se connecter à ces serveurs. Depuis qu’Anthropic a rendu MCP open source, plusieurs entreprises ont intégré la prise en charge de MCP dans leurs plateformes.

Ironwood : l’aube d’une nouvelle ère de l’IA

Le TPU Ironwood de Google représente un bond en avant significatif dans le domaine de l’informatique de l’IA. Ses performances sans précédent, son architecture optimisée et sa prise en charge des protocoles émergents comme A2A et MCP le positionnent comme un élément clé de la prochaine vague d’innovation en matière d’IA. À mesure que les modèles d’IA deviennent plus complexes et plus exigeants, Ironwood fournit la puissance brute et la flexibilité nécessaires pour ouvrir de nouvelles possibilités et transformer les industries du monde entier. Ce n’est pas seulement une nouvelle puce, c’est une base pour un avenir alimenté par des machines intelligentes travaillant en collaboration pour résoudre des problèmes complexes et améliorer nos vies.