Google's Ironwood Verplettert Supercomputer

De wereld van de kunstmatige intelligentie (AI) processing is aanzienlijk veranderd met de onthulling van Google’s zevende generatie Tensor Processing Unit (TPU), bekend als Ironwood. Deze geavanceerde AI-accelerator beschikt over computationele mogelijkheden die, in grootschalige implementaties, de snelste supercomputer ter wereld meer dan 24 keer overtreffen.

Deze nieuwe chip, onthuld op de Google Cloud Next ‘25 conferentie, markeert een cruciaal moment in Google’s tien jaar lange strategie in AI-chipontwikkeling. In tegenstelling tot zijn voorgangers, die primair ontworpen waren voor zowel AI-training als inference workloads, is Ironwood specifiek ontworpen voor inference, wat een strategische verschuiving signaleert naar het optimaliseren van de efficiëntie van AI-implementaties.

Amin Vahdat, Google’s Vice President en General Manager of Machine Learning, Systems, and Cloud AI, benadrukte deze transitie en zei: ‘Ironwood is ontworpen om de volgende fase van generatieve AI en de enorme compute- en communicatievereisten te ondersteunen. Dit is wat we het ‘Inference-tijdperk’ noemen, waarin AI-agenten proactief gegevens ophalen en genereren om samen inzichten en antwoorden te leveren, in plaats van alleen gegevens te verwerken.’

Grenzen Verleggen met 42,5 Exaflops aan Rekenkracht

De technische specificaties van Ironwood zijn werkelijk indrukwekkend. Wanneer geschaald naar een pod van 9.216 chips, levert het een duizelingwekkende 42,5 exaflops aan AI-rekenkracht. Om dit in perspectief te plaatsen: het overtreft de huidige snelste supercomputer ter wereld, El Capitan, die opereert op 1,7 exaflops. Elke individuele Ironwood-chip kan een piekcompute-capaciteit van 4614 TFLOPs bereiken.

Naast ruwe verwerkingskracht verbetert Ironwood het geheugen en de bandbreedte aanzienlijk. Elke chip is uitgerust met 192 GB high-bandwidth memory (HBM), een zesvoudige toename ten opzichte van de vorige generatie TPU, Trillium, die vorig jaar werd uitgebracht. De geheugenbandbreedte per chip bereikt 7,2 terabits/s, 4,5 keer die van Trillium.

  • Rekenkracht: 42,5 exaflops (per pod van 9.216 chips)
  • Piek Compute per Chip: 4614 TFLOPs
  • Geheugen: 192GB HBM per chip
  • Geheugen Bandbreedte: 7,2 terabits/s per chip

In een tijdperk waarin datacenters uitbreiden en het stroomverbruik een groeiende zorg is, toont Ironwood ook significante verbeteringen in energie-efficiëntie. Het biedt twee keer de prestaties per watt in vergelijking met Trillium en bijna 30 keer die van de eerste TPU die in 2018 werd geïntroduceerd.

Deze optimalisatie voor inference signaleert een kritiek keerpunt in de evolutie van AI. In de afgelopen jaren hebben toonaangevende AI-laboratoria zich geconcentreerd op het ontwikkelen van steeds grotere foundation models met steeds groter wordende parameter counts. Google’s focus op inference-optimalisatie suggereert een verschuiving naar een nieuw paradigma dat is gecentreerd op implementatie-efficiëntie en inference-mogelijkheden.

Hoewel modeltraining essentieel blijft, komen inference-operaties veel vaker voor, miljarden keren per dag, naarmate AI-technologieën steeds meer doordringen. Voor bedrijven die AI inzetten, is de economie intrinsiek verbonden aan inference-kosten naarmate modellen complexer worden.

Google’s AI-compute vraag is in de afgelopen acht jaar vertienvoudigd en bereikt een verbazingwekkende 100 miljoen. Zonder gespecialiseerde architecturen zoals Ironwood zou het onmogelijk zijn om dit groeitraject vol te houden door traditionele vorderingen in de Wet van Moore alleen.

Met name benadrukte Google’s aankondiging een focus op ‘reasoning models’ die in staat zijn complexe inference-taken uit te voeren in plaats van simpele patroonherkenning. Dit suggereert een overtuiging dat de toekomst van AI niet alleen ligt in grotere modellen, maar ook in modellen die in staat zijn problemen op te splitsen, aan multi-step reasoning te doen en menselijke denkprocessen na te bootsen.

Next-Generation Large Models Aandrijven

Google positioneert Ironwood als de fundamentele infrastructuur voor zijn meest geavanceerde AI-modellen, waaronder zijn eigen Gemini 2.5, dat ‘native reasoning abilities’ bezit.

Het bedrijf introduceerde onlangs ook Gemini 2.5 Flash, een kleinere versie van zijn vlaggenschipmodel dat is ontworpen om ‘de reasoning depth aan te passen op basis van de complexiteit van de prompt’. Dit model is gericht op alledaagse toepassingen die snelle responstijden vereisen.

Google toonde verder zijn uitgebreide suite van multimodale generatiemodellen, bestaande uit text-to-image, text-to-video en zijn nieuw onthulde text-to-music capability, Lyria. Een demo illustreerde hoe deze tools kunnen worden gecombineerd om een complete promotievideo voor een concert te maken.

Ironwood is slechts één component van Google’s bredere AI-infrastructuurstrategie. Het bedrijf kondigde ook Cloud WAN aan, een managed wide area network service die bedrijven toegang biedt tot Google’s global-scale private network infrastructure.

Google breidt ook zijn software-aanbod voor AI-workloads uit, waaronder Pathways, een machine-learning runtime ontwikkeld door Google DeepMind. Pathways stelt klanten nu in staat om model serving te schalen over honderden TPU’s.

Introductie van A2A: Een Ecosysteem van Intelligente Agent Collaboration Bevorderen

Naast hardwareverbeteringen presenteerde Google zijn visie op AI, gecentreerd rond multi-agent systems, en onthulde een protocol om de ontwikkeling van intelligente agents te faciliteren: Agent-to-Agent (A2A). Dit protocol is ontworpen om veilige en gestandaardiseerde communicatie tussen verschillende AI-agenten te bevorderen.

Google is van mening dat 2025 een transformerend jaar zal zijn voor AI, waarbij de toepassing van generatieve AI evolueert van het beantwoorden van enkele vragen naar het oplossen van complexe problemen via intelligente agent systems.

Het A2A-protocol maakt interoperabiliteit mogelijk tussen platforms en frameworks, en biedt agents een gemeenschappelijke ‘taal’ en veilige communicatiekanalen. Dit protocol kan worden gezien als de network layer voor intelligente agents, met als doel de samenwerking tussen agents in complexe workflows te vereenvoudigen. Het stelt gespecialiseerde AI-agenten in staat om samen te werken aan taken van verschillende complexiteit en duur, waardoor de algehele capabilities worden verbeterd door samenwerking.

Hoe A2A Werkt

Google gaf een vergelijking tussen MCP- en A2A-protocollen in zijn blogpost:

  • MCP (Model Context Protocol): Voor tool- en resource management
    • Verbindt agents met tools, API’s en resources via gestructureerde input/output.
    • Google ADK ondersteunt MCP-tools, waardoor verschillende MCP-servers met agents kunnen werken.
  • A2A (Agent2Agent Protocol): Voor samenwerking tussen agents
    • Maakt dynamische multimodale communicatie tussen agents mogelijk zonder geheugen, resources of tools te delen.
    • Een open standaard gedreven door de community.
    • Voorbeelden kunnen worden bekeken met behulp van tools zoals Google ADK, LangGraph en Crew.AI.

In wezen zijn A2A en MCP complementair. MCP biedt agents toolondersteuning, terwijl A2A deze uitgeruste agents in staat stelt om met elkaar te communiceren en samen te werken.

De lijst met partners die door Google is aangekondigd, suggereert dat A2A vergelijkbare aandacht zal krijgen als MCP. Het initiatief heeft al meer dan 50 bedrijven aangetrokken tot zijn eerste samenwerkingscohort, waaronder toonaangevende technologiebedrijven en top global consulting- en system integration service providers.

Google benadrukte de openheid van het protocol en positioneerde het als de standaardmethode voor agents om samen te werken, onafhankelijk van onderliggende technology frameworks of service providers. Het bedrijf verklaarde dat het zich hield aan de volgende vijf key principles bij het ontwerpen van het protocol met zijn partners:

  1. Embrace Agent Capabilities: A2A richt zich op het in staat stellen van agents om samen te werken op hun natuurlijke, ongestructureerde manieren, zelfs als ze geen geheugen, tools en context delen. Het doel is om echte multi-agent scenarios mogelijk te maken zonder agents te beperken tot louter ‘tools’.
  2. Build on Existing Standards: Het protocol bouwt voort op bestaande populaire standaarden, waaronder HTTP, SSE en JSON-RPC, waardoor het gemakkelijker te integreren is met bestaande IT stacks die door bedrijven worden gebruikt.
  3. Secure by Default: A2A is ontworpen om enterprise-grade authenticatie en autorisatie te ondersteunen, vergelijkbaar met OpenAPI’s authenticatie schemes bij lancering.
  4. Support Long-Running Tasks: A2A is ontworpen met flexibiliteit om een breed scala aan scenarios te ondersteunen, van quick tasks tot in-depth research die uren of zelfs dagen kan duren (wanneer mensen betrokken zijn). Gedurende het hele proces kan A2A gebruikers real-time feedback, notifications en status updates bieden.
  5. Modality Agnostic: De wereld van agents is niet beperkt tot text, en daarom is A2A ontworpen om verschillende modalities te ondersteunen, waaronder audio- en videostreams.

Voorbeeld: Gestroomlijnd Wervingsproces via A2A

Een voorbeeld van Google illustreert hoe A2A het wervingsproces aanzienlijk kan stroomlijnen.

Binnen een unified interface zoals Agentspace kan een hiring manager een agent toewijzen om geschikte kandidaten te vinden op basis van job requirements. Deze agent kan interactie hebben met gespecialiseerde agents in specifieke fields om candidate sourcing te voltooien. De user kan de agent ook instrueren om interviews in te plannen en andere gespecialiseerde agents in staat stellen om te helpen met background checks, waardoor volledig geautomatiseerde, cross-system collaborative hiring mogelijk wordt.

MCP Omarmen: Deelname aan het Model Context Protocol Ecosystem

Tegelijkertijd omarmt Google ook MCP. Slechts enkele weken nadat OpenAI zijn adoptie van Anthropic’s Model Context Protocol (MCP) aankondigde, volgde Google het voorbeeld en sloot zich aan bij het initiatief.

Google DeepMind CEO Demis Hassabis kondigde op X aan dat Google ondersteuning voor MCP zal toevoegen aan zijn Gemini models en SDKs, hoewel een specifieke timeline niet werd verstrekt.

Hassabis verklaarde: ‘MCP is een uitstekend protocol dat snel de open standaard wordt voor het tijdperk van AI-agents. We kijken ernaar uit om samen te werken met het MCP team en andere partners in de industrie om de ontwikkeling van deze technology te bevorderen.’

Sinds de release in november 2024 heeft MCP snel aan populariteit en brede aandacht gewonnen en is het uitgegroeid tot een simpele en gestandaardiseerde manier om language models te verbinden met tools en data.

MCP stelt AI models in staat om toegang te krijgen tot data van data sources zoals enterprise tools en software om taken te voltooien en om toegang te krijgen tot content libraries en application development environments. Het protocol stelt developers in staat om bidirectionele verbindingen tot stand te brengen tussen data sources en AI-gedreven applications, zoals chatbots.

Developers kunnen data interfaces blootleggen via MCP servers en MCP clients (zoals applications en workflows) bouwen om verbinding te maken met deze servers. Sinds Anthropic MCP open-sourced heeft, hebben verschillende bedrijven MCP support geïntegreerd in hun platforms.

Verbeterde Uitsplitsing van Key Concepts:

Om de impact en betekenis van Google’s recente aankondigingen verder te verduidelijken, duiken we dieper in de core components: Ironwood, A2A en MCP.

Ironwood: Een Diepe Duik in het Inference Tijdperk

De verschuiving van het primair focussen op training models naar het optimaliseren voor inference is een kritieke evolutie in het AI landscape. Training omvat het voeden van enorme hoeveelheden data aan een model om het te leren patronen te herkennen en voorspellingen te doen. Inference is daarentegen het proces van het gebruiken van een trained model om voorspellingen te doen op nieuwe, ongeziene data.

Hoewel training een resource-intensieve, eenmalige (of infrequent) event is, gebeurt inference continu en op schaal in real-world applications. Overweeg applications zoals:

  • Chatbots: Reageren op user queries in real-time.
  • Recommendation Systems: Suggesting products of content op basis van user preferences.
  • Fraud Detection: Identifying fraudulent transactions als ze zich voordoen.
  • Image Recognition: Analyzing images om objects, people of scenes te identificeren.

Deze applications vereisen rapid, efficiënte inference om een seamless user experience te leveren. Ironwood is specifiek ontworpen om uit te blinken in deze tasks.

Key Advantages van Ironwood voor Inference:

  • High Throughput: De massive compute power (42,5 exaflops) stelt Ironwood in staat om een groot volume aan inference requests tegelijkertijd af te handelen.
  • Low Latency: Het high-bandwidth memory (HBM) en de efficiënte architectuur minimaliseren de tijd die nodig is om elke inference request te verwerken.
  • Energy Efficiency: De improved performance per watt reduceert de operational costs die verbonden zijn aan het runnen van large-scale inference deployments.

Door te optimaliseren voor inference, stelt Google businesses in staat om AI-powered applications efficiënter en cost-effectively te deployen.

A2A: De Foundation voor Collaborative AI

Het Agent-to-Agent (A2A) protocol vertegenwoordigt een significante stap in de richting van het creëren van meer sophisticated en collaborative AI systems. In een multi-agent system werken meerdere AI agents samen om een complex problem op te lossen. Elke agent kan zijn eigen gespecialiseerde skills en knowledge hebben, en ze communiceren en coördineren met elkaar om een common goal te bereiken.

Overweeg een scenario met automated customer support:

  • Agent 1: Understands de customer’s initial query en identificeert het underlying issue.
  • Agent 2: Accesses een knowledge base om relevante information te vinden.
  • Agent 3: Schedules een follow-up appointment met een human agent if necessary.

Deze agents moeten in staat zijn om naadloos te communiceren en information te delen om een cohesive customer experience te bieden. A2A biedt het framework voor dit type collaboration.

Key Benefits van A2A:

  • Interoperabiliteit: Allows agents developed op verschillende platforms en frameworks om met elkaar te communiceren.
  • Standardisatie: Biedt een common ‘taal’ en set van protocols voor agent communication.
  • Security: Zorgt voor secure communication tussen agents, protecting sensitive data.
  • Flexibiliteit: Supports een breed scala aan communication modalities, waaronder text, audio en video.

Door collaboration tussen AI agents te bevorderen, maakt A2A de ontwikkeling van meer powerful en versatile AI systems mogelijk.

MCP: De Brug tussen AI en Data

Het Model Context Protocol (MCP) adresseert de challenge van het verbinden van AI models met de vast hoeveelheden data die nodig zijn om hun tasks effectief uit te voeren. AI models hebben toegang nodig tot real-time data van verschillende sources, zoals databases, API’s en cloud services, om accurate predictions en informed decisions te maken.

MCP biedt een gestandaardiseerde manier voor AImodels om toegang te krijgen tot en te interageren met deze data sources. Het definieert een set van protocols voor:

  • Data Discovery: Identifying de available data sources.
  • Data Access: Retrieving data van de data sources.
  • Data Transformation: Converting de data in een format dat de AI model kan understand.

Door een gestandaardiseerde interface voor data access te bieden, vereenvoudigt MCP het proces van het integreren van AI models met real-world data.

Key Advantages van MCP:

  • Simplified Integratie: Makes het easier om AI models te verbinden met data sources.
  • Standardisatie: Biedt een common set van protocols voor data access.
  • Increased Efficiency: Reduces de tijd en effort die nodig is om data te accessen en transformeren.
  • Improved Accuracy: Enables AI models om toegang te krijgen tot de meest up-to-date information, leading to more accurate predictions.

Door AI models te verbinden met de data die ze nodig hebben, enables MCP hen om effectiever te performen en greater value te leveren.