Google's Ironwood TPU: AI Sprong

De wereld van kunstmatige intelligentie is opnieuw gedefinieerd met de onthulling van Google’s zevende generatie Tensor Processing Unit (TPU), gedoopt tot Ironwood. Deze geavanceerde AI-accelerator beschikt over rekenkracht die zelfs de meest formidabele supercomputers ter wereld in de schaduw stelt. In een grootschalige implementatie overtreffen de mogelijkheden van Ironwood die van de snelste supercomputer met maar liefst 24 keer.

De onthulling van Ironwood op het Google Cloud Next ‘25 evenement markeert een cruciaal moment in Google’s decenniumlange streven naar AI-chipinnovatie. Waar eerdere TPU-iteraties zich primair richtten op de training- en inferentieworkloads van AI-modellen, onderscheidt Ironwood zich als de eerste chip die nauwgezet is ontworpen en geoptimaliseerd voor inferentietaken.

Volgens Amin Vahdat, Vice President en General Manager of Machine Learning, Systems, and Cloud AI bij Google, is ‘Ironwood ontworpen om de volgende fase van generatieve AI voort te stuwen, waarbij de immense computationele en communicatievereisten worden aangepakt. We betreden wat we de ‘Inference Era’ noemen, waarin AI-agenten proactief gegevens zullen ophalen en genereren om gezamenlijk inzichten en antwoorden te leveren, waarmee ze de mogelijkheden van louter gegevensverwerking overtreffen.’

Ongekende rekenkracht ontketenen: Een duik in de mogelijkheden van Ironwood

De technische specificaties van Ironwood lezen als een wensenlijst voor AI-onderzoekers en ontwikkelaars. Schalend naar een pod van 9.216 chips, levert Ironwood een verbluffende 42,5 exaflops aan AI-rekenkracht. Om dit in perspectief te plaatsen: het overtreft ruimschoots de mogelijkheden van de huidige regerend supercomputerkampioen, El Capitan, die piekt op 1,7 exaflops. Individueel beschikt elke Ironwood-chip over een piek rekenkracht van 4614 TFLOPs.

Naast de pure verwerkingskracht introduceert Ironwood aanzienlijke verbeteringen in geheugen en bandbreedte. Elke chip is uitgerust met 192 GB High Bandwidth Memory (HBM), een zesvoudige toename ten opzichte van de vorige generatie TPU, Trillium. De geheugenbandbreedte is ook drastisch verbeterd en bereikt 7,2 terabits/s per chip, 4,5 keer zoveel als Trillium.

In een tijdperk waarin datacenters uitbreiden en het stroomverbruik een steeds kritischer factor wordt, demonstreert Ironwood opmerkelijke energie-efficiëntie. De prestaties per watt zijn twee keer zo hoog als die van Trillium en bijna 30 keer beter dan de initiële TPU die in 2018 werd geïntroduceerd.

Deze verschuiving naar inferentie-optimalisatie vertegenwoordigt een belangrijke mijlpaal in de evolutie van AI. In de afgelopen jaren hebben toonaangevende AI-labs zich gericht op het bouwen van fundamentele modellen met steeds grotere parameters. Google’s nadruk op inferentie-optimalisatie signaleert een verschuiving naar het prioriteren van implementatie-efficiëntie en real-world inferentiemogelijkheden.

Hoewel AI-modeltraining een relatief infrequente activiteit is, vinden inferentie-operaties miljarden keren per dag plaats naarmate AI-technologieën steeds meer doordringen. De economische levensvatbaarheid van AI-gestuurde bedrijven is intrinsiek verbonden met inferentiekosten, vooral naarmate modellen steeds complexer worden.

In de afgelopen acht jaar is de vraag vanGoogle naar AI-rekenkracht exponentieel gegroeid, vertienvoudigd en bereikt een verbluffende 100 miljoen. Zonder gespecialiseerde architecturen zoals Ironwood kan de wet van Moore deze groeitraject niet alleen volhouden.

Google’s nadruk op ‘redeneermodellen’ die in staat zijn tot complexe inferentietaken, in plaats van eenvoudige patroonherkenning, is bijzonder opmerkelijk. Dit suggereert dat Google een toekomst voor zich ziet waarin AI niet alleen uitblinkt door grotere modellen, maar ook door modellen die in staat zijn om problemen op te breken, multi-step reasoning uit te voeren en mensachtige denkprocessen na te bootsen.

De volgende generatie Large Language Models aandrijven

Google positioneert Ironwood als de basisinfrastructuur voor zijn meest geavanceerde AI-modellen, waaronder Gemini 2.5, die beschikt over ‘native redeneermogelijkheden’.

Naast Ironwood onthulde Google Gemini 2.5 Flash, een gestroomlijnde versie van zijn vlaggenschipmodel dat is ontworpen voor latency-gevoelige, alledaagse toepassingen. Gemini 2.5 Flash kan de redeneerdiepte dynamisch aanpassen op basis van de complexiteit van de prompt.

Google toonde ook zijn suite van multimodale generatieve modellen, waaronder text-to-image, text-to-video en de nieuw geïntroduceerde text-to-music functionaliteit, Lyria. Een overtuigende demo liet zien hoe deze tools kunnen worden gecombineerd om een complete promotievideo voor een concert te produceren.

Ironwood is slechts één component van Google’s uitgebreide AI-infrastructuurstrategie. Het bedrijf introduceerde ook Cloud WAN, een beheerde wide area network service waarmee bedrijven kunnen profiteren van Google’s wereldwijde private netwerkinfrastructuur.

Google breidt ook zijn softwareaanbod uit voor AI-workloads, waaronder Pathways, een machine learning runtime ontwikkeld door Google DeepMind, waarmee klanten model serving kunnen schalen over honderden TPU’s.

Een visie op collaboratieve intelligentie: Introductie van A2A en MCP Support

Naast hardware-verbeteringen verwoordde Google zijn visie op AI, gecentreerd rond multi-agent systemen, en introduceerde het het Agent-to-Agent (A2A) protocol, ontworpen om veilige en gestandaardiseerde communicatie tussen diverse AI-agenten te bevorderen.

Google verwacht 2025 als een transformatief jaar voor AI, waarbij generatieve AI-toepassingen evolueren van het beantwoorden van enkele vragen naar het oplossen van complexe problemen via onderling verbonden agentsystemen.

Het A2A-protocol maakt interoperabiliteit tussen platforms en frameworks mogelijk en biedt AI-agenten een gemeenschappelijke ‘taal’ en veilige communicatiekanalen. Beschouw het als een netwerklaag voor AI-agenten, die de samenwerking in complexe workflows vereenvoudigt en gespecialiseerde AI-agenten in staat stelt om gezamenlijk taken van verschillende complexiteit en duur aan te pakken, waardoor de algehele mogelijkheden worden verbeterd door middel van samenwerking.

Hoe A2A Werkt

Google heeft een vergelijkend overzicht gegeven van de MCP- en A2A-protocollen:

  • MCP (Model Context Protocol): Richt zich op tool- en resourcebeheer.
    • Verbindt agenten met tools, API’s en resources via gestructureerde input/output.
    • Google ADK ondersteunt MCP-tools, waardoor naadloze interactie tussen MCP-servers en agenten mogelijk is.
  • A2A (Agent2Agent Protocol): Faciliteert samenwerking tussen agenten.
    • Maakt dynamische, multi-modale communicatie tussen agenten mogelijk zonder dat gedeeld geheugen, resources of tools vereist zijn.
    • Het is een open standaard die wordt aangedreven door de community.
    • Voorbeelden kunnen worden verkend met behulp van tools zoals Google ADK, LangGraph en Crew.AI.

A2A en MCP zijn complementair. MCP voorziet agenten van tools, terwijl A2A deze uitgeruste agenten in staat stelt om te praten en samen te werken.

Google’s initiële lijst van partners suggereert dat A2A vergelijkbare aandacht zal krijgen als MCP. Het initiatief heeft al meer dan 50 organisaties aangetrokken, waaronder toonaangevende technologiebedrijven en wereldwijde consultancy- en systeemintegratieproviders.

Google benadrukt de openheid van het protocol en positioneert het als een standaard voor inter-agentsamenwerking die de onderliggende technologie frameworks of serviceproviders overstijgt. Google benadrukte vijf leidende principes die het ontwerp van het protocol hebben gevormd:

  1. Omarm Agent Capabilities: A2A prioriteert het in staat stellen van agenten om op natuurlijke wijze samen te werken, zelfs zonder geheugen, tools of context te delen. Het doel is om echte multi-agent scenario’s mogelijk te maken, en agenten niet simpelweg te beperken tot het fungeren als ‘tools’.
  2. Bouw voort op bestaande standaarden: Het protocol maakt gebruik van bestaande, breed geaccepteerde standaarden, waaronder HTTP, SSE en JSON-RPC, waardoor integratie met bestaande IT-stacks wordt vereenvoudigd.
  3. Secure by Default: A2A is ontworpen om enterprise-grade authenticatie en autorisatie te ondersteunen, vergelijkbaar met de authenticatieschema’s van OpenAPI.
  4. Support Long-Running Tasks: De flexibiliteit van A2A stelt het in staat om een breed scala aan scenario’s te ondersteunen, van snelle taken tot diepgaand onderzoek dat uren of zelfs dagen kan duren (vooral wanneer menselijke betrokkenheid nodig is). Gedurende het proces kan A2A gebruikers real-time feedback, notificaties en status updates bieden.
  5. Modality Agnostic: Erkennend dat de wereld van agenten verder reikt dan tekst, ondersteunt A2A verschillende modaliteiten, waaronder audio- en videostreams.

Google gaf een voorbeeld van hoe A2A het wervingsproces stroomlijnt.

In een unified interface zoals Agentspace kan een hiring manager een agent toewijzen om geschikte kandidaten te identificeren op basis van functievereisten. Deze agent kan communiceren met gespecialiseerde agenten om kandidaten te werven. Gebruikers kunnen agenten ook instrueren om interviews in te plannen en andere gespecialiseerde agenten in te schakelen om te helpen bij achtergrondcontroles, waardoor volledig geautomatiseerde en intelligente werving via systemen mogelijk is.

Embracing the Model Context Protocol (MCP)

Google omarmt ook MCP. Kort nadat OpenAI de adoptie van Anthropic’s Model Context Protocol (MCP) aankondigde, volgde Google het voorbeeld.

Demis Hassabis, CEO van Google DeepMind, kondigde op X (voorheen Twitter) aan dat Google ondersteuning voor MCP zou toevoegen in zijn Gemini-modellen en SDK, hoewel hij geen specifieke tijdlijn gaf.

Hassabis verklaarde dat “MCP een uitstekend protocol is dat snel een open standaard wordt voor het tijdperk van AI-agenten. We kijken ernaar uit om samen te werken met het MCP-team en andere partners in de industrie om deze technologie verder te ontwikkelen.”

Sinds de release in november 2024 heeft MCP aanzienlijke tractie gekregen als een eenvoudige, gestandaardiseerde manier om taalmodellen te verbinden met tools en data.

MCP stelt AI-modellen in staat om toegang te krijgen tot data uit enterprise tools en software om taken te voltooien en toegang te krijgen tot contentbibliotheken en applicatieontwikkelomgevingen. Het protocol stelt ontwikkelaars in staat om bidirectionele verbindingen tot stand te brengen tussen databronnen en AI-gestuurde applicaties zoals chatbots.

Ontwikkelaars kunnen data-interfaces beschikbaar maken via MCP-servers en MCP-clients (zoals applicaties en workflows) bouwen om verbinding te maken met deze servers. Sinds Anthropic MCP open-source heeft gemaakt, hebben verschillende bedrijven MCP-ondersteuning in hun platforms geïntegreerd.

Ironwood: Het aanbreken van een nieuw tijdperk in AI

Google’s Ironwood TPU vertegenwoordigt een aanzienlijke sprong voorwaarts in AI-computing. De ongekende prestaties, geoptimaliseerde architectuur en ondersteuning voor opkomende protocollen zoals A2A en MCP positioneren het als een belangrijke facilitator van de volgende golf van AI-innovatie. Naarmate AI-modellen complexer en veeleisender worden, biedt Ironwood de ruwe kracht en flexibiliteit die nodig zijn om nieuwe mogelijkheden te ontsluiten en industrieën over de hele wereld te transformeren. Het is niet zomaar een nieuwe chip; het is een fundering voor een toekomst die wordt aangedreven door intelligente machines die samenwerken om complexe problemen op te lossen en ons leven te verbeteren.