De wereld van artificiële intelligentie (AI) evolueert voortdurend, waarbij vooruitgang in hardware een cruciale rol speelt bij het ontsluiten van nieuwe mogelijkheden. Google, een koploper in AI-innovatie, heeft onlangs zijn zevende generatie Tensor Processing Unit (TPU) onthuld, codenaam Ironwood, wat een aanzienlijke stap voorwaarts markeert in AI-rekenmogelijkheden. Deze geavanceerde AI-accelerator beschikt over een rekenkracht die zelfs de snelste supercomputers ter wereld overtreft met een verbazingwekkende factor 24 in grootschalige implementaties.
Ironwood, aangekondigd op de Google Cloud Next ‘25 conferentie, vertegenwoordigt een strategische spil in Google’s tien jaar lange reis van AI-chipontwikkeling. In tegenstelling tot zijn voorgangers, die primair waren ontworpen voor AI-training en inferentie-workloads, is Ironwood specifiek ontworpen om uit te blinken in inferentie-taken, waarmee een nieuw tijdperk van AI-gestuurde applicaties wordt ingeluid.
Volgens Amin Vahdat, Vice President en General Manager of Machine Learning, Systems, and Cloud AI bij Google, is ‘Ironwood ontworpen om de volgende fase van generatieve AI te ondersteunen en de enorme reken- en communicatievereisten. Dit is wat we het ‘Inferentie-tijdperk’ noemen, waar AI-agenten proactief gegevens zullen ophalen en genereren om gezamenlijk inzichten en antwoorden te leveren, niet alleen gegevens.’
Onthulling van Ironwood’s ongekende mogelijkheden
De technische specificaties van Ironwood zijn ronduit buitengewoon. Wanneer geschaald naar een pod van 9.216 chips, kan het een verbazingwekkende 42,5 exaflops aan AI-rekenkracht leveren. Dit cijfer overtreft de 1,7 exaflops die wordt aangeboden door El Capitan, de huidige titelhouder voor ‘s werelds snelste supercomputer. Elke individuele Ironwood-chip beschikt over een piek rekenvermogen van 4.614 TFLOPs.
Naast pure verwerkingskracht, beschikt Ironwood ook over significante verbeteringen in geheugen en bandbreedte. Elke chip is uitgerust met 192GB high-bandwidth geheugen (HBM), een zesvoudige toename in vergelijking met de vorige generatie TPU, Trillium, die vorig jaar werd uitgebracht. Bovendien bereikt de geheugenbandbreedte per chip 7,2 terabits/s, wat een 4,5-voudige verbetering ten opzichte van Trillium vertegenwoordigt.
In een tijdperk waarin datacenters uitbreiden en het stroomverbruik een kritieke zorg wordt, onderscheidt Ironwood zich ook door zijn energie-efficiëntie. De prestaties per watt zijn tweemaal die van Trillium en bijna 30 keer hoger dan de eerste TPU die in 2018 werd geïntroduceerd.
De nadruk op inferentie-optimalisatie betekent een cruciale verschuiving in het AI-landschap. In de afgelopen jaren hebben toonaangevende AI-labs zich primair gericht op het bouwen van steeds grotere foundation-modellen met toenemende parameter aantallen. Google’s focus op inferentie-optimalisatie suggereert een overgang naar een nieuwe fase gericht op implementatie-efficiëntie en inferentie-mogelijkheden.
Hoewel modeltraining cruciaal blijft, is het aantal trainingsiteraties eindig. In tegenstelling hiermee, naarmate AI-technologieën steeds meer worden geïntegreerd in verschillende applicaties, wordt verwacht dat inferentie-operaties miljarden keren per dag zullen plaatsvinden. Naarmate modellen in complexiteit toenemen, wordt de economische levensvatbaarheid van deze applicaties onlosmakelijk verbonden met inferentiekosten.
In de afgelopen acht jaar is Google’s vraag naar AI-rekenkracht vertienvoudigd en heeft een verbazingwekkende 100 miljoen bereikt. Zonder gespecialiseerde architecturen zoals Ironwood zou zelfs de meedogenloze vooruitgang van Moore’s Law moeite hebben om deze exponentiële groei bij te houden.
Met name Google’s aankondiging benadrukt de focus op ‘mentale modellen’ die in staat zijn complexe redeneertaken uit te voeren in plaats van eenvoudige patroonherkenning. Dit suggereert dat Google een toekomst voor ogen heeft waarin AI verder gaat dan grotere modellen en modellen omvat die problemen kunnen ontleden, meerstapsredeneringen kunnen uitvoeren en mensachtige denkprocessen kunnen nabootsen.
Aandrijving van de volgende generatie grote modellen
Google positioneert Ironwood als de basisinfrastructuur voor zijn meest geavanceerde AI-modellen, waaronder Gemini 2.5, die beschikt over native ingebouwde redeneermogelijkheden.
Google heeft ook onlangs Gemini 2.5 Flash geïntroduceerd, een kleinere variant van zijn vlaggenschipmodel dat is ontworpen voor latency-gevoelige, alledaagse applicaties. Gemini 2.5 Flash kan zijn redeneerdiepte dynamisch aanpassen op basis van de complexiteit van de prompt.
Google toonde ook zijn uitgebreide suite van multimodale generatieve modellen, waaronder text-to-image, text-to-video en de nieuw onthulde text-to-music functie, Lyria. Een demo illustreerde hoe deze tools kunnen worden gecombineerd om een complete promotievideo voor een concert te produceren.
Ironwood is slechts een onderdeel van Google’s bredere AI-infrastructuurstrategie. Google kondigde ook Cloud WAN aan, een beheerde wide area network service waarmee ondernemingen toegang kunnen krijgen tot Google’s private netwerkinfrastructuur op wereldschaal.
Verder breidt Google zijn softwareaanbod voor AI-workloads uit, waaronder Pathways, een machine learning runtime ontwikkeld door Google DeepMind. Pathways stelt klanten nu in staat om model serving te schalen over honderden TPU’s.
Bevordering van AI-agentensamenwerking met A2A
Naast hardwareverbeteringen heeft Google ook zijn visie geschetst voor een AI-ecosysteem gecentreerd rond multi-agent systemen. Om de ontwikkeling van intelligente agenten te faciliteren, heeft Google het Agent-to-Agent (A2A) protocol geïntroduceerd, ontworpen om veilige en gestandaardiseerde communicatie tussen verschillende AI-agenten mogelijk te maken.
Google gelooft dat 2025 een transformerend jaar zal markeren voor AI, met generatieve AI-applicaties die evolueren van het beantwoorden van enkele vragen naar het oplossen van complexe problemen via agentsystemen.
Het A2A-protocol maakt interoperabiliteit mogelijk tussen agenten over verschillende platforms en frameworks, waardoor ze een gemeenschappelijke ‘taal’ en veilige communicatiekanalen krijgen. Dit protocol kan worden gezien als een netwerklaag voor intelligente agenten, die tot doel heeft de samenwerking tussen agenten in complexe workflows te vereenvoudigen. Door gespecialiseerde AI-agenten in staat te stellen samen te werken aan taken van verschillende complexiteit en duur, streeft A2A ernaar de algehele mogelijkheden te verbeteren door middel van samenwerking.
A2A werkt door een gestandaardiseerde manier te creëren voor agenten om informatie uit te wisselen en acties te coördineren, zonder dat ze onderliggende code of datastructuren hoeven te delen. Dit maakt het mogelijk om meer modulaire en flexibele AI-systemen te creëren, waarbij agenten eenvoudig kunnen worden toegevoegd, verwijderd of opnieuw geconfigureerd als dat nodig is.
Google heeft in een blogpost een vergelijking gemaakt tussen MCP- en A2A-protocollen.
- MCP (Model Context Protocol) is ontworpen voor tool- en resource management.
- Het verbindt agenten met tools, API’s en resources via gestructureerde input/output.
- De Google ADK ondersteunt MCP-tools, waardoor verschillende MCP-servers met agenten kunnen werken.
- A2A (Agent2Agent Protocol) is ontworpen voor samenwerking tussen agenten.
- Het maakt dynamische, multi-modale communicatie mogelijk tussen agenten zonder geheugen, resources of tools te delen.
- Het is een open standaard gedreven door de community.
- Voorbeelden zijn te bekijken met Google ADK, LangGraph, Crew.AI en andere tools.
In essentie zijn A2A en MCP complementair: MCP biedt agenten toolondersteuning, terwijl A2A deze met tools uitgeruste agenten in staat stelt om met elkaar te communiceren en samen te werken.
Afgaande op de initiële partners lijkt A2A klaar om vergelijkbare aandacht te krijgen als MCP. Meer dan 50 bedrijven hebben zich aangesloten bij de initiële samenwerking, waaronder toonaangevende techbedrijven en top wereldwijde consulting- en systeemintegratie service providers.
Google benadrukt de openheid van het protocol en positioneert het als een standaardmanier voor agenten om samen te werken, ongeacht het onderliggende technologie-framework of de service provider. Google schetste vijf belangrijke principes die het ontwerp van het protocol hebben geleid in samenwerking met zijn partners:
- Omarm Agent Mogelijkheden: A2A richt zich op het in staat stellen van agenten om samen te werken op hun natuurlijke, ongestructureerde manier, zelfs als ze geen geheugen, tools en context delen. Het protocol is bedoeld om echte multi-agent scenario’s mogelijk te maken, in plaats van agenten te beperken tot slechts ‘tools’.
- Bouw voort op bestaande standaarden: Het protocol bouwt voort op bestaande populaire standaarden, waaronder HTTP, SSE en JSON-RPC, waardoor het gemakkelijker te integreren is met bestaande IT-stacks die vaak door ondernemingen worden gebruikt.
- Standaard veilig: A2A is ontworpen om enterprise-grade authenticatie en autorisatie te ondersteunen, vergelijkbaar met OpenAPI’s authenticatieschema’s bij de lancering.
- Ondersteun langdurige taken: A2A is ontworpen om flexibel te zijn en een breed scala aan scenario’s te ondersteunen, van snelle taken tot diepgaand onderzoek dat uren of zelfs dagen kan duren (wanneer mensen betrokken zijn). Gedurende het hele proces kan A2A gebruikers realtime feedback, notificaties en statusupdates geven.
- Modaliteit Agnostisch: De wereld van agenten is niet beperkt tot tekst, daarom is A2A ontworpen om verschillende modaliteiten te ondersteunen, waaronder audio- en videostreams.
Google geeft een voorbeeld van hoe A2A het wervingsproces aanzienlijk kan stroomlijnen.
In een unified interface zoals Agentspace kan een hiring manager een agent toewijzen om geschikte kandidaten te vinden op basis van de functievereisten. Deze agent kan interageren met gespecialiseerde agenten om kandidaten te sourcen, interviews in te plannen en zelfs andere gespecialiseerde agenten in te schakelen om te helpen bij achtergrondcontroles, waardoor intelligente automatisering van het volledige wervingsproces over verschillende systemen mogelijk wordt.
Omarming van het Model Context Protocol (MCP)
Naast zijn inspanningen bij het ontwikkelen van A2A, omarmt Google ook het Model Context Protocol (MCP). Slechts weken nadat OpenAI zijn adoptie van MCP aankondigde, volgde Google.
Demis Hassabis, CEO van Google DeepMind, kondigde onlangs aan op X dat Google ondersteuning voor MCP zal toevoegen aan zijn Gemini-modellen en SDK’s. Hij gaf echter geen specifieke tijdlijn.
Hassabis verklaarde dat ‘MCP een uitstekend protocol is dat snel de open standaard wordt voor het AI-agent tijdperk. Ik kijk ernaar uit om samen te werken met het MCP-team en andere partners in de industrie om deze technologie verder te ontwikkelen.’
Sinds de release in november 2024 heeft MCP snel aan populariteit gewonnen en is het een eenvoudige en gestandaardiseerde manier geworden om taalmodellen te verbinden met tools en data.
MCP stelt AI-modellen in staat om toegang te krijgen tot data uit bronnen zoals enterprise tools en software om taken te voltooien, evenals toegang tot contentbibliotheken en applicatie ontwikkelomgevingen. Het protocol stelt ontwikkelaars in staat om bidirectionele verbindingen tot stand te brengen tussen databronnen en AI-aangedreven applicaties, zoals chatbots.
Ontwikkelaars kunnen data interfaces blootleggen via MCP-servers en MCP-clients (zoals applicaties en workflows) bouwen om verbinding te maken met deze servers. Sinds Anthropic MCP open-source heeft gemaakt, hebben meerdere bedrijven MCP-ondersteuning in hun platforms geïntegreerd.