Il panorama dell’intelligenza artificiale (IA) è in continua evoluzione, con i progressi nell’hardware che svolgono un ruolo fondamentale nello sbloccare nuove possibilità. Google, leader nell’innovazione dell’IA, ha recentemente svelato la sua Tensor Processing Unit (TPU) di settima generazione, nome in codice Ironwood, segnando un significativo passo avanti nelle capacità di calcolo dell’IA. Questo acceleratore IA all’avanguardia vanta una potenza computazionale che supera persino i supercomputer più veloci del mondo di un fattore sbalorditivo di 24 nelle implementazioni su larga scala.
Annunciato alla conferenza Google Cloud Next ‘25, Ironwood rappresenta una svolta strategica nel decennale percorso di Google nello sviluppo di chip IA. A differenza dei suoi predecessori, che erano principalmente progettati per i carichi di lavoro di addestramento e inferenza dell’IA, Ironwood è specificamente progettato per eccellere nei compiti di inferenza, preannunciando una nuova era di applicazioni guidate dall’IA.
Secondo Amin Vahdat, Vice Presidente e Direttore Generale di Machine Learning, Systems e Cloud AI presso Google, ‘Ironwood è progettato per supportare la prossima fase dell’IA generativa e i suoi enormi requisiti di calcolo e comunicazione. Questo è ciò che chiamiamo l’Era dell’Inferenza, in cui gli agenti IA recupereranno e genereranno proattivamente dati per fornire in modo collaborativo approfondimenti e risposte, non solo dati.’
Svelando le Capacità Senza Precedenti di Ironwood
Le specifiche tecniche di Ironwood sono a dir poco straordinarie. Quando ridimensionato a un pod di 9.216 chip, può fornire ben 42,5 exaflops di potenza di calcolo IA. Questa cifra sminuisce gli 1,7 exaflops offerti da El Capitan, l’attuale detentore del titolo di supercomputer più veloce del mondo. Ogni singolo chip Ironwood vanta una capacità di calcolo di picco di 4.614 TFLOPs.
Oltre alla pura potenza di elaborazione, Ironwood presenta anche significativi miglioramenti in termini di memoria e larghezza di banda. Ogni chip è dotato di 192 GB di memoria ad alta larghezza di banda (HBM), un aumento di sei volte rispetto alla TPU di generazione precedente, Trillium, che è stata rilasciata l’anno scorso. Inoltre, la larghezza di banda della memoria per chip raggiunge i 7,2 terabit/s, rappresentando un miglioramento di 4,5 volte rispetto a Trillium.
In un’era in cui i data center si stanno espandendo e il consumo di energia sta diventando una preoccupazione critica, Ironwood si distingue anche per la sua efficienza energetica. Le sue prestazioni per watt sono il doppio di quelle di Trillium e quasi 30 volte superiori rispetto alla prima TPU introdotta nel 2018.
L’enfasi sull’ottimizzazione dell’inferenza segna un cambiamento fondamentale nel panorama dell’IA. Negli ultimi anni, i principali laboratori di IA si sono concentrati principalmente sulla costruzione di modelli di fondazione sempre più grandi con un numero crescente di parametri. L’attenzione di Google sull’ottimizzazione dell’inferenza suggerisce una transizione verso una nuova fase incentrata sull’efficienza della distribuzione e sulle capacità di inferenza.
Sebbene l’addestramento del modello rimanga cruciale, il numero di iterazioni di addestramento è finito. Al contrario, man mano che le tecnologie IA diventano sempre più integrate in varie applicazioni, si prevede che le operazioni di inferenza si verifichino miliardi di volte al giorno. Man mano che i modelli crescono in complessità, la fattibilità economica di queste applicazioni diventa inestricabilmente legata ai costi di inferenza.
Negli ultimi otto anni, la domanda di calcolo IA di Google è cresciuta di dieci volte, raggiungendo l’incredibile cifra di 100 milioni. Senza architetture specializzate come Ironwood, anche l’implacabile progresso della legge di Moore faticherebbe a tenere il passo con questa crescita esponenziale.
In particolare, l’annuncio di Google evidenzia la sua attenzione ai ‘modelli mentali’ in grado di eseguire compiti di ragionamento complessi piuttosto che semplice riconoscimento di modelli. Ciò suggerisce che Google prevede un futuro in cui l’IA si estende oltre i modelli più grandi e comprende modelli in grado di scomporre i problemi, eseguire ragionamenti a più fasi ed emulare processi di pensiero simili a quelli umani.
Alimentando la Prossima Generazione di Modelli di Grandi Dimensioni
Google posiziona Ironwood come l’infrastruttura fondamentale per i suoi modelli IA più avanzati, tra cui Gemini 2.5, che vanta capacità di ragionamento integrate in modo nativo.
Google ha anche recentemente introdotto Gemini 2.5 Flash, una variante più piccola del suo modello di punta progettata per applicazioni quotidiane sensibili alla latenza. Gemini 2.5 Flash può regolare dinamicamente la sua profondità di ragionamento in base alla complessità del prompt.
Google ha anche presentato la sua suite completa di modelli generativi multimodali, tra cui da testo a immagine, da testo a video e la nuova funzionalità da testo a musica, Lyria. Una demo ha illustrato come questi strumenti potrebbero essere combinati per produrre un video promozionale completo per un concerto.
Ironwood è solo una componente della più ampia strategia di infrastruttura IA di Google. Google ha anche annunciato Cloud WAN, un servizio di rete wide area gestito che consente alle aziende di accedere all’infrastruttura di rete privata su scala globale di Google.
Inoltre, Google sta espandendo le sue offerte software per i carichi di lavoro IA, tra cui Pathways, un runtime di machine learning sviluppato da Google DeepMind. Pathways ora consente ai clienti di scalare il serving dei modelli su centinaia di TPU.
Promuovere la Collaborazione tra Agenti IA con A2A
Oltre ai progressi hardware, Google ha anche delineato la sua visione per un ecosistema IA incentrato su sistemi multi-agente. Per facilitare lo sviluppo di agenti intelligenti, Google ha introdotto il protocollo Agent-to-Agent (A2A), progettato per consentire una comunicazione sicura e standardizzata tra diversi agenti IA.
Google ritiene che il 2025 segnerà un anno di trasformazione per l’IA, con le applicazioni di IA generativa che si evolveranno dalla risposta a singole domande alla risoluzione di problemi complessi attraverso sistemi di agenti.
Il protocollo A2A consente l’interoperabilità tra agenti su diverse piattaforme e framework, fornendo loro un ‘linguaggio’ comune e canali di comunicazione sicuri. Questo protocollo può essere visto come un livello di rete per agenti intelligenti, che mira a semplificare la collaborazione tra agenti in flussi di lavoro complessi. Consentendo ad agenti IA specializzati di lavorare insieme su compiti di varia complessità e durata, A2A cerca di migliorare le capacità complessive attraverso la collaborazione.
A2A funziona stabilendo un modo standardizzato per gli agenti di scambiare informazioni e coordinare le azioni, senza richiedere loro di condividere codice o strutture di dati sottostanti. Ciò consente la creazione di sistemi IA più modulari e flessibili, in cui gli agenti possono essere facilmente aggiunti, rimossi o riconfigurati secondo necessità.
Google ha fatto un paragone tra i protocolli MCP e A2A in un post sul blog.
- MCP (Model Context Protocol) è progettato per la gestione di strumenti e risorse.
- Collega gli agenti a strumenti, API e risorse tramite input/output strutturato.
- Google ADK supporta gli strumenti MCP, consentendo a vari server MCP di lavorare con gli agenti.
- A2A (Agent2Agent Protocol) è progettato per la collaborazione tra agenti.
- Consente una comunicazione dinamica e multimodale tra agenti senza condividere memoria, risorse o strumenti.
- È uno standard aperto guidato dalla comunità.
- Esempi possono essere visualizzati utilizzando Google ADK, LangGraph, Crew.AI e altri strumenti.
In sostanza, A2A e MCP sono complementari: MCP fornisce agli agenti supporto per gli strumenti, mentre A2A consente a questi agenti dotati di strumenti di comunicare e collaborare tra loro.
A giudicare dai partner iniziali, A2A sembra destinato a ottenere un’attenzione simile a MCP. Oltre 50 aziende si sono unite alla collaborazione iniziale, tra cui le principali aziende tecnologiche e i principali fornitori globali di servizi di consulenza e integrazione di sistemi.
Google sottolinea l’apertura del protocollo, posizionandolo come un modo standard per gli agenti di collaborare, indipendentemente dal framework tecnologico o dal fornitore di servizi sottostante. Google ha delineato cinque principi chiave che hanno guidato la progettazione del protocollo in collaborazione con i suoi partner:
- Abbracciare le Capacità degli Agenti: A2A si concentra sul consentire agli agenti di collaborare nel loro modo naturale e non strutturato, anche se non condividono memoria, strumenti e contesto. Il protocollo mira a consentire veri scenari multi-agente, piuttosto che limitare gli agenti a essere semplici ‘strumenti’.
- Basarsi sugli Standard Esistenti: Il protocollo si basa su standard popolari esistenti, tra cui HTTP, SSE e JSON-RPC, rendendo più facile l’integrazione con gli stack IT esistenti comunemente utilizzati dalle aziende.
- Sicuro per Impostazione Predefinita: A2A è progettato per supportare l’autenticazione e l’autorizzazione di livello aziendale, paragonabile agli schemi di autenticazione di OpenAPI al momento del lancio.
- Supportare Compiti di Lunga Durata: A2A è progettato per essere flessibile, supportando una vasta gamma di scenari, da compiti rapidi a ricerche approfondite che possono richiedere ore o persino giorni (quando sono coinvolti esseri umani). Durante tutto il processo, A2A può fornire agli utenti feedback in tempo reale, notifiche e aggiornamenti di stato.
- Agnostico alla Modalità: Il mondo degli agenti non è limitato al testo, motivo per cui A2A è progettato per supportare varie modalità, tra cui flussi audio e video.
Google fornisce un esempio di come A2A può semplificare significativamente il processo di assunzione.
In un’interfaccia unificata come Agentspace, un responsabile delle assunzioni può assegnare a un agente la ricerca di candidati adatti in base ai requisiti del lavoro. Questo agente può interagire con agenti specializzati per reperire candidati, programmare colloqui e persino coinvolgere altri agenti specializzati per assistere con i controlli dei precedenti, consentendo l’automazione intelligente dell’intero processo di assunzione attraverso diversi sistemi.
Abbracciando il Model Context Protocol (MCP)
Oltre ai suoi sforzi nello sviluppo di A2A, Google sta anche abbracciando il Model Context Protocol (MCP). Solo poche settimane dopo che OpenAI ha annunciato la sua adozione di MCP, Google ha seguito l’esempio.
Demis Hassabis, CEO di Google DeepMind, ha recentemente annunciato su X che Google aggiungerà il supporto per MCP ai suoi modelli Gemini e SDK. Tuttavia, non ha fornito una tempistica specifica.
Hassabis ha affermato che ‘MCP è un eccellente protocollo che sta rapidamente diventando lo standard aperto per l’era degli agenti IA. Non vedo l’ora di lavorare con il team MCP e altri partner del settore per far progredire questa tecnologia.’
Dal suo rilascio nel novembre 2024, MCP ha rapidamente guadagnato terreno, diventando un modo semplice e standardizzato per connettere i modelli linguistici con strumenti e dati.
MCP consente ai modelli IA di accedere ai dati da fonti come strumenti e software aziendali per completare le attività, nonché di accedere a librerie di contenuti e ambienti di sviluppo di applicazioni. Il protocollo consente agli sviluppatori di stabilire connessioni bidirezionali tra origini dati e applicazioni basate sull’IA, come i chatbot.
Gli sviluppatori possono esporre interfacce dati tramite server MCP e creare client MCP (come applicazioni e flussi di lavoro) per connettersi a questi server. Da quando Anthropic ha reso open source MCP, diverse aziende hanno integrato il supporto MCP nelle loro piattaforme.