Il panorama dell’intelligenza artificiale è stato ridefinito con la presentazione da parte di Google della sua settima generazione di Tensor Processing Unit (TPU), battezzata Ironwood. Questo acceleratore di IA all’avanguardia vanta una potenza computazionale che eclissa persino i supercomputer più formidabili del mondo. In un’implementazione su larga scala, le capacità di Ironwood superano quelle del supercomputer più veloce di ben 24 volte.
La presentazione di Ironwood all’evento Google Cloud Next ‘25 segna un momento cruciale nella ricerca decennale di Google sull’innovazione dei chip per l’IA. Mentre le precedenti iterazioni di TPU si rivolgevano principalmente ai carichi di lavoro di addestramento e inferenza dei modelli di IA, Ironwood si distingue come il primo chip meticolosamente realizzato e ottimizzato per le attività di inferenza.
Secondo Amin Vahdat, Vice President e General Manager of Machine Learning, Systems, and Cloud AI presso Google, ‘Ironwood è progettato per spingere la prossima fase dell’IA generativa, affrontando le sue immense esigenze computazionali e di comunicazione. Stiamo entrando in quella che chiamiamo l’’Era dell’Inferenza’, dove gli agenti di IA recupereranno e genereranno in modo proattivo i dati per fornire in modo collaborativo approfondimenti e risposte, superando le capacità della mera elaborazione dei dati.’
Scatenare una Potenza Computazionale Senza Precedenti: Un’Immersione nelle Capacità di Ironwood
Le specifiche tecniche di Ironwood si leggono come una lista dei desideri per ricercatori e sviluppatori di IA. Scalando a un pod di 9.216 chip, Ironwood offre ben 42,5 exaflops di calcolo AI. Per mettere questo in prospettiva, supera di gran lunga le capacità dell’attuale supercomputer campione in carica, El Capitan, che raggiunge un picco di 1,7 exaflops. Individualmente, ogni chip Ironwood vanta una capacità di calcolo di picco di 4614 TFLOPs.
Oltre alla pura potenza di elaborazione, Ironwood introduce miglioramenti significativi nella memoria e nella larghezza di banda. Ogni chip è dotato di 192 GB di High Bandwidth Memory (HBM), un aumento di sei volte rispetto alla precedente generazione di TPU, Trillium. Anche la larghezza di banda della memoria è stata notevolmente migliorata, raggiungendo 7,2 terabit/s per chip, 4,5 volte quella di Trillium.
In un’era in cui i data center si stanno espandendo e il consumo di energia sta diventando un fattore sempre più critico, Ironwood dimostra una notevole efficienza energetica. Le sue prestazioni per watt sono il doppio di quelle di Trillium e quasi 30 volte migliori rispetto al TPU iniziale introdotto nel 2018.
Questo passaggio all’ottimizzazione dell’inferenza rappresenta una pietra miliare significativa nell’evoluzione dell’IA. Negli ultimi anni, i principali laboratori di IA si sono concentrati sulla costruzione di modelli di base con un numero di parametri in continua espansione. L’enfasi di Google sull’ottimizzazione dell’inferenza segnala un passaggio verso la priorità dell’efficienza di implementazione e delle capacità di inferenza nel mondo reale.
Mentre l’addestramento dei modelli di IA è un’attività relativamente poco frequente, le operazioni di inferenza si verificano miliardi di volte al giorno man mano che le tecnologie di IA diventano più pervasive. La fattibilità economica delle aziende alimentate dall’IA è intrinsecamente legata ai costi di inferenza, soprattutto man mano che i modelli diventano sempre più complessi.
Negli ultimi otto anni, la domanda di calcolo AI di Google è cresciuta esponenzialmente, aumentando di dieci volte e raggiungendo un sorprendente 100 milioni. Senza architetture specializzate come Ironwood, la sola legge di Moore non può sostenere questa traiettoria di crescita.
L’enfasi di Google sui ‘modelli di ragionamento’ capaci di complesse attività di inferenza, piuttosto che sul semplice riconoscimento di schemi, è particolarmente degna di nota. Ciò suggerisce che Google immagina un futuro in cui l’IA eccelle non solo attraverso modelli più grandi, ma anche attraverso modelli capaci di suddividere i problemi, eseguire ragionamenti multi-step ed emulare processi di pensiero simili a quelli umani.
Alimentare la Prossima Generazione di Grandi Modelli Linguistici
Google posiziona Ironwood come l’infrastruttura fondamentale per i suoi modelli di IA più avanzati, tra cui Gemini 2.5, che vanta ‘capacità di ragionamento native’.
Insieme a Ironwood, Google ha presentato Gemini 2.5 Flash, una versione semplificata del suo modello di punta progettata per applicazioni quotidiane sensibili alla latenza. Gemini 2.5 Flash può regolare dinamicamente la sua profondità di ragionamento in base alla complessità del prompt.
Google ha anche mostrato la sua suite di modelli generativi multimodali, che comprendono text-to-image, text-to-video e la nuova funzionalità text-to-music, Lyria. Una demo avvincente ha evidenziato come questi strumenti possono essere combinati per produrre un video promozionale completo per un concerto.
Ironwood è solo una componente della strategia infrastrutturale completa di IA di Google. L’azienda ha anche introdotto Cloud WAN, un servizio di rete wide area gestito che consente alle aziende di attingere all’infrastruttura di rete privata su scala globale di Google.
Google sta anche espandendo le sue offerte software per i carichi di lavoro di IA, tra cui Pathways, un runtime di machine learning sviluppato da Google DeepMind, che consente ai clienti di scalare il servizio di modelli su centinaia di TPU.
Una Visione di Intelligenza Collaborativa: Introduzione al Supporto A2A e MCP
Oltre ai progressi hardware, Google ha articolato la sua visione per l’IA incentrata sui sistemi multi-agente e ha introdotto il protocollo Agent-to-Agent (A2A), progettato per promuovere una comunicazione sicura e standardizzata tra diversi agenti di IA.
Google prevede che il 2025 sarà un anno di trasformazione per l’IA, con applicazioni di IA generativa che si evolveranno dalla risposta a singole domande alla risoluzione di problemi complessi attraverso sistemi di agenti interconnessi.
Il protocollo A2A consente l’interoperabilità tra piattaforme e framework, fornendo agli agenti di IA un ‘linguaggio’ comune e canali di comunicazione sicuri. Pensatelo come uno strato di rete per gli agenti di IA, che semplifica la collaborazione in flussi di lavoro complessi e consente ad agenti di IA specializzati di affrontare collettivamente compiti di varia complessità e durata, migliorando così le capacità complessive attraverso la cooperazione.
Come Funziona A2A
Google ha fornito una panoramica comparativa dei protocolli MCP e A2A:
- MCP (Model Context Protocol): Si concentra sulla gestione di strumenti e risorse.
- Collega gli agenti a strumenti, API e risorse tramite input/output strutturati.
- Google ADK supporta gli strumenti MCP, facilitando l’interazione senza interruzioni tra server MCP e agenti.
- A2A (Agent2Agent Protocol): Facilita la collaborazione tra agenti.
- Consente una comunicazione dinamica e multimodale tra gli agenti senza richiedere memoria, risorse o strumenti condivisi.
- È uno standard aperto guidato dalla comunità.
- Esempi possono essere esplorati utilizzando strumenti come Google ADK, LangGraph e Crew.AI.
A2A e MCP sono complementari. MCP fornisce agli agenti gli strumenti, mentre A2A consente a questi agenti equipaggiati di conversare e collaborare.
L’elenco iniziale di partner di Google suggerisce che A2A è destinato a ricevere un’attenzione simile a MCP. L’iniziativa ha già attirato oltre 50 organizzazioni, tra cui aziende tecnologiche leader e fornitori globali di consulenza e integrazione di sistemi.
Google sottolinea l’apertura del protocollo, posizionandolo come uno standard per la collaborazione inter-agente che trascende i framework tecnologici o i fornitori di servizi sottostanti. Google ha evidenziato cinque principi guida che hanno plasmato la progettazione del protocollo:
- Abbracciare le Capacità degli Agenti: A2A dà la priorità all’abilitazione degli agenti a collaborare naturalmente, anche senza condividere memoria, strumenti o contesto. L’obiettivo è quello di consentire veri scenari multi-agente, non semplicemente limitare gli agenti ad agire come ‘strumenti’.
- Basarsi sugli Standard Esistenti: Il protocollo sfrutta standard esistenti e ampiamente adottati, tra cui HTTP, SSE e JSON-RPC, semplificando l’integrazione con gli stack IT esistenti.
- Sicuro per Impostazione Predefinita: A2A è progettato per supportare l’autenticazione e l’autorizzazione di livello enterprise, paragonabili agli schemi di autenticazione di OpenAPI.
- Supporto per Attività di Lunga Durata: La flessibilità di A2A gli consente di supportare un’ampia gamma di scenari, da attività rapide a ricerche approfondite che possono richiedere ore o addirittura giorni (soprattutto quando è necessario il coinvolgimento umano). Durante tutto il processo, A2A può fornire agli utenti feedback in tempo reale, notifiche e aggiornamenti di stato.
- Agnostico alla Modalità: Riconoscendo che il mondo degli agenti si estende oltre il testo, A2A supporta varie modalità, tra cui flussi audio e video.
Google ha fornito un esempio di come A2A semplifica il processo di assunzione.
In un’interfaccia unificata come Agentspace, un responsabile delle assunzioni può assegnare a un agente l’identificazione di candidati idonei in base ai requisiti del lavoro. Questo agente può interagire con agenti specializzati per reperire candidati. Gli utenti possono anche istruire gli agenti a programmare colloqui e coinvolgere altri agenti specializzati per assistere con i controlli dei precedenti, consentendo un reclutamento completamente automatizzato e intelligente tra i sistemi.
Abbracciare il Model Context Protocol (MCP)
Anche Google sta abbracciando MCP. Poco dopo che OpenAI ha annunciato la sua adozione del Model Context Protocol (MCP) di Anthropic, Google ha seguito l’esempio.
Demis Hassabis, CEO di Google DeepMind, ha annunciato su X (precedentemente Twitter) che Google avrebbe aggiunto il supporto per MCP nei suoi modelli Gemini e SDK, anche se non ha fornito una tempistica specifica.
Hassabis ha affermato che ‘MCP è un eccellente protocollo che sta rapidamente diventando uno standard aperto per l’era degli agenti di IA. Non vediamo l’ora di lavorare con il team MCP e altri partner del settore per far progredire questa tecnologia.’
Dalla sua uscita nel novembre 2024, MCP ha guadagnato una trazione significativa come un modo semplice e standardizzato per connettere modelli linguistici con strumenti e dati.
MCP consente ai modelli di IA di accedere ai dati da strumenti e software aziendali per completare attività e accedere a librerie di contenuti e ambienti di sviluppo di applicazioni. Il protocollo consente agli sviluppatori di stabilire connessioni bidirezionali tra fonti di dati e applicazioni alimentate dall’IA come i chatbot.
Gli sviluppatori possono esporre interfacce di dati tramite server MCP e creare client MCP (come applicazioni e flussi di lavoro) per connettersi a questi server. Da quando Anthropic ha reso open source MCP, diverse aziende hanno integrato il supporto MCP nelle loro piattaforme.
Ironwood: L’Alba di una Nuova Era nell’IA
Il TPU Ironwood di Google rappresenta un significativo passo avanti nel calcolo IA. Le sue prestazioni senza precedenti, l’architettura ottimizzata e il supporto per protocolli emergenti come A2A e MCP lo posizionano come un fattore chiave per la prossima ondata di innovazione AI. Man mano che i modelli di IA diventano più complessi ed esigenti, Ironwood fornisce la potenza grezza e la flessibilità necessarie per sbloccare nuove possibilità e trasformare i settori in tutto il mondo. Non è solo un nuovo chip; è una base per un futuro alimentato da macchine intelligenti che lavorano in collaborazione per risolvere problemi complessi e migliorare le nostre vite.