Il panorama dell’elaborazione dell’intelligenza artificiale (AI) è stato significativamente alterato con la presentazione della settima generazione di Tensor Processing Unit (TPU) di Google, nota come Ironwood. Questo acceleratore AI all’avanguardia vanta capacità computazionali che, in implementazioni su larga scala, superano di oltre 24 volte il supercomputer più veloce del mondo.
Questo nuovo chip, rivelato alla conferenza Google Cloud Next ‘25, segna un momento cruciale nella strategia decennale di Google nello sviluppo di chip AI. A differenza dei suoi predecessori, che erano principalmente progettati sia per carichi di lavoro di addestramento che di inferenza AI, Ironwood è specificamente progettato per l’inferenza, segnalando un cambiamento strategico verso l’ottimizzazione dell’efficienza della distribuzione dell’AI.
Amin Vahdat, Vice President e General Manager of Machine Learning, Systems, and Cloud AI di Google, ha sottolineato questa transizione, affermando: ‘Ironwood è progettato per supportare la prossima fase dell’AI generativa e le sue immense esigenze di calcolo e comunicazione. Questo è ciò che chiamiamo l’’Era dell’Inferenza’, in cui gli agenti AI recupereranno e genereranno proattivamente i dati per fornire in modo collaborativo approfondimenti e risposte, piuttosto che elaborare semplicemente i dati’.
Superare le Barriere con 42,5 Exaflops di Potenza di Calcolo
Le specifiche tecniche di Ironwood sono davvero impressionanti. Quando viene ridimensionato a un pod di 9.216 chip, offre ben 42,5 exaflops di calcolo AI. Per mettere questo in prospettiva, supera l’attuale supercomputer più veloce del mondo, El Capitan, che opera a 1,7 exaflops. Ogni singolo chip Ironwood può raggiungere una capacità di calcolo di picco di 4614 TFLOPs.
Oltre alla pura potenza di elaborazione, Ironwood migliora significativamente la memoria e la larghezza di banda. Ogni chip è dotato di 192 GB di memoria ad alta larghezza di banda (HBM), un aumento di sei volte rispetto alla precedente generazione di TPU, Trillium, rilasciata l’anno scorso. La larghezza di banda della memoria per chip raggiunge i 7,2 terabit/s, 4,5 volte quella di Trillium.
- Potenza di Calcolo: 42,5 exaflops (per pod di 9.216 chip)
- Calcolo di Picco per Chip: 4614 TFLOPs
- Memoria: 192GB HBM per chip
- Larghezza di Banda della Memoria: 7,2 terabit/s per chip
In un’era in cui i data center si stanno espandendo e il consumo di energia è una preoccupazione crescente, Ironwood dimostra anche significativi miglioramenti nell’efficienza energetica. Offre il doppio delle prestazioni per watt rispetto a Trillium e quasi 30 volte rispetto alla prima TPU introdotta nel 2018.
Questa ottimizzazione per l’inferenza segna una svolta critica nell’evoluzione dell’AI. Negli ultimi anni, i principali laboratori di AI si sono concentrati sullo sviluppo di modelli di base sempre più grandi con conteggi di parametri in continua espansione. L’attenzione di Google sull’ottimizzazione dell’inferenza suggerisce un passaggio verso un nuovo paradigma incentrato sull’efficienza della distribuzione e sulle capacità di inferenza.
Mentre l’addestramento del modello rimane essenziale, le operazioni di inferenza sono molto più frequenti, verificandosi miliardi di volte al giorno man mano che le tecnologie AI diventano più pervasive. Per le aziende che sfruttano l’AI, l’economia è intrinsecamente legata ai costi di inferenza man mano che i modelli diventano più complessi.
La domanda di calcolo AI di Google è cresciuta di dieci volte negli ultimi otto anni, raggiungendo un sorprendente 100 milioni. Senza architetture specializzate come Ironwood, sarebbe impossibile sostenere questa traiettoria di crescita attraverso i tradizionali progressi nella legge di Moore da sola.
In particolare, l’annuncio di Google ha sottolineato un’attenzione ai ‘modelli di ragionamento’ in grado di eseguire complesse attività di inferenza piuttosto che un semplice riconoscimento di pattern. Ciò suggerisce una convinzione che il futuro dell’AI risieda non solo in modelli più grandi, ma anche in modelli in grado di scomporre i problemi, impegnarsi in ragionamenti a più fasi ed emulare processi di pensiero simili a quelli umani.
Alimentare Modelli di Grandi Dimensioni di Prossima Generazione
Google posiziona Ironwood come l’infrastruttura fondamentale per i suoi modelli AI più avanzati, incluso il suo Gemini 2.5, che vanta ‘capacità di ragionamento native’.
La società ha anche recentemente introdotto Gemini 2.5 Flash, una versione più piccola del suo modello di punta progettata per ‘regolare la profondità del ragionamento in base alla complessità del prompt’. Questo modello è orientato verso applicazioni quotidiane che richiedono tempi di risposta rapidi.
Google ha inoltre mostrato la sua suite completa di modelli di generazione multimodale, comprendente text-to-image, text-to-video e la sua nuova funzionalità text-to-music, Lyria. Una demo ha illustrato come questi strumenti possono essere combinati per creare un video promozionale completo per un concerto.
Ironwood è solo un componente della più ampia strategia di infrastruttura AI di Google. La società ha anche annunciato Cloud WAN, un servizio di rete wide area gestito che fornisce alle imprese l’accesso all’infrastruttura di rete privata su scala globale di Google.
Google sta anche espandendo le sue offerte software per carichi di lavoro AI, incluso Pathways, un runtime di machine learning sviluppato da Google DeepMind. Pathways ora consente ai clienti di scalare il servizio di modelli su centinaia di TPU.
Introduzione di A2A: Promuovere un Ecosistema di Collaborazione Intelligente tra Agenti
Oltre ai progressi hardware, Google ha presentato la sua visione per l’AI incentrata sui sistemi multi-agente, svelando un protocollo per facilitare lo sviluppo di agenti intelligenti: Agent-to-Agent (A2A). Questo protocollo è progettato per promuovere una comunicazione sicura e standardizzata tra diversi agenti AI.
Google ritiene che il 2025 segnerà un anno di trasformazione per l’AI, con l’applicazione dell’AI generativa che si evolverà dal rispondere a singole domande alla risoluzione di problemi complessi attraverso sistemi di agenti intelligenti.
Il protocollo A2A consente l’interoperabilità tra piattaforme e framework, fornendo agli agenti un ‘linguaggio’ comune e canali di comunicazione sicuri. Questo protocollo può essere visto come il livello di rete per agenti intelligenti, con l’obiettivo di semplificare la collaborazione degli agenti in flussi di lavoro complessi. Consente agli agenti AI specializzati di lavorare insieme su attività di varia complessità e durata, migliorando in definitiva le capacità complessive attraverso la collaborazione.
Come Funziona A2A
Google ha fornito un confronto tra i protocolli MCP e A2A nel suo post sul blog:
- MCP (Model Context Protocol): Per la gestione di strumenti e risorse
- Collega gli agenti a strumenti, API e risorse tramite input/output strutturati.
- Google ADK supporta gli strumenti MCP, consentendo a vari server MCP di lavorare con gli agenti.
- A2A (Agent2Agent Protocol): Per la collaborazione tra agenti
- Consente una comunicazione multimodale dinamica tra gli agenti senza condividere memoria, risorse o strumenti.
- Uno standard aperto guidato dalla comunità.
- Esempi possono essere visualizzati utilizzando strumenti come Google ADK, LangGraph e Crew.AI.
In sostanza, A2A e MCP sono complementari. MCP fornisce agli agenti il supporto degli strumenti, mentre A2A consente a questi agenti equipaggiati di comunicare e collaborare tra loro.
L’elenco dei partner annunciato da Google suggerisce che A2A è destinato a ricevere un’attenzione simile a MCP. L’iniziativa ha già attratto oltre 50 aziende alla sua coorte di collaborazione iniziale, tra cui aziende tecnologiche leader e i principali fornitori di servizi di consulenza e integrazione di sistemi a livello globale.
Google ha sottolineato l’apertura del protocollo, posizionandolo come il metodo standard per la collaborazione degli agenti, indipendentemente dai framework tecnologici sottostanti o dai fornitori di servizi. La società ha affermato di aver aderito ai seguenti cinque principi chiave nella progettazione del protocollo con i suoi partner:
- Abbracciare le Capacità degli Agenti: A2A si concentra sull’abilitazione degli agenti a collaborare nei loro modi naturali e non strutturati, anche se non condividono memoria, strumenti e contesto. L’obiettivo è abilitare veri scenari multi-agente senza limitare gli agenti a semplici ‘strumenti’.
- Costruire su Standard Esistenti: Il protocollo si basa su standard popolari esistenti, tra cui HTTP, SSE e JSON-RPC, rendendo più facile l’integrazione con gli stack IT esistenti utilizzati dalle imprese.
- Sicuro per Impostazione Predefinita: A2A è progettato per supportare l’autenticazione e l’autorizzazione di livello enterprise, paragonabili agli schemi di autenticazione di OpenAPI al momento del lancio.
- Supportare Attività di Lunga Durata: A2A è progettato con flessibilità per supportare un’ampia gamma di scenari, da attività rapide a ricerche approfondite che possono richiedere ore o persino giorni (quando sono coinvolti esseri umani). Durante tutto il processo, A2A può fornire agli utenti feedback in tempo reale, notifiche e aggiornamenti di stato.
- Agnostico alla Modalità: Il mondo degli agenti non è limitato al testo, motivo per cui A2A è progettato per supportare varie modalità, inclusi flussi audio e video.
Esempio: Processo di Assunzione Semplificato Tramite A2A
Un esempio fornito da Google illustra come A2A può semplificare significativamente il processo di assunzione.
All’interno di un’interfaccia unificata come Agentspace, un responsabile delle assunzioni può assegnare a un agente la ricerca di candidati idonei in base ai requisiti del lavoro. Questo agente può interagire con agenti specializzati in campi specifici per completare il sourcing dei candidati. L’utente può anche istruire l’agente a programmare i colloqui e abilitare altri agenti specializzati ad assistere con i controlli sui precedenti, consentendo così un’assunzione collaborativa completamente automatizzata e tra sistemi diversi.
Abbracciare MCP: Unirsi all’Ecosistema del Model Context Protocol
Contemporaneamente, Google sta anche abbracciando MCP. Solo poche settimane dopo che OpenAI ha annunciato la sua adozione del Model Context Protocol (MCP) di Anthropic, Google ha seguito l’esempio e si è unita all’iniziativa.
Il CEO di Google DeepMind, Demis Hassabis, ha annunciato su X che Google aggiungerà il supporto per MCP ai suoi modelli e SDK Gemini, anche se non è stata fornita una tempistica specifica.
Hassabis ha dichiarato: ‘MCP è un eccellente protocollo che sta rapidamente diventando lo standard aperto per l’era degli agenti AI. Nonvediamo l’ora di lavorare con il team MCP e altri partner del settore per far avanzare lo sviluppo di questa tecnologia’.
Sin dal suo rilascio nel novembre 2024, MCP ha rapidamente guadagnato popolarità e attenzione diffusa, emergendo come un modo semplice e standardizzato per connettere i modelli linguistici con strumenti e dati.
MCP consente ai modelli AI di accedere ai dati da fonti di dati come strumenti e software aziendali per completare le attività e di accedere a librerie di contenuti e ambienti di sviluppo di applicazioni. Il protocollo consente agli sviluppatori di stabilire connessioni bidirezionali tra fonti di dati e applicazioni basate sull’AI, come i chatbot.
Gli sviluppatori possono esporre interfacce di dati tramite server MCP e creare client MCP (come applicazioni e flussi di lavoro) per connettersi a questi server. Da quando Anthropic ha open-sourced MCP, diverse aziende hanno integrato il supporto MCP nelle loro piattaforme.
Analisi Approfondita dei Concetti Chiave:
Per chiarire ulteriormente l’impatto e il significato dei recenti annunci di Google, approfondiamo i componenti principali: Ironwood, A2A e MCP.
Ironwood: Un’Analisi Approfondita dell’Era dell’Inferenza
Il passaggio dal concentrarsi principalmente sull’addestramento dei modelli all’ottimizzazione per l’inferenza è un’evoluzione critica nel panorama dell’AI. L’addestramento prevede l’immissione di enormi quantità di dati in un modello per insegnargli a riconoscere i modelli e fare previsioni. L’inferenza, d’altra parte, è il processo di utilizzo di un modello addestrato per fare previsioni su dati nuovi e non visti.
Mentre l’addestramento è un evento ad alta intensità di risorse, una tantum (o infrequente), l’inferenza avviene continuamente e su larga scala nelle applicazioni del mondo reale. Considera applicazioni come:
- Chatbot: Rispondere alle domande degli utenti in tempo reale.
- Sistemi di Raccomandazione: Suggerire prodotti o contenuti in base alle preferenze dell’utente.
- Rilevamento delle Frodi: Identificare le transazioni fraudolente nel momento in cui si verificano.
- Riconoscimento delle Immagini: Analizzare le immagini per identificare oggetti, persone o scene.
Queste applicazioni richiedono un’inferenza rapida ed efficiente per offrire un’esperienza utente senza interruzioni. Ironwood è progettato specificamente per eccellere in queste attività.
Vantaggi Chiave di Ironwood per l’Inferenza:
- Elevata Produttività: L’enorme potenza di calcolo (42,5 exaflops) consente a Ironwood di gestire un ampio volume di richieste di inferenza simultaneamente.
- Bassa Latenza: La memoria ad alta larghezza di banda (HBM) e l’architettura efficiente riducono al minimo il tempo necessario per elaborare ogni richiesta di inferenza.
- Efficienza Energetica: Le prestazioni migliorate per watt riducono i costi operativi associati all’esecuzione di implementazioni di inferenza su larga scala.
Ottimizzando per l’inferenza, Google consente alle aziende di implementare applicazioni basate sull’AI in modo più efficiente ed economico.
A2A: La Fondazione per l’AI Collaborativa
Il protocollo Agent-to-Agent (A2A) rappresenta un passo significativo verso la creazione di sistemi AI più sofisticati e collaborativi. In un sistema multi-agente, più agenti AI lavorano insieme per risolvere un problema complesso. Ogni agente può avere le proprie competenze e conoscenze specializzate e comunica e si coordina con gli altri per raggiungere un obiettivo comune.
Considera uno scenario che coinvolge il supporto clienti automatizzato:
- Agente 1: Comprende la domanda iniziale del cliente e identifica il problema sottostante.
- Agente 2: Accede a una knowledge base per trovare informazioni pertinenti.
- Agente 3: Pianifica un appuntamento di follow-up con un agente umano se necessario.
Questi agenti devono essere in grado di comunicare e condividere informazioni senza interruzioni per fornire un’esperienza cliente coesa. A2A fornisce il framework per questo tipo di collaborazione.
Vantaggi Chiave di A2A:
- Interoperabilità: Consente agli agenti sviluppati su diverse piattaforme e framework di comunicare tra loro.
- Standardizzazione: Fornisce un ‘linguaggio’ comune e un insieme di protocolli per la comunicazione tra agenti.
- Sicurezza: Garantisce una comunicazione sicura tra gli agenti, proteggendo i dati sensibili.
- Flessibilità: Supporta un’ampia gamma di modalità di comunicazione, tra cui testo, audio e video.
Promuovendo la collaborazione tra gli agenti AI, A2A consente lo sviluppo di sistemi AI più potenti e versatili.
MCP: Colmare il Divario tra AI e Dati
Il Model Context Protocol (MCP) affronta la sfida di connettere i modelli AI alle vaste quantità di dati necessari per svolgere efficacemente le loro attività. I modelli AI hanno bisogno di accedere ai dati in tempo reale da varie fonti, come database, API e servizi cloud, per fare previsioni accurate e prendere decisioni informate.
MCP fornisce un modo standardizzato per i modelli AI di accedere e interagire con queste fonti di dati. Definisce un insieme di protocolli per:
- Scoperta dei Dati: Identificare le fonti di dati disponibili.
- Accesso ai Dati: Recuperare i dati dalle fonti di dati.
- Trasformazione dei Dati: Convertire i dati in un formato che il modello AI può comprendere.
Fornendo un’interfaccia standardizzata per l’accesso ai dati, MCP semplifica il processo di integrazione dei modelli AI con i dati del mondo reale.
Vantaggi Chiave di MCP:
- Integrazione Semplificata: Rende più facile la connessione dei modelli AI alle fonti di dati.
- Standardizzazione: Fornisce un insieme comune di protocolli per l’accesso ai dati.
- Maggiore Efficienza: Riduce il tempo e lo sforzo necessari per accedere e trasformare i dati.
- Maggiore Precisione: Consente ai modelli AI di accedere alle informazioni più aggiornate, portando a previsioni più accurate.
Connettendo i modelli AI ai dati di cui hanno bisogno, MCP consente loro di svolgere le proprie attività in modo più efficace e offrire un valore maggiore.