La rapida innovazione nella tecnologia AI, esemplificata dai progressi di DeepSeek, impone una rivalutazione fondamentale di come costruiamo data center, chip e sistemi per fornire la potenza di calcolo necessaria. Le innovazioni ingegneristiche di DeepSeek hanno ridotto significativamente i costi di calcolo dell’AI, stimolando un dibattito più ampio sul futuro dell’infrastruttura AI.
Sebbene DeepSeek potrebbe non aver ampliato drasticamente i confini della tecnologia AI, la sua influenza sul mercato dell’AI è profonda. Tecnologie come Mixture of Experts (MoE), Multi-Layer Attention (MLA) e Multi-Token Prediction (MTP) hanno guadagnato importanza insieme a DeepSeek. Sebbene non tutte queste tecnologie siano state create da DeepSeek, la loro implementazione di successo ha stimolato un’adozione diffusa. MLA, in particolare, è diventato un punto focale di discussione su varie piattaforme, dai dispositivi edge al cloud computing.
MLA e la Sfida dell’Innovazione Algoritmica
Elad Raz, CEO di NextSilicon, ha recentemente sottolineato che, sebbene MLA migliori l’efficienza della memoria, potrebbe anche aumentare il carico di lavoro per gli sviluppatori e complicare l’applicazione dell’AI in ambienti di produzione. Gli utenti di GPU potrebbero aver bisogno di impegnarsi nell’ottimizzazione ‘hand-code’ per MLA. Questo esempio sottolinea la necessità di ripensare l’implementazione di chip AI e architetture infrastrutturali nell’era post-DeepSeek.
Per comprendere il significato di MLA, è essenziale cogliere i concetti alla base dei Large Language Models (LLM). Quando generano risposte agli input degli utenti, gli LLM si basano fortemente sui vettori KV – chiavi e valori – che consentono al modello di concentrarsi sui dati rilevanti. Nei meccanismi di attenzione, il modello confronta le nuove richieste con le chiavi per determinare il contenuto più rilevante.
Elad Raz usa un’analogia di un libro, la chiave che è come ‘i titoli dei capitoli di un libro, che indicano di cosa tratta ogni parte, con il valore che sono riassunti più dettagliati sotto quei titoli. Quindi, quando un utente inserisce la richiesta, chiede un termine di ricerca per aiutare a generare una risposta. Sta chiedendo, ‘In questa trama, qual è il capitolo più rilevante?’”
MLA comprime questi titoli di capitolo (chiavi) e riepiloghi (valori), accelerando il processo di ricerca delle risposte e aumentando l’efficienza. In definitiva, MLA aiuta DeepSeek a ridurre l’utilizzo della memoria del 5-13%. Informazioni più dettagliate sono disponibili nel documento ufficiale di DeepSeek. La conferenza degli sviluppatori di MediaTek ha persino discusso il supporto per MLA nei loro chip mobili Dimensity, sottolineando la vasta influenza di DeepSeek.
Tecnologie come MLA rappresentano tipiche innovazioni algoritmiche nell’era dell’AI. Tuttavia, il rapido ritmo di sviluppo della tecnologia AI porta a un flusso costante di innovazioni, che a sua volta crea nuove sfide, soprattutto quando queste innovazioni sono adattate a piattaforme specifiche. Nel caso di MLA, gli utenti di GPU non NVIDIA richiedono una codifica manuale extra per sfruttare la tecnologia.
Mentre le tecnologie di DeepSeek dimostrano l’innovazione e il valore dell’era dell’AI, hardware e software devono adattarsi a queste innovazioni. Secondo Elad Raz, tale adattamento dovrebbe ridurre al minimo la complessità per gli sviluppatori e gli ambienti di produzione. Altrimenti, il costo di ogni innovazione diventa proibitivo.
La domanda allora diventa: ‘Cosa succede se la prossima innovazione algoritmica non si traduce bene e semplicemente nelle architetture esistenti?’
Il Conflitto tra Design dei Chip e Innovazione Algoritmica
Negli ultimi anni, i produttori di chip AI hanno costantemente riferito che la progettazione di grandi chip AI richiede almeno 1-2 anni. Ciò significa che la progettazione del chip deve iniziare con largo anticipo rispetto al rilascio sul mercato di un chip. Dati i rapidi progressi nella tecnologia AI, la progettazione dei chip AI deve essere lungimirante. Concentrarsi esclusivamente sulle esigenze attuali si tradurrà in chip AI obsoleti che non possono adattarsi alle ultime innovazioni applicative.
L’innovazione dell’algoritmo dell’applicazione AI ora si verifica settimanalmente. Come accennato in articoli precedenti, la potenza di calcolo richiesta ai modelli AI per raggiungere le stesse capacità diminuisce di 4-10 volte all’anno. Il costo di inferenza dei modelli AI che raggiungono una qualità simile a GPT-3 è diminuito di 1200 volte negli ultimi tre anni. Attualmente, i modelli con 2 miliardi di parametri possono raggiungere lo stesso livello del parametro GPT-3 da 170 miliardi di ieri. Questa rapida innovazione negli strati superiori dello stack tecnologico AI presenta sfide significative per la tradizionale pianificazione e progettazione dell’architettura dei chip.
Elad Raz ritiene che il settore debba riconoscere innovazioni come DeepSeek MLA come la norma per la tecnologia AI. ‘Il calcolo di nuova generazione deve non solo ottimizzare per i carichi di lavoro di oggi, ma anche accogliere le future scoperte.’ Questa prospettiva si applica non solo all’industria dei chip, ma all’intera infrastruttura di livello medio-basso dello stack tecnologico AI.
‘DeepSeek e altre innovazioni hanno dimostrato il rapido avanzamento dell’innovazione algoritmica’, ha affermato Elad Raz. ‘Ricercatori e data scientist hanno bisogno di strumenti più versatili e resilienti per guidare nuove intuizioni e scoperte. Il mercato ha bisogno di piattaforme di calcolo hardware intelligenti e definite dal software che consentano ai clienti di ‘sostituire’ le soluzioni di accelerazione esistenti, consentendo al contempo agli sviluppatori di trasferire il proprio lavoro senza problemi.’
Per affrontare questa situazione, il settore deve progettare un’infrastruttura di calcolo più intelligente, adattabile e flessibile.
Flessibilità ed efficienza sono spesso obiettivi contrastanti. Le CPU sono altamente flessibili ma hanno un’efficienza di calcolo parallelo significativamente inferiore rispetto alle GPU. Le GPU, con la loro programmabilità, possono essere meno efficienti dei chip ASIC AI dedicati.
Elad Raz ha osservato che NVIDIA prevede che i rack dei data center AI raggiungano presto i 600 kW di consumo energetico. Per contesto, il 75% dei data center aziendali standard ha un consumo energetico di picco di soli 15-20 kW per rack. Indipendentemente dai potenziali guadagni di efficienza nell’AI, ciò rappresenta una sfida significativa per i data center che costruiscono sistemi di infrastrutture di calcolo.
Secondo Elad Raz, le GPU e gli acceleratori AI attuali potrebbero non essere sufficienti per soddisfare le potenziali richieste di AI e High-Performance Computing (HPC). ‘Se non ripensiamo fondamentalmente a come migliorare l’efficienza del calcolo, il settore rischia di raggiungere limiti fisici ed economici. Questo muro avrà anche effetti collaterali, limitando l’accesso all’AI e all’HPC per più organizzazioni, ostacolando l’innovazione anche con i progressi negli algoritmi o nelle tradizionali architetture GPU.’
Raccomandazioni e Requisiti per l’Infrastruttura di Calcolo di Nuova Generazione
Sulla base di queste osservazioni, Elad Raz ha proposto ‘quattro pilastri’ per definire l’infrastruttura di calcolo di nuova generazione:
(1) Sostituibilità Plug-and-Play: ‘La storia ha dimostrato che le transizioni di architettura complesse, come la migrazione da CPU a GPU, possono richiedere decenni per essere completamente implementate. Pertanto, le architetture di calcolo di nuova generazione dovrebbero supportare una migrazione agevole.’ Per la sostituibilità ‘plug-and-play’, Elad Raz suggerisce che le nuove architetture di calcolo dovrebbero imparare dagli ecosistemi x86 e Arm, raggiungendo un’adozione più ampia attraverso la retrocompatibilità.
I design moderni dovrebbero anche evitare di richiedere agli sviluppatori di riscrivere grandi quantità di codice o di creare dipendenze da fornitori specifici. ‘Ad esempio, il supporto per le tecnologie emergenti come MLA dovrebbe essere standardizzato, piuttosto che richiedere regolazioni manuali extra come nel caso delle GPU non NVIDIA. I sistemi di nuova generazione dovrebbero comprendere e ottimizzare nuovi carichi di lavoro immediatamente, senza richiedere modifiche manuali del codice o modifiche significative delle API.’
(2) Ottimizzazione Adattabile delle Prestazioni in Tempo Reale: Elad Raz ritiene che il settore dovrebbe allontanarsi dagli acceleratori a funzione fissa. ‘Il settore ha bisogno di costruire su solide basi hardware intelligenti e definite dal software che possano auto-ottimizzarsi dinamicamente in fase di esecuzione.’
‘Imparando continuamente dai carichi di lavoro, i sistemi futuri possono adattarsi in tempo reale, massimizzando l’utilizzo e le prestazioni sostenute, indipendentemente dal carico di lavoro dell’applicazione specifica. Questa adattabilità dinamica significa che l’infrastruttura può fornire un’efficienza coerente in scenari reali, sia che si tratti di eseguire simulazioni HPC, modelli AI complessi o operazioni di database vettoriali.’
(3) Efficienza Scalabile: ‘Separando hardware e software e concentrandosi sull’ottimizzazione intelligente in tempo reale, i sistemi futuri dovrebbero raggiungere un maggiore utilizzo e un minore consumo complessivo di energia. Ciò renderebbe l’infrastruttura più economica e scalabile per soddisfare le crescenti esigenze di nuovi carichi di lavoro.’
(4) Future-Design: Questo punto corrisponde al requisito lungimirante per l’infrastruttura AI, in particolare la progettazione dei chip. ‘Gli algoritmi all’avanguardia di oggi potrebbero essere obsoleti domani.’ ‘Che si tratti di reti neurali AI o modelli LLM basati su Transformer, l’infrastruttura di calcolo di nuova generazione deve essere adattabile, garantendo che gli investimenti tecnologici delle aziende rimangano resilienti per gli anni a venire.’
Questi suggerimenti offrono una prospettiva relativamente idealizzata ma stimolante. Questa metodologia guida dovrebbe essere presa in considerazione per il futuro sviluppo delle tecnologie AI e HPC, anche se alcune contraddizioni intrinseche rimangono problemi di lunga data nel settore. ‘Per liberare il potenziale di AI, HPC e altri futuri carichi di lavoro di calcolo e ad alta intensità di dati, dobbiamo ripensare l’infrastruttura e abbracciare soluzioni dinamiche e intelligenti per supportare l’innovazione e i pionieri.’