Lo sviluppo inesorabile dell’IA ha costantemente dimostrato che i modelli più grandi tendono a essere più intelligenti, ma le loro esigenze operative aumentano parallelamente. Ciò crea una sfida significativa, soprattutto nelle regioni con accesso limitato ai chip AI avanzati. Tuttavia, indipendentemente dai vincoli geografici, esiste una tendenza crescente tra gli sviluppatori di modelli ad adottare architetture Mixture of Experts (MoE) abbinate a tecniche di compressione innovative. L’obiettivo? Ridurre drasticamente le risorse computazionali necessarie per distribuire ed eseguire questi ampi Large Language Models (LLM). Mentre ci avviciniamo al terzo anniversario del boom dell’IA generativa innescato da ChatGPT, il settore sta finalmente iniziando a considerare seriamente le implicazioni economiche del mantenimento in funzione di questi modelli energivori.
Mentre i modelli MoE, come quelli di Mistral AI, esistono da tempo, la loro vera svolta è avvenuta nell’ultimo anno. Abbiamo assistito a un’ondata di nuovi LLM open source provenienti da giganti della tecnologia come Microsoft, Google, IBM, Meta, DeepSeek e Alibaba, tutti che sfruttano una qualche forma di architettura MoE. Il fascino è semplice: le architetture MoE offrono un’alternativa molto più efficiente alle tradizionali architetture di modelli "dense".
Superare le Limitazioni di Memoria
Le fondamenta dell’architettura MoE risalgono ai primi anni ‘90, con la pubblicazione di "Adaptive Mixtures of Local Experts". L’idea centrale ruota attorno alla distribuzione di compiti a uno o più sotto-modelli specializzati o "esperti", piuttosto che affidarsi a un singolo modello massiccio addestrato su un ampio spettro di dati.
In teoria, ogni esperto può essere meticolosamente ottimizzato per un dominio specifico, dalla codifica e dalla matematica alla scrittura creativa. Tuttavia, vale la pena notare che la maggior parte degli sviluppatori di modelli fornisce dettagli limitati sugli esperti specifici all’interno dei propri modelli MoE e il numero di esperti varia da modello a modello. Fondamentalmente, solo una frazione del modello complessivo è attivamente impegnata in un determinato momento.
Si consideri il modello V3 di DeepSeek, che comprende 256 esperti instradati insieme a un esperto condiviso. Durante l’elaborazione del token, vengono attivati solo otto esperti instradati, più quello condiviso. Questa attivazione selettiva significa che i modelli MoE potrebbero non raggiungere sempre lo stesso livello di qualità dei modelli dense di dimensioni simili. Il modello Qwen3-30B-A3B MoE di Alibaba, ad esempio, ha costantemente sottoperformato il modello dense Qwen3-32B nei test di benchmark di Alibaba.
Tuttavia, è essenziale contestualizzare questo leggero calo della qualità rispetto ai sostanziali guadagni di efficienza offerti dalle architetture MoE. La riduzione dei parametri attivi si traduce in requisiti di ampiezza di banda della memoria che non sono più direttamente proporzionali alla capacità necessaria per archiviare i pesi del modello. Essenzialmente, mentre i modelli MoE possono ancora richiedere una memoria sostanziale, non è necessario che sia la High Bandwidth Memory (HBM) più veloce e costosa.
Illustriamo questo con un confronto. Si consideri il più grande modello "dense" di Meta, Llama 3.1 405B, e Llama 4 Maverick, un modello comparabile che impiega un’architettura MoE con 17 miliardi di parametri attivi. Mentre numerosi fattori, come la dimensione del batch, le prestazioni in virgola mobile e la memorizzazione nella cache chiave-valore, contribuiscono alle prestazioni reali, possiamo approssimare i requisiti minimi di ampiezza di banda moltiplicando la dimensione del modello in gigabyte a una determinata precisione (1 byte per parametro per i modelli a 8 bit) per i token di destinazione al secondo a una dimensione del batch di uno.
L’esecuzione di una versione quantizzata a 8 bit di Llama 3.1 405B richiederebbe oltre 405 GB di vRAM e almeno 20 TB/s di ampiezza di banda della memoria per generare testo a 50 token al secondo. I sistemi basati su HGX H100 di Nvidia, che fino a poco tempo fa avevano prezzi pari o superiori a $ 300.000, fornivano solo 640 GB di HBM3 e circa 26,8 TB/s di ampiezza di banda aggregata. L’esecuzione del modello completo a 16 bit avrebbe richiesto almeno due di questi sistemi.
Al contrario, Llama 4 Maverick, pur consumando la stessa quantità di memoria, richiede meno di 1 TB/s di ampiezza di banda per ottenere prestazioni comparabili. Questo perché solo 17 miliardi di parametri di esperti di modelli sono coinvolti attivamente nella generazione dell’output. Ciò si traduce in un aumento dell’ordine di grandezza della velocità di generazione del testo sullo stesso hardware.
Viceversa, se le prestazioni pure non sono una preoccupazione primaria, molti di questi modelli possono ora essere eseguiti su memorie GDDR6, GDDR7 o persino DDR più economiche, anche se più lente, come si vede negli ultimi Xeon di Intel.
I nuovi RTX Pro Server di Nvidia, annunciati al Computex, sono personalizzati per questo scenario. Invece di fare affidamento su HBM costosi e ad alta potenza che richiedono un packaging avanzato, ciascuna delle otto GPU RTX Pro 6000 in questi sistemi è dotata di 96 GB di memoria GDDR7, lo stesso tipo che si trova nelle moderne schede da gioco.
Questi sistemi offrono fino a 768 GB di vRAM e 12,8 TB/s di ampiezza di banda aggregata, più che sufficienti per eseguire Llama 4 Maverick a centinaia di token al secondo. Sebbene Nvidia non abbia rivelato i prezzi, l’edizione workstation di queste schede viene venduta al dettaglio a circa $ 8.500, suggerendo che questi server potrebbero avere un prezzo inferiore alla metà del costo di un HGX H100 usato.
Tuttavia, MoE non significa la fine delle GPU impilate HBM. Aspettatevi che Llama 4 Behemoth, supponendo che venga mai spedito, necessiti di un rack pieno di GPU a causa delle sue dimensioni.
Sebbene abbia circa la metà dei parametri attivi di Llama 3.1 405B, vanta un totale di 2 trilioni di parametri. Attualmente, non esiste un singolo server GPU convenzionale sul mercato in grado di ospitare il modello completo a 16 bit e una finestra di contesto di un milione di token o più.
Il Rinascimento della CPU nell’IA?
A seconda dell’applicazione specifica, una GPU potrebbe non essere sempre necessaria, in particolare nelle regioni in cui l’accesso agli acceleratori di fascia alta è limitato.
Intel ha presentato una piattaforma Xeon 6 a doppio socket dotata di MCRDIMM a 8800 MT/s ad aprile. Questa configurazione ha ottenuto una velocità di trasmissione di 240 token al secondo in Llama 4 Maverick, con una latenza di output media inferiore a 100 ms per token.
In termini più semplici, la piattaforma Xeon potrebbe supportare 10 token al secondo o più per utente per circa 24 utenti simultanei.
Intel non ha divulgato i dati sulle prestazioni a singolo utente, poiché sono meno rilevanti negli scenari del mondo reale. Tuttavia, le stime suggeriscono una prestazioni di picco di circa 100 token al secondo.
Tuttavia, a meno che non ci siano alternative migliori o requisiti specifici, l’economia dell’inferenza basata su CPU rimane fortemente dipendente dal caso d’uso.
Riduzione del Peso: Potatura e Quantizzazione
Le architetture MoE possono ridurre l’ampiezza di banda della memoria necessaria per servire modelli di grandi dimensioni, ma non riducono la quantità di memoria necessaria per memorizzarne i pesi. Anche con una precisione di 8 bit, Llama 4 Maverick richiede oltre 400 GB di memoria per essere eseguito, indipendentemente dal numero di parametri attivi.
Le emergenti tecniche di potatura e i metodi di quantizzazione possono potenzialmente dimezzare tale requisito senza sacrificare la qualità.
Nvidia è stata una sostenitrice della potatura, rilasciando versioni potate dei modelli Llama 3 di Meta a cui sono stati rimossi i pesi ridondanti.
Nvidia è stata anche tra le prime aziende a supportare i tipi di dati in virgola mobile a 8 bit nel 2022, e di nuovo con la virgola mobile a 4 bit con il lancio della sua architettura Blackwell nel 2024. Le prime schede AMD a offrire supporto FP4 nativo dovrebbero essere rilasciate a breve.
Sebbene non sia strettamente essenziale, il supporto hardware nativo per questi tipi di dati generalmente riduce la probabilità di riscontrare colli di bottiglia computazionali, in particolare quando si servono su larga scala.
Abbiamo assistito a un numero crescente di sviluppatori di modelli che adottano tipi di dati a precisione inferiore, con Meta, Microsoft e Alibaba che offrono versioni quantizzate a otto bit e persino a quattro bit dei loro modelli.
La quantizzazione comporta la compressione dei pesi del modello dalla loro precisione nativa, in genere BF16, in FP8 o INT4. Ciò riduce efficacemente i requisiti di ampiezza di banda della memoria e di capacità dei modelli della metà o anche dei tre quarti, a scapito di una certa qualità.
Le perdite associate alla transizione da 16 bit a otto bit sono spesso trascurabili e diversi costruttori di modelli, tra cui DeepSeek, hanno iniziato l’addestramento con precisione FP8 fin dall’inizio. Tuttavia, ridurre la precisione di altri quattro bit può comportare un significativo degrado della qualità. Di conseguenza, molti approcci di quantizzazione post-formazione, come GGUF, non comprimono tutti i pesi allo stesso modo, lasciandone alcuni a livelli di precisione più elevati per ridurre al minimo la perdita di qualità.
Google ha recentemente dimostrato l’uso della quantizzazione-aware training (QAT) per ridurre i suoi modelli Gemma 3 di un fattore 4x mantenendo livelli di qualità vicini a BF16 nativo.
QAT simula operazioni a bassa precisione durante l’addestramento. Applicando questa tecnica per circa 5.000 passaggi su un modello non qualificato, Google è stata in grado di ridurre il calo della perplessità, una metrica per misurare le perdite correlate alla quantizzazione, del 54% quando convertito in INT4.
Un altro approccio alla quantizzazione basato su QAT, noto come Bitnet, mira a livelli di precisione ancora inferiori, comprimendo i modelli a soli 1,58 bit, ovvero circa un decimo della loro dimensione originale.
La Sinergia delle Tecnologie
La combinazione di MoE e quantizzazione a 4 bit offre vantaggi significativi, in particolare quando l’ampiezza di banda è limitata.
Per altri che non sono vincolati dall’ampiezza di banda, tuttavia, una qualsiasi delle due tecnologie, che si tratti di MoE o quantizzazione, può ridurre sostanzialmente il costo delle apparecchiature e del funzionamento per l’esecuzione di modelli più grandi e potenti; questo supponendo che si possa trovare un servizio valido per loro da eseguire.
E in caso contrario, puoi almeno consolarti del fatto che non sei solo: un recente sondaggio IBM ha rivelato che solo una distribuzione di IA su quattro ha fornito il ritorno sull’investimento promesso.