La posta in gioco nella corsa globale all’hardware per l’IA
Il panorama dello sviluppo dell’intelligenza artificiale è sempre più definito non solo dalle scoperte algoritmiche ma anche dall’accesso all’hardware sofisticato necessario per addestrare ed eseguire modelli massicci. Al centro di questa equazione hardware si trova l’unità di elaborazione grafica (GPU), un componente inizialmente progettato per il rendering di immagini ma ora indispensabile per le esigenze di elaborazione parallela dell’IA. Per anni, Nvidia Corporation è stata il titano indiscusso in questo campo, con le sue GPU avanzate diventate lo standard di riferimento, alimentando l’innovazione nella Silicon Valley e oltre. Tuttavia, questo dominio ha posto l’azienda, e i suoi clienti, direttamente nel mirino delle tensioni geopolitiche.
L’imposizione da parte di Washington di severi controlli sulle esportazioni volti a limitare l’accesso della Cina alla tecnologia dei semiconduttori all’avanguardia ha rimodellato radicalmente il mercato. Queste restrizioni mirano specificamente alle GPU ad alte prestazioni, come quelle prodotte da Nvidia, ritenute critiche per le applicazioni avanzate di IA, comprese quelle con potenziali usi militari. L’effetto immediato è stato una corsa affannosa all’interno del fiorente settore tecnologico cinese. Le aziende che investivano pesantemente nell’IA, dai giganti affermati alle start-up ambiziose, si sono trovate improvvisamente di fronte alla prospettiva di essere tagliate fuori dagli strumenti essenziali che guidano la prossima ondata di progresso tecnologico. Ciò ha creato un imperativo urgente: trovare alternative valide o rischiare di rimanere indietro in un campo competitivo a livello globale. La sfida non consisteva semplicemente nel sostituire un chip con un altro; implicava la navigazione in una complessa rete di differenziali di prestazioni, problemi di compatibilità software e la pura scala richiesta per addestrare modelli con centinaia di miliardi, o addirittura trilioni, di parametri.
Ant Group traccia una rotta verso l’indipendenza computazionale
In questo contesto di incertezza della catena di approvvigionamento e crescente rivalità tecnologica, Ant Group, il colosso fintech affiliato ad Alibaba Group Holding, ha segnalato un passo significativo verso una maggiore autosufficienza computazionale. Recenti rivelazioni, dettagliate in un documento di ricerca del team Ling dell’azienda – la divisione che guida le sue iniziative sui modelli linguistici di grandi dimensioni (LLM) – indicano una deviazione riuscita dal percorso incentrato su Nvidia. Il nucleo di questo risultato risiede nella loro capacità di addestrare efficacemente un sofisticato modello di IA utilizzando GPU prodotte internamente.
Il modello in questione, denominato Ling-Plus-Base, non è un peso piuma. È progettato utilizzando un’architettura Mixture-of-Experts (MoE), una tecnica che sta guadagnando terreno per la sua efficienza nel ridimensionare gli LLM. Vantando ben 300 miliardi di parametri, Ling-Plus-Base opera in una lega paragonabile ad altri importanti modelli globali. Il fattore cruciale di differenziazione, tuttavia, è l’hardware alla base del suo addestramento. Secondo i risultati della ricerca, questo potente modello può essere portato a maturità su quelli che il team descrive come “dispositivi a prestazioni inferiori”. Questa frase scelta con cura punta direttamente all’utilizzo di unità di elaborazione che non rientrano nell’ambito delle restrizioni all’esportazione statunitensi, implicando fortemente l’uso di chip progettati e prodotti in Cina.
Questo sviluppo è più di un semplice workaround tecnico; rappresenta un potenziale perno strategico. Dimostrando la capacità di addestrare modelli all’avanguardia senza fare affidamento esclusivamente sull’hardware straniero di fascia più alta e soggetto a restrizioni, Ant Group non solo sta mitigando i rischi della catena di approvvigionamento, ma sta anche potenzialmente sbloccando significative efficienze di costo.
L’equazione economica: Tagliare i costi di addestramento
Uno dei dati più convincenti emersi dalla ricerca del team Ling è una riduzione del 20% dei costi di calcolo riportata durante la fase critica di pre-addestramento del modello Ling-Plus-Base. Il pre-addestramento è notoriamente ad alta intensità di risorse, comportando l’alimentazione del modello con vasti set di dati per apprendere modelli linguistici, contesto e conoscenza. Costituisce una parte importante della spesa complessiva associata allo sviluppo di LLM fondamentali. Ottenere una riduzione dei costi di un quinto in questa fase, quindi, si traduce in risparmi sostanziali, liberando potenzialmente capitale per ulteriori ricerche, sviluppo o implementazione su larga scala.
Come si ottiene questo risparmio sui costi? Sebbene il documento non dettagli l’esatta ripartizione dei costi, diversi fattori probabilmente contribuiscono:
- Approvvigionamento hardware: Le GPU prodotte internamente, anche se meno potenti individualmente rispetto alle offerte di punta di Nvidia, possono avere un prezzo di acquisto inferiore o offrire sconti per volumi più favorevoli all’interno del mercato cinese, soprattutto considerando l’offerta limitata di chip Nvidia di fascia alta.
- Efficienza energetica: Sebbene non esplicitamente dichiarato, l’ottimizzazione dell’addestramento per chip domestici potenzialmente meno affamati di energia (anche se forse meno performanti per unità) potrebbe contribuire a ridurre i costi energetici operativi, un fattore significativo nella gestione di grandi data center.
- Ottimizzazione algoritmica e architetturale: L’uso dell’architettura MoE stessa è fondamentale. I modelli MoE attivano solo specifiche sotto-reti “esperte” per un dato input, piuttosto che coinvolgere l’intero modello come le architetture dense. Questa sparsità intrinseca può ridurre significativamente il carico computazionale sia durante l’addestramento che durante l’inferenza, rendendo fattibile ottenere buoni risultati anche con una potenza di elaborazione grezza inferiore per chip. Il successo di Ant suggerisce una sofisticata messa a punto del software e degli algoritmi per massimizzare l’efficienza dell’hardware domestico disponibile.
Questa riduzione dei costi non è semplicemente un vantaggio contabile; abbassa la barriera all’ingresso per lo sviluppo di modelli su larga scala e potrebbe accelerare il ritmo dell’innovazione dell’IA all’interno dell’azienda e potenzialmente nell’ecosistema tecnologico cinese più ampio se i metodi si dimostreranno replicabili.
Parità di prestazioni: Colmare il divario hardware?
I risparmi sui costi sono allettanti, ma significano poco se il modello di IA risultante ha prestazioni significativamente inferiori. Il team Ling di Ant affronta direttamente questo problema, affermando che Ling-Plus-Base raggiunge prestazioni paragonabili ad altri modelli ben considerati nel campo. Nello specifico, hanno confrontato la loro creazione con modelli come Qwen2.5-72B-Instruct (sviluppato dalla società madre Alibaba) e DeepSeek-V2.5-1210-Chat, un altro importante LLM cinese.
L’affermazione di “prestazioni comparabili” nonostante l’uso di “dispositivi a prestazioni inferiori” è degna di nota. Suggerisce che Ant abbia potenzialmente trovato modi efficaci per compensare qualsiasi deficit computazionale grezzo attraverso:
- Architettura avanzata del modello: Il design MoE è strumentale qui, distribuendo efficientemente il carico di lavoro.
- Ottimizzazione del software: Adattare lo stack software di addestramento (come i framework di parallelizzazione e le librerie numeriche) specificamente per l’architettura delle GPU domestiche utilizzate è cruciale. Questo spesso comporta un notevole sforzo ingegneristico.
- Cura dei dati e tecniche di addestramento: Metodi sofisticati per selezionare i dati di addestramento e affinare il processo di addestramento stesso possono avere un impatto significativo sulla qualità finale del modello, a volte compensando le limitazioni hardware.
È importante affrontare le affermazioni sulle prestazioni con sfumature. “Comparabile” può comprendere una gamma di risultati attraverso vari benchmark (ad esempio, comprensione del linguaggio, ragionamento, generazione, codifica). Senza accesso a risultati dettagliati dei benchmark su più test standardizzati, un confronto preciso rimane difficile. Tuttavia, l’affermazione stessa segnala la fiducia di Ant che il suo approccio non necessiti di un compromesso paralizzante tra costo/accessibilità e capacità. Dimostra un percorso per mantenere la competitività anche all’interno dei vincoli imposti dalle restrizioni hardware.
I ricercatori stessi hanno evidenziato le implicazioni più ampie: “Questi risultati dimostrano la fattibilità dell’addestramento di modelli MoE su larga scala all’avanguardia su hardware meno potente, consentendo un approccio più flessibile ed economico allo sviluppo di modelli fondamentali rispetto alla selezione delle risorse di calcolo”. Ciò indica una sorta di democratizzazione, consentendo allo sviluppo di IA all’avanguardia di procedere anche quando l’accesso al vertice assoluto della potenza di elaborazione è limitato.
Comprendere il vantaggio della Mixture-of-Experts (MoE)
L’architettura Mixture-of-Experts è centrale per il successo riportato da Ant Group. Rappresenta un allontanamento dai tradizionali modelli di rete neurale “densa” in cui ogni input attiva ogni parametro. In un modello MoE:
- Il modello è composto da numerose reti “esperte” più piccole e specializzate.
- Una “rete di gating” o meccanismo “router” impara a dirigere i dati in arrivo (token, nel caso degli LLM) all’esperto o agli esperti più pertinenti per l’elaborazione.
- Solo l’esperto o gli esperti selezionati – spesso solo uno o due su potenzialmente centinaia – eseguono calcoli per quel pezzo specifico di dati.
Questo approccio offre diversi vantaggi chiave, particolarmente rilevanti nel contesto dei vincoli hardware:
- Scalabilità: MoE consente ai modelli di crescere fino a enormi conteggi di parametri (trilioni stanno diventando fattibili) senza un aumento proporzionale del costo computazionale per l’elaborazione di ogni token di input durante l’inferenza o anche durante le fasi di addestramento. Questo perché solo una frazione dei parametri totali è attiva in un dato momento.
- Efficienza dell’addestramento: Sebbene l’addestramento dei modelli MoE abbia le sue complessità (come il bilanciamento del carico tra gli esperti), il calcolo ridotto per token può tradursi in tempi di addestramento più rapidi o, come dimostra Ant, nella capacità di addestrare efficacemente su hardware meno potente entro tempi ragionevoli.
- Specializzazione: Ogni esperto può potenzialmente specializzarsi in diversi tipi di dati, compiti o domini di conoscenza, portando potenzialmente a output di qualità superiore in aree specifiche.
I principali laboratori di IA in tutto il mondo hanno abbracciato MoE, tra cui Google (GShard, Switch Transformer), Mistral AI (modelli Mixtral) e in Cina, aziende come DeepSeek e Alibaba (i cui modelli Qwen incorporano elementi MoE). Ling-Plus-Base di Ant si colloca saldamente all’interno di questa avanguardia, sfruttando l’innovazione architetturale per navigare nelle realtà hardware.
L’ecosistema hardware domestico: Colmare il vuoto di Nvidia
Mentre il documento di ricerca di Ant si è astenuto dal nominare esplicitamente l’hardware utilizzato, rapporti successivi, in particolare da Bloomberg, hanno indicato che l’impresa ha coinvolto chip progettati internamente. Ciò include processori potenzialmente provenienti dall’affiliata di Ant, Alibaba, che ha la sua unità di progettazione di chip T-Head (che produce CPU come Yitian 710 e in precedenza esplorava acceleratori AI), e crucialmente, Huawei Technologies.
Huawei, nonostante affronti essa stessa intense sanzioni statunitensi, ha sviluppato aggressivamente la sua serie Ascend di acceleratori AI (come l’Ascend 910B) come alternativa diretta alle offerte di Nvidia all’interno del mercato cinese. Secondo quanto riferito, questi chip vengono adottati dalle principali aziende tecnologiche cinesi. La capacità di Ant Group di utilizzare efficacemente tale hardware per un modello grande come Ling-Plus-Base rappresenterebbe una significativa convalida di queste alternative domestiche.
È fondamentale notare che Ant Group non ha abbandonato completamente Nvidia. I rapporti suggeriscono che i chip Nvidia rimangono parte del toolkit di sviluppo AI di Ant, probabilmente utilizzati per compiti in cui le loro specifiche caratteristiche prestazionali o l’ecosistema software maturo (come CUDA) offrono vantaggi, o per sistemi legacy. La mossa non riguarda necessariamente la sostituzione completa dall’oggi al domani, ma la costruzione di percorsi paralleli e validi che riducano la vulnerabilità strategica e controllino i costi. Questo approccio ibrido consente all’azienda di sfruttare i migliori strumenti disponibili coltivando al contempo l’indipendenza. Ant Group stessa ha mantenuto un certo grado di discrezione aziendale, rifiutando di commentare ufficialmente sui chip specifici utilizzati.
Una tendenza più ampia: La spinta collettiva della Cina per l’autosufficienza nell’IA
L’iniziativa di Ant Group non avviene isolatamente. Rispecchia una spinta strategica più ampia in tutto il settore tecnologico cinese per innovare attorno alle limitazioni imposte dai controlli sulle esportazioni statunitensi. La “guerra tecnologica” ha catalizzato gli sforzi per raggiungere una maggiore autosufficienza nelle tecnologie critiche, in particolare semiconduttori e IA.
Altri attori importanti stanno perseguendo obiettivi simili:
- ByteDance: Anche la società madre di TikTok starebbe lavorando per assicurarsi e utilizzare chip alternativi, comprese opzioni domestiche, per le sue ambizioni nell’IA, che spaziano dagli algoritmi di raccomandazione all’IA generativa e altro ancora.
- DeepSeek: Questa start-up di IA, nota per i suoi potenti modelli open-source, menziona esplicitamente l’efficienza dell’addestramento e ha sviluppato modelli utilizzando l’architettura MoE, allineandosi con strategie meno dipendenti dall’avere vaste flotte solo delle GPU più potenti.
- Baidu, Tencent e altri: Tutte le principali società cinesi di cloud e tecnologia stanno investendo pesantemente nell’IA e stanno inevitabilmente esplorando strategie di diversificazione dell’hardware, inclusa l’ottimizzazione per chip domestici e potenzialmente lo sviluppo del proprio silicio personalizzato.
Il messaggio collettivo è chiaro: mentre l’accesso ai prodotti di punta di Nvidia rimane desiderabile, l’industria tecnologica cinese sta attivamente sviluppando e convalidando soluzioni alternative. Ciò comporta un approccio su più fronti: abbracciare architetture di modelli efficienti come MoE, intensa ottimizzazione del software per diversi backend hardware e supportare lo sviluppo e l’adozione di chip prodotti internamente.
Oltre i modelli linguistici: L’espansione di Ant nell’IA nel settore sanitario
Gli sforzi di Ant Group nell’IA si estendono oltre gli LLM fondamentali. In concomitanza con le notizie sulle sue efficienze di addestramento, l’azienda ha svelato aggiornamenti significativi alla sua suite di soluzioni AI su misura per il settore sanitario. Questa iniziativa sfrutta un modello AI distinto, sviluppato internamente e incentrato sulla sanità.
Le soluzioni aggiornate presentano capacità multimodali (elaborazione di vari tipi di dati come testo, immagini e potenzialmente altri dati medici) e ragionamento medico sofisticato. Queste sono integrate in ciò che Ant descrive come “macchine all-in-one”, presumibilmente dispositivi o piattaforme progettate per ambienti clinici o gestione della salute.
Sebbene apparentemente separata dalle notizie sull’LLM Ling-Plus-Base, esiste una potenziale connessione sottostante. La capacità di addestrare potenti modelli di IA in modo più economico, potenzialmente utilizzando un mix di hardware comprese opzioni domestiche, potrebbe sostenere la fattibilità economica dello sviluppo e dell’implementazione di modelli specializzati per settori come quello sanitario. Ridurre i costi fondamentali dello sviluppo dell’IA consente di incanalare le risorse in applicazioni specifiche del dominio, accelerando potenzialmente l’introduzione di strumenti pratici di IA in settori critici. Questa spinta nel settore sanitario sottolinea l’ambizione di Ant di applicare ampiamente la sua esperienza nell’IA, andando oltre le sue radici fintech.
Implicazioni per il futuro: Un bivio nella strada dell’IA?
L’addestramento riuscito da parte di Ant Group di un modello MoE su larga scala utilizzando GPU non Nvidia, probabilmente domestiche, comporta implicazioni significative:
- Convalida per i chip domestici: Serve come prova cruciale della fattibilità degli acceleratori AI progettati in Cina come Ascend di Huawei, potenziando potenzialmente la loro adozione all’interno della Cina.
- Panorama competitivo: Dimostra che le aziende cinesi possono rimanere competitive nello sviluppo di IA all’avanguardia nonostante le restrizioni, sfruttando l’innovazione architetturale e software.
- Dinamiche dei costi: La riduzione dei costi del 20% evidenzia un potenziale vantaggio competitivo per le aziende in grado di utilizzare efficacemente hardware alternativo, influenzando potenzialmente i prezzi e l’accessibilità globale dell’IA.
- Posizione di Nvidia: Sebbene Nvidia rimanga dominante a livello globale, questa tendenza sottolinea le sfide che deve affrontare nel significativo mercato cinese a causa delle normative e dell’ascesa di concorrenti locali. Potrebbe accelerare lo sviluppo da parte di Nvidia di chip conformi all’esportazione su misura per la Cina, ma convalida anche il percorso alternativo.
- Biforcazione tecnologica?: A lungo termine, la continua divergenza nell’accesso all’hardware e nell’ottimizzazione del software potrebbe portare a ecosistemi AI parzialmente distinti, con modelli e strumenti ottimizzati per silicio sottostante diverso.
Il viaggio intrapreso dal team Ling di Ant Group è emblematico dell’ingegnosità stimolata dai vincoli geopolitici. Combinando abilmente architetture di modelli avanzate come MoE con la volontà di ottimizzare e utilizzare l’hardware domestico disponibile, hanno tracciato un percorso che garantisce un progresso continuo nel campo critico dell’intelligenza artificiale, rimodellando potenzialmente le strutture dei costi e le dipendenze strategiche che definiscono il settore. È una testimonianza dell’idea che l’innovazione spesso fiorisce più vigorosamente sotto pressione.