Huawei: Svolta IA con MoGE e Chip Ascend

Huawei Technologies, un’azienda che affronta significative sfide tecnologiche a causa delle sanzioni statunitensi, avrebbe compiuto una svolta nell’addestramento di modelli di intelligenza artificiale (IA). I ricercatori che lavorano sul modello linguistico di grandi dimensioni (LLM) di Huawei, Pangu, affermano di aver sviluppato un approccio migliorato che supera la metodologia originale di DeepSeek. Questo metodo innovativo sfrutta l’hardware proprietario di Huawei, riducendo la dipendenza dell’azienda dalle tecnologie statunitensi, un obiettivo cruciale nell’attuale panorama geopolitico.

L’Emergenza di Mixture of Grouped Experts (MoGE)

La pietra angolare del progresso di Huawei risiede nel concetto di Mixture of Grouped Experts (MoGE). Questa nuova tecnica, dettagliata in un documento pubblicato dal team Pangu di Huawei, è presentata come una versione aggiornata della tecnica Mixture of Experts (MoE). MoE si è dimostrata fondamentale nella creazione di modelli di intelligenza artificiale economici, come dimostrato dal successo di DeepSeek.

MoE offre vantaggi per i parametri di modelli di grandi dimensioni, portando a una maggiore capacità di apprendimento. Tuttavia, i ricercatori di Huawei hanno identificato inefficienze derivanti dall’attivazione irregolare di "esperti", componenti cruciali nell’addestramento dell’IA, che possono ostacolare le prestazioni durante l’esecuzione simultanea di task su più dispositivi. La MoGE di Huawei affronta strategicamente queste sfide.

Affrontare le Inefficienze nei Modelli MoE Tradizionali

Il sistema MoGE è progettato in modo complesso per ottimizzare la distribuzione del carico di lavoro. L’idea centrale è quella di "raggruppare" gli esperti durante il processo di selezione, portando a una distribuzione del carico di lavoro più equilibrata. Distribuendo più equamente l’onere computazionale, i ricercatori hanno riportato un notevole miglioramento delle prestazioni degli ambienti di calcolo parallelo, un aspetto chiave dell’addestramento dell’IA moderna.

Il concetto di "esperti" nell’addestramento dell’IA si riferisce a sotto-modelli o componenti specializzati all’interno di un modello più ampio e completo. Ogni esperto è meticolosamente progettato per gestire task o tipi di dati molto specifici. Questo approccio sfrutta competenze specializzate differenziate, consentendo al sistema di IA complessivo di migliorare significativamente le sue prestazioni globali.

Implicazioni per il Progresso dell’IA Cinese

Questo progresso è particolarmente tempestivo. Le aziende cinesi di IA, nonostante affrontino restrizioni statunitensi sull’importazione di chip di IA avanzati come quelli di Nvidia, stanno perseguendo aggressivamente metodi per aumentare l’efficienza dell’addestramento e dell’inferenza dei modelli. Questi metodi includono non solo miglioramenti algoritmici, ma anche l’integrazione sinergica di hardware e software.

I ricercatori di Huawei hanno testato rigorosamente l’architettura MoGE sulla loro unità di elaborazione neurale (NPU) Ascend, specificamente progettata per accelerare i task di IA. I risultati hanno indicato che MoGE ha ottenuto un bilanciamento del carico degli esperti superiore e un’esecuzione più efficiente, sia per le fasi di addestramento chedi inferenza del modello. Questa è una convalida significativa dei vantaggi derivanti dall’ottimizzazione simultanea dello stack hardware e software.

Confronto di Pangu con i Principali Modelli di IA

Il modello Pangu di Huawei, rafforzato dall’architettura MoGE e dalle NPU Ascend, è stato confrontato con i principali modelli di IA. Questi includevano DeepSeek-V3, Qwen2.5-72B di Alibaba Group Holding e Llama-405B di Meta Platforms. I risultati del benchmark hanno mostrato che Pangu ha ottenuto prestazioni all’avanguardia su una vasta gamma di benchmark generali in inglese e ha eccelso in tutti i benchmark cinesi. Pangu ha anche mostrato una maggiore efficienza nell’elaborazione dell’addestramento in contesti lunghi, un’area di importanza critica per i sofisticati task di elaborazione del linguaggio naturale.

Inoltre, il modello Pangu ha dimostrato eccezionali capacità nei task generali di comprensione del linguaggio, con particolare forza nei task di ragionamento. Questa capacità di cogliere le sfumature ed estrarre significato da un linguaggio complesso dimostra i progressi che Huawei ha compiuto nell’IA.

Significato Strategico di Huawei

Il progresso di Huawei nell’architettura del modello di IA ha un significato strategico. Date le sanzioni in corso, l’azienda con sede a Shenzhen sta cercando strategicamente di ridurre la sua dipendenza dalle tecnologie statunitensi. I chip Ascend sviluppati da Huawei sono considerati valide alternative nazionali ai processori di Nvidia e sono un componente chiave di questa indipendenza.

Pangu Ultra, un modello linguistico di grandi dimensioni con 135 miliardi di parametri ottimizzati per le NPU, sottolinea l’efficacia della semplificazione architettonica e sistemica di Huawei, mostrando al contempo le capacità delle sue NPU. Dimostrare l’efficacia della sua integrazione hardware-software è una parte importante per mostrare le capacità di IA di Huawei.

Processo di Addestramento Dettagliato

Secondo Huawei, il processo di addestramento è diviso in tre fasi principali: pre-addestramento, estensione del contesto lungo e post-addestramento. Il pre-addestramento prevede l’addestramento iniziale del modello su un enorme dataset di 13,2 trilioni di token. L’estensione del contesto lungo espande quindi la capacità del modello di gestire testi più lunghi e complessi e si basa sul riconoscimento iniziale dei dati. Questa fase utilizza un’elaborazione distribuita su larga scala su 8.192 chip Ascend.

Huawei ha comunicato che il modello e il sistema saranno presto resi accessibili alla sua clientela commerciale, aprendo nuove opportunità di integrazione e sviluppo con i suoi partner.

Analisi Approfondita di Mixture of Experts (MoE) e le sue Limitazioni

Per apprezzare appieno il significato di MoGE di Huawei, è fondamentale comprendere le basi su cui si fonda: l’architettura Mixture of Experts (MoE). MoE rappresenta un cambio di paradigma nel modo in cui i grandi modelli di IA sono progettati e addestrati, offrendo un percorso per scalare le dimensioni e la complessità del modello senza un aumento proporzionale dei costi computazionali.

In una rete neurale tradizionale, ogni input viene elaborato da ogni neurone in ogni livello. Sebbene questo approccio possa produrre un’elevata accuratezza, diventa computazionalmente proibitivo per modelli molto grandi. MoE, al contrario, introduce il concetto di "esperti" - reti neurali più piccole e specializzate che si concentrano su sottoinsiemi specifici dei dati di input.

Una rete "gate" instrada dinamicamente ogni input all’esperto o agli esperti più rilevanti. Questa attivazione selettiva consente un calcolo sparso, il che significa che solo una frazione dei parametri del modello sono impegnati per un determinato input. Questa scarsità riduce drasticamente il costo computazionale dell’inferenza (utilizzo del modello per la previsione) e dell’addestramento. Inoltre, poiché diversi esperti possono agire su diverse parti dei dati di input, consente una maggiore specializzazione nel modello.

Nonostante i vantaggi di MoE, è necessario affrontare diverse limitazioni per sbloccare il suo pieno potenziale. L’attivazione irregolare degli esperti è una delle principali preoccupazioni. In molte implementazioni MoE, alcuni esperti diventano fortemente utilizzati, mentre altri rimangono relativamente inattivi. Questo squilibrio deriva dalle caratteristiche intrinseche dei dati e dalla progettazione della rete gate.

Questo squilibrio può portare a inefficienze negli ambienti di calcolo parallelo. Poiché il carico di lavoro non è distribuito uniformemente tra gli esperti, alcune unità di elaborazione vengono sottoutilizzate mentre altre sono sovraccariche. Questa disparità ostacola la scalabilità di MoE e ne riduce le prestazioni complessive. Inoltre, questo squilibrio spesso deriva da pregiudizi nei dati di addestramento, portando a una sottorappresentazione e a un sottoaddestramento degli esperti meno attivi. Ciò si traduce in un modello subottimale a lungo termine.

Un altro problema comune quando si gestisce MoE include la maggiore complessità quando si progetta la rete gate. La rete gate richiede tecniche sofisticate per garantire che gli esperti siano selezionati correttamente, altrimenti, MoE potrebbe non funzionare come previsto e causare overhead non necessari.

Grouped Experts (MoGE): Affrontare le Sfide di MoE

L’architettura Mixture of Grouped Experts (MoGE) di Huawei offre un’alternativa raffinata al tradizionale MoE concentrandosi sul bilanciamento del carico e sull’esecuzione parallela efficiente. Il metodo prevede il raggruppamento strategico degli esperti, che altera il processo di routing dei dati di input, portando a una distribuzione del carico di lavoro più uniforme.

Raggruppando gli esperti durante la selezione, MoGE garantisce che ogni gruppo di esperti riceva un carico di lavoro più bilanciato. Invece di instradare ogni input in modo indipendente, la rete gate ora indirizza gruppi di input a gruppi di esperti. Questo approccio promuove una distribuzione più equa dell’onere computazionale.

Il meccanismo di raggruppamento aiuta anche a mitigare gli effetti dei pregiudizi dei dati. Garantendo che tutti gli esperti all’interno di un gruppo siano addestrati su un insieme diversificato di input, MoGE riduce il rischio di sottorappresentazione e sottoaddestramento. Inoltre, il raggruppamento degli esperti consente una migliore utilizzo delle risorse. Poiché ogni gruppo gestisce un carico di lavoro più coerente, diventa più facile allocare efficientemente le risorse computazionali, portando a prestazioni complessive migliori.

Il risultato finale è un migliore bilanciamento del carico degli esperti e un’esecuzione più efficiente sia per l’addestramento che per l’inferenza del modello. Ciò si traduce in tempi di addestramento più rapidi, costi computazionali inferiori e prestazioni complessive migliorate.

La NPU Ascend: Accelerazione Hardware per l’IA

La NPU (Neural Processing Unit) Ascend svolge un ruolo chiave nella strategia di IA di Huawei. Questi processori sono specificamente progettati per accelerare i task di IA, inclusi l’addestramento e l’inferenza dei modelli. Offrono una varietà di funzionalità ottimizzate per i carichi di lavoro di deep learning, come un’elevata larghezza di banda di memoria, unità di elaborazione specializzate per la moltiplicazione di matrici e interfacce di comunicazione a bassa latenza. Inoltre, le NPU Ascend di Huawei supportano una gamma di tipi di dati e livelli di precisione, consentendo un controllo preciso sulle prestazioni e sull’accuratezza.

La combinazione sinergica di MoGE e NPU Ascend crea una potente piattaforma per l’innovazione dell’IA. MoGE ottimizza il lato software migliorando il bilanciamento del carico e l’esecuzione parallela, mentre la NPU Ascend fornisce l’accelerazione hardware necessaria per realizzare questi vantaggi. Questo approccio integrato consente a Huawei di spingere i confini delle prestazioni e dell’efficienza dell’IA.

La NPU Ascend è caratterizzata da un’elevata densità di calcolo ed efficienza energetica. Queste funzionalità sono fondamentali per l’implementazione di modelli di IA in una varietà di contesti, dai potenti server cloud ai dispositivi edge con budget di potenza limitati.

Benchmark e Metriche di Prestazione

I risultati di benchmark di Huawei dimostrano l’efficacia dell’architettura MoGE e della NPU Ascend. Confrontando Pangu con i principali modelli di IA come DeepSeek-V3, Qwen2.5-72B e Llama-405B, Huawei ha dimostrato che la sua tecnologia ottiene prestazioni all’avanguardia su una varietà di task.

Il successo di Pangu sui benchmark generali in inglese e cinese evidenzia la sua versatilità e adattabilità. La competenza del modello nell’addestramento in contesti lunghi è particolarmente degna di nota in quanto riflette le capacità nella gestione dei dati del mondo reale. Inoltre, le forti prestazioni di Pangu nei task di ragionamento sottolineano la sua capacità di comprendere ed elaborare relazioni complesse.

Questi benchmark non sono semplici esercizi accademici, offrono prove tangibili dei progressi tecnologici compiuti da Huawei. Rafforzano l’affermazione dell’azienda di essere all’avanguardia nell’innovazione dell’IA e rafforzano la sua posizione nel mercato globale.

Implicazioni per il Futuro di Huawei

I progressi di Huawei nell’addestramento del modello di IA hanno implicazioni critiche nella visione strategica dell’azienda per stabilire la sovranità tecnologica nell’intelligenza artificiale. Mentre l’azienda riduce al minimo la sua dipendenza dalle tecnologie statunitensi nel bel mezzo del conflitto commerciale in corso, lo sviluppo dei chip Ascend funge da alternativa ai processori di Nvidia e AMD. Pangu Ultra, un LLM con 135 miliardi di parametri per le NPU, sottolinea l’efficacia della semplificazione architettonica e sistemica di Huawei, mettendo in mostra le capacità dei suoi chip all’avanguardia.

Si prevede che questi sforzi contribuiranno alla competitività complessiva di Huawei a lungo termine, poiché si sforza di soddisfare un mercato più ampio per l’IA, in particolare all’interno della Cina. Continuando a concentrare gli investimenti in ricerca e sviluppo, Huawei spera di spingersi come leader nello spazio IA, superando le attuali restrizioni del mercato.

Ricerca Futura

I continui miglioramenti di Huawei nell’architettura del modello di IA tramite ottimizzazioni a livello di sistema e algoritmico, insieme a sviluppi hardware come il chip Ascend, segnano la sua importanza nel guidare la curva tecnologica nell’intelligenza artificiale. Mentre benchmark come Pangu dimostrano che è un modello all’avanguardia, c’è ancora un ampio margine di miglioramento. Un ulteriore perfezionamento dell’architettura MoGE potrebbe consentirgli di spingersi verso calcoli più grandi e complessi. Un maggiore lavoro nella specializzazione dell’architettura della NPU Ascend potrebbe accelerare ulteriormente i processi di deep learning e ridurre i costi. Le future indagini vedranno gli sforzi continui per costruire modelli di IA migliori e migliorare quelli esistenti.