Huawei's AI-doorbraak: Nieuwe trainingsmethode

Huawei Technologies, een bedrijf dat aanzienlijke technologische obstakels ondervindt als gevolg van Amerikaanse sancties, heeft naar verluidt een doorbraak bereikt in de training van modellen voor kunstmatige intelligentie (AI). Onderzoekers die werken aan Huawei’s grote taalmodel (LLM), Pangu, beweren een verbeterde aanpak te hebben ontwikkeld die beter presteert dan de originele methodologie van DeepSeek. Deze innovatieve methode maakt gebruik van Huawei’s eigen hardware, waardoor de afhankelijkheid van het bedrijf van Amerikaanse technologieën wordt verminderd, een cruciaal doel in het huidige geopolitieke landschap.

De opkomst van Mixture of Grouped Experts (MoGE)

De hoeksteen van Huawei’s vooruitgang ligt in het concept van Mixture of Grouped Experts (MoGE). Deze nieuwe techniek, beschreven in een paper gepubliceerd door het Pangu-team van Huawei, wordt gepresenteerd als een geüpgradede versie van de Mixture of Experts (MoE)-techniek. MoE heeft bewezen een belangrijke rol te spelen bij het creëren van kosteneffectieve AI-modellen, zoals blijkt uit het succes van DeepSeek.

MoE biedt voordelen voor grote modelparameters, wat leidt tot een verbeterd leervermogen. De Huawei-onderzoekers identificeerden echter inefficiënties die voortkomen uit een ongelijke activering van "experts", cruciale componenten in AI-training, die de prestaties kunnen belemmeren bij het gelijktijdig uitvoeren van taken op meerdere apparaten. Huawei’s MoGE pakt deze uitdagingen strategisch aan.

Het aanpakken van inefficiënties in traditionele MoE-modellen

Het MoGE-systeem is ingewikkeld ontworpen om de workloadverdeling te optimaliseren. Het centrale idee is om experts te “groeperen” tijdens het selectieproces, wat leidt tot een meer evenwichtige workloadverdeling. Door de computationele belasting eerlijker te verdelen, meldden de onderzoekers een opmerkelijke verbetering in de prestaties van parallelle computeromgevingen, een belangrijk aspect van moderne AI-training.

Het concept van “experts” in AI-training verwijst naar gespecialiseerde submodellen of componenten binnen een groter, uitgebreider model. Elke expert is zorgvuldig ontworpen om zeer specifieke taken of datatypes te verwerken. Deze aanpak benut gevarieerde gespecialiseerde expertise, waardoor het algehele AI-systeem zijn algehele prestaties aanzienlijk kan verbeteren.

Implicaties voor China’s AI-vooruitgang

Deze vooruitgang komt bijzonder gelegen. Chinese AI-bedrijven, ondanks de Amerikaanse beperkingen op de import van geavanceerde AI-chips zoals die van Nvidia, streven agressief naar methoden om de efficiëntie van modeltraining en -inferentie te verhogen. Deze methoden omvatten niet alleen algoritmische verbeteringen, maar ook de synergetische integratie van hardware en software.

De onderzoekers van Huawei hebben de MoGE-architectuur rigoureus getest op hun Ascend neural processing unit (NPU), die speciaal is ontworpen om AI-taken te versnellen. De resultaten gaven aan dat MoGE een superieure expert load balancing en efficiëntere uitvoering behaalde, zowel voor modeltraining als voor inferentiefasen. Dit is een significante validatie van de voordelen van het gelijktijdig optimaliseren van de hardware- en softwarestack.

Benchmarking van Pangu tegen toonaangevende AI-modellen

Huawei’s Pangu-model, versterkt door de MoGE-architectuur en Ascend NPU’s, werd gebenchmarkt tegen toonaangevende AI-modellen. Deze omvatten DeepSeek-V3, Qwen2.5-72B van Alibaba Group Holding en Llama-405B van Meta Platforms. Resultaten van de benchmark toonden aan dat Pangu state-of-the-art prestaties behaalde op een reeks algemene Engelse benchmarks, en het excelleerde op alle Chinese benchmarks. Pangu toonde ook een hogere efficiëntie aan bij het verwerken van lange contexttraining, een gebied van cruciaal belang voor geavanceerde natuurlijke taalverwerkingstaken.

Bovendien demonstreerde het Pangu-model uitzonderlijke mogelijkheden in algemene taalbegripstaken, met bijzondere sterke punten in redeneertaken. Dit vermogen om nuances te begrijpen en betekenis te halen uit complexe taal demonstreert de vooruitgang die Huawei heeft geboekt in AI.

Huawei’s strategische betekenis

Huawei’s vooruitgang in de AI-modelarchitectuur heeft strategische betekenis. Gezien de voortdurende sancties probeert het in Shenzhen gevestigde bedrijf strategisch zijn afhankelijkheid van Amerikaanse technologieën te verminderen. De Ascend-chips die door Huawei zijn ontwikkeld, worden beschouwd als levensvatbare binnenlandse alternatieven voor processors van Nvidia en zijn een belangrijk onderdeel van deze onafhankelijkheid.

Pangu Ultra, een groot taalmodel met 135 miljard parameters geoptimaliseerd voor NPU’s, benadrukt de effectiviteit van Huawei’s architecturale en systemische stroomlijning en toont tegelijkertijd de mogelijkheden van zijn NPU’s. Het aantonen van de effectiviteit van de hardware-software-integratie is een belangrijk onderdeel van het tonen van Huawei AI-mogelijkheden.

Gedetailleerd trainingsproces

Volgens Huawei is het trainingsproces verdeeld in drie belangrijke fasen: pre-training, long context extension en post-training. Pre-training omvat de initiële training van het model op een enorme dataset van 13,2 biljoen tokens. Long context extension breidt vervolgens het vermogen van het model uit om langere en complexere teksten te verwerken en bouwt voort op de initiële dataherkenning. Deze fase maakt gebruik van een grootschalige gedistribueerde verwerking over 8.192 Ascend-chips.

Huawei maakte bekend dat het model en het systeem binnenkort toegankelijk zullen worden gemaakt voor zijn commerciële klanten, waardoor nieuwe mogelijkheden ontstaan voor integratie en ontwikkeling met zijn partners.

Diepgaande duik in Mixture of Experts (MoE) en zijn beperkingen

Om de betekenis van Huawei’s MoGE volledig te begrijpen, is het cruciaal om de basis te begrijpen waarop het voortbouwt: de Mixture of Experts (MoE)-architectuur. MoE vertegenwoordigt een paradigmaverschuiving in de manier waarop grote AI-modellen worden ontworpen en getraind, en biedt een manier om de modelgrootte en complexiteit te schalen zonder een evenredige stijging van de rekenkosten.

In een traditioneel neuraal netwerk wordt elke invoer verwerkt door elke neuron in elke laag. Hoewel deze aanpak een hoge nauwkeurigheid kan opleveren, wordt deze computationeel onbetaalbaar voor zeer grote modellen. MoE introduceert daarentegen het concept van “experts” - kleinere, gespecialiseerde neurale netwerken die zich richten op specifieke subsets van de invoerdata.

Een “gate”-netwerk routeert elke invoer dynamisch naar de meest relevante expert(s). Deze selectieve activering maakt een sparse berekening mogelijk, wat betekent dat slechts een fractie van de parameters van het model wordt ingeschakeld voor een bepaalde invoer. Deze sparsity vermindert de rekenkosten van inferentie (het gebruik van het model voor voorspelling) en training aanzienlijk. Verder, omdat verschillende experts kunnen reageren op verschillende delen van de invoerdata, maakt het een grotere specialisatie in het model mogelijk.

Ondanks de voordelen van MoE moeten verschillende beperkingen worden aangepakt om het volledige potentieel ervan te ontsluiten. De ongelijke activering van experts is een belangrijke zorg. In veel MoE-implementaties worden sommige experts zwaar gebruikt, terwijl andere relatief inactief blijven. Deze onbalans vloeit voort uit de inherente kenmerken van de data en het ontwerp van het gate-netwerk.

Deze onbalans kan leiden tot inefficiënties in parallelle computeromgevingen. Omdat de workload niet gelijkmatig over de experts is verdeeld, worden sommige verwerkingseenheden onderbenut, terwijl andere overweldigd zijn. Deze ongelijkheid belemmert de schaalbaarheid van MoE en vermindert de algehele prestaties. Deze onbalans vloeit ook vaak voort uit biases in de trainingsdata, wat leidt tot ondervertegenwoordiging en ondertraining van minder actieve experts. Dit resulteert op de lange termijn in een suboptimaal model.

Een ander veel voorkomend probleem bij het verwerken van MoE is de toegevoegde complexiteit bij het ontwerpen van het gate-netwerk. Het gate-netwerk vereist geavanceerde technieken om ervoor te zorgen dat experts correct worden geselecteerd, anders presteert de MoE mogelijk niet volgens verwachtingen en veroorzaakt onnodige overhead.

Grouped Experts (MoGE): Het aanpakken van de uitdagingen van MoE

Huawei’s Mixture of Grouped Experts (MoGE)-architectuur biedt een verfijnd alternatief voor traditionele MoE door zich te concentreren op load balancing en efficiënte parallelle uitvoering. De methode omvat het strategisch groeperen van experts, wat het routingproces van invoerdata verandert, wat leidt tot een meer even workloadverdeling.

Door de experts te groeperen tijdens de selectie, zorgt MoGE ervoor dat elke groep experts een meer evenwichtige workload ontvangt. In plaats van elke invoer onafhankelijk te routeren, stuurt het gate-netwerk nu groepen inputs naar groepen experts. Deze aanpak bevordert een meer rechtvaardige verdeling van de computationele belasting.

Het groeperingsmechanisme helpt ook om de effecten van databias te verminderen. Door ervoor te zorgen dat alle experts binnen een groep worden getraind op een diverse set inputs, vermindert MoGE het risico op ondervertegenwoordiging en ondertraining. Verder maakt het groeperen van experts een beter gebruik van middelen mogelijk. Omdat elke groep een meer consistente workload verwerkt, wordt het gemakkelijker om computationele middelen efficiënt toe te wijzen, wat leidt tot betere algehele prestaties.

Het eindresultaat is een betere expert load balancing en efficiëntere uitvoering voor zowel modeltraining als inferentie. Dit vertaalt zich in snellere trainingstijden, lagere rekenkosten en verbeterde algehele prestaties.

De Ascend NPU: Hardwareversnelling voor AI

De Ascend NPU (Neural Processing Unit) speelt een sleutelrol in Huawei’s AI-strategie. Deze processors zijn specifiek ontworpen om AI-taken te versnellen, waaronder modeltraining en inferentie. Ze bieden een verscheidenheid aan functies die zijn geoptimaliseerd voor deep learning-workloads, zoals een hoge geheugenbandbreedte, gespecialiseerde verwerkingseenheden voor matrixvermenigvuldiging en communicatie-interfaces met lage latentie. Verder ondersteunen Huawei’s Ascend NPU’s een reeks datatypes en precisieniveaus, waardoor een fijne controle over prestaties en nauwkeurigheid mogelijk is.

De synergetische combinatie van MoGE en Ascend NPU creëert een krachtig platform voor AI-innovatie. MoGE optimaliseert de softwarekant door de load balancing en parallelle uitvoering te verbeteren, terwijl Ascend NPU de hardwareversnelling biedt die nodig is om deze voordelen te realiseren. Deze geïntegreerde aanpak stelt Huawei in staat om de grenzen van AI-prestaties en -efficiëntie te verleggen.

De Ascend NPU wordt gekenmerkt door een hoge rekendichtheid en energie-efficiëntie. Deze functies zijn cruciaal voor het implementeren van AI-modellen in een verscheidenheid aan instellingen, van krachtige cloudservers tot edge devices met beperkte stroombudgetten.

Benchmarks en prestatiestatistieken

Huawei’s benchmarkresultaten demonstreren de effectiviteit van de MoGE-architectuur en de Ascend NPU. Door Pangu te vergelijken met toonaangevende AI-modellen zoals DeepSeek-V3, Qwen2.5-72B en Llama-405B, toonde Huawei aan dat zijn technologie state-of-the-art prestaties behaalt op een verscheidenheid aan taken.

Pangu’s succes op algemene Engelse en Chinese benchmarks benadrukt zijn veelzijdigheid en aanpassingsvermogen. De vaardigheid van het model in lange contexttraining is bijzonder opmerkelijk, omdat het de mogelijkheden weerspiegelt bij het verwerken van real-world data. Verder onderstreept Pangu’s sterke prestatie op redeneertaken zijn vermogen om complexe relaties te begrijpen en te verwerken.

Deze benchmarks zijn niet louter academische oefeningen, ze bieden tastbaar bewijs van de technologische vooruitgang die door Huawei is geboekt. Ze versterken de bewering van het bedrijf dat het voorop loopt op het gebied van AI-innovatie en versterken zijn positie in de wereldmarkt.

Implicaties voor Huawei’s toekomst

Huawei’s vooruitgang in AI-modeltraining heeft kritieke implicaties in de strategische visie van het bedrijf om technologische soevereiniteit in kunstmatige intelligentie te vestigen. Aangezien het bedrijf zijn afhankelijkheid van Amerikaanse technologieën minimaliseert te midden van het aanhoudende handelsconflict, dient de ontwikkeling van Ascend-chips als alternatief voor processors van Nvidia en AMD. De Pangu Ultra, een LLM met 135 miljard parameters voor NPU’s, benadrukt de effectiviteit van Huawei’s architecturale en systemische stroomlijning door de mogelijkheden van zijn geavanceerde chips te laten zien.

Deze inspanningen zullen naar verwachting bijdragen aan het algehele concurrentievermogen van Huawei op de lange termijn, omdat het ernaar streeft om een grotere markt voor AI te bedienen, vooral in China. Door voortdurend investeringen te richten op onderzoek en ontwikkeling, hoopt Huawei zichzelf naar voren te stuwen als de leider in de AI-ruimte, waarbij het de huidige marktbeperkingen overwint.

Toekomstig onderzoek

Huawei’s continue verbeteringen in de AI-modelarchitectuur via systeem- en algoritmisch-niveauoptimalisaties, naast hardwareontwikkelingen zoals de Ascend-chip, markeren het belang ervan bij het leiden van de technologische curve in kunstmatige intelligentie. Hoewel benchmarks zoals de Pangu bewijzen dat het een state-of-the-art model is, valt er nog genoeg te verbeteren. Verdere verfijning van de MoGE-architectuur kan het in staat stellen om naar grotere en complexere berekeningen te duwen. Meer werk in het specialiseren van de Ascend NPU’s architectuur kan deep learning-processen verder versnellen en de kosten verlagen. Toekomstig onderzoek zal de voortdurende inspanningen zien om betere AI-modellen te bouwen en bestaande te verbeteren.