Huawei Technologies, ein Unternehmen, das aufgrund von US-Sanktionen vor erheblichen technologischen Hürden steht, hat Berichten zufolge einen Durchbruch im Training von Modellen der künstlichen Intelligenz (KI) erzielt. Forscher, die an Huaweis großem Sprachmodell (LLM), Pangu, arbeiten, behaupten, einen verbesserten Ansatz entwickelt zu haben, der die ursprüngliche Methodik von DeepSeek übertrifft. Diese innovative Methode nutzt Huaweis eigene proprietäre Hardware, wodurch die Abhängigkeit des Unternehmens von US-Technologien verringert wird, ein entscheidendes Ziel in der aktuellen geopolitischen Landschaft.
Die Entstehung von Mixture of Grouped Experts (MoGE)
Der Eckpfeiler von Huaweis Fortschritt liegt im Konzept von Mixture of Grouped Experts (MoGE). Diese neuartige Technik, die in einem von Huaweis Pangu-Team veröffentlichten Papier detailliert beschrieben wird, wird als eine verbesserte Version der Mixture of Experts (MoE)-Technik präsentiert. MoE hat sich als maßgeblich für die Erstellung kostengünstiger KI-Modelle erwiesen, wie der Erfolg von DeepSeek zeigt.
MoE bietet Vorteile für große Modellparameter, was zu einer verbesserten Lernfähigkeit führt. Die Huawei-Forscher identifizierten jedoch Ineffizienzen, die durch die ungleichmäßige Aktivierung von "Experten" entstehen, entscheidenden Komponenten im KI-Training, die die Leistung beeinträchtigen können, wenn Aufgaben gleichzeitig auf mehreren Geräten ausgeführt werden. Huaweis MoGE geht diese Herausforderungen strategisch an.
Adressierung von Ineffizienzen in traditionellen MoE-Modellen
Das MoGE-System ist aufwendig konzipiert, um die Workload-Verteilung zu optimieren. Die zentrale Idee ist es, Experten während des Auswahlprozesses zu "gruppieren", was zu einer ausgewogeneren Workload-Verteilung führt. Durch eine gerechtere Verteilung der Rechenlast berichteten die Forscher von einer deutlichen Verbesserung der Leistung paralleler Rechenumgebungen, einem Schlüsselaspekt des modernen KI-Trainings.
Das Konzept der "Experten" im KI-Training bezieht sich auf spezialisierte Submodelle oder Komponenten innerhalb eines größeren, umfassenderen Modells. Jeder Experte ist sorgfältig darauf ausgelegt, sehr spezifische Aufgaben oder Datentypen zu bearbeiten. Dieser Ansatz nutzt vielfältige spezialisierte Expertise und ermöglicht es dem gesamten KI-System, seine Gesamtleistung deutlich zu verbessern.
Auswirkungen auf Chinas KI-Fortschritt
Dieser Fortschritt kommt besonders gelegen. Chinesische KI-Unternehmen verfolgen trotz der US-Beschränkungen für den Import fortschrittlicher KI-Chips wie denen von Nvidia aggressiv Methoden zur Steigerung der Effizienz von Modelltraining und Inferenz. Diese Methoden umfassen nicht nur algorithmische Verbesserungen, sondern auch die synergetische Integration von Hardware und Software.
Huaweis Forscher testeten die MoGE-Architektur rigoros auf ihrer Ascend Neural Processing Unit (NPU), die speziell entwickelt wurde, um KI-Aufgaben zu beschleunigen. Die Ergebnisse zeigten, dass MoGE sowohl für das Modelltraining als auch für die Inferenzphasen eine überlegene Experten-Lastausgleichung und eine effizientere Ausführung erzielte. Dies ist eine signifikante Bestätigung der Vorteile der gleichzeitigen Optimierung des Hardware- und Software-Stacks.
Benchmarking von Pangu gegen führende KI-Modelle
Huaweis Pangu-Modell, das durch die MoGE-Architektur und Ascend NPUs verstärkt wurde, wurde gegen führende KI-Modelle gemessen. Dazu gehörten DeepSeek-V3, Alibaba Group Holding’s Qwen2.5-72B und Meta Platforms’ Llama-405B. Die Ergebnisse des Benchmarks zeigten, dass Pangu auf einer Reihe allgemeiner englischer Benchmarks eine hochmoderne Leistung erzielte und auf allen chinesischen Benchmarks hervorragende Leistungen erbrachte. Pangu zeigte auch eine höhere Effizienz bei der Verarbeitung von Langkontexttraining, einem Bereich von entscheidender Bedeutung für anspruchsvolle Aufgaben der Verarbeitung natürlicher Sprache.
Darüber hinaus demonstrierte das Pangu-Modell außergewöhnliche Fähigkeiten bei allgemeinen Sprachverständnisaufgaben mit besonderen Stärken bei Denkaufgaben. Diese Fähigkeit, Nuancen zu erfassen und Bedeutung aus komplexer Sprache zu extrahieren, demonstriert die Fortschritte, die Huawei im Bereich KI erzielt hat.
Huaweis strategische Bedeutung
Huaweis Fortschritt in der KI-Modellarchitektur hat strategische Bedeutung. Angesichts der anhaltenden Sanktionen ist das in Shenzhen ansässige Unternehmen strategisch bestrebt, seine Abhängigkeit von US-Technologien zu verringern. Die von Huawei entwickelten Ascend-Chips gelten als tragfähige inländische Alternativen zu Prozessoren von Nvidia und sind ein wichtiger Bestandteil dieser Unabhängigkeit.
Pangu Ultra, ein großes Sprachmodell mit 135 Milliarden Parametern, das für NPUs optimiert ist, unterstreicht die Effektivität von Huaweis architektonischer und systemischer Straffung und demonstriert gleichzeitig die Fähigkeiten seiner NPUs. Der Nachweis der Effektivität seiner Hardware-Software-Integration ist ein wichtiger Bestandteil der Präsentation der KI-Fähigkeiten von Huawei.
Detaillierter Trainingsprozess
Laut Huawei ist der Trainingsprozess in drei Hauptphasen unterteilt: Vortraining, Langkontexterweiterung und Nachtraining. Das Vortraining umfasst zunächst das Training des Modells auf einem massiven Datensatz von 13,2 Billionen Token. Die Langkontexterweiterung erweitert dann die Fähigkeit des Modells, längere und komplexere Texte zu verarbeiten, und baut auf der anfänglichen Datenerkennung auf. Diese Phase verwendet eine groß angelegte verteilte Verarbeitung über 8.192 Ascend-Chips.
Huawei gab bekannt, dass das Modell und das System bald seinen kommerziellen Kunden zugänglich gemacht werden, wodurch sich neue Möglichkeiten für die Integration und Entwicklung mit seinen Partnern ergeben.
Deep Dive in Mixture of Experts (MoE) und seine Einschränkungen
Um die Bedeutung von Huaweis MoGE vollständig zu würdigen, ist es entscheidend, die Grundlagen zu verstehen, auf denen es aufbaut: die Mixture of Experts (MoE)-Architektur. MoE stellt einen Paradigmenwechsel in der Art und Weise dar, wie große KI-Modelle entworfen und trainiert werden, und bietet einen Weg zur Skalierung der Modellgröße und -komplexität ohne eine proportionale Erhöhung der Rechenkosten.
In einem traditionellen neuronalen Netzwerk wird jede Eingabe von jedem Neuron in jeder Schicht verarbeitet. Während dieser Ansatz eine hohe Genauigkeit erzielen kann, wird er für sehr große Modelle rechnerisch unerschwinglich. MoE führt im Gegensatz dazu das Konzept der "Experten" ein – kleinere, spezialisierte neuronale Netze, die sich auf bestimmte Teilmengen der Eingabedaten konzentrieren.
Ein "Gate"-Netzwerk leitet jede Eingabe dynamisch an den/die relevantesten Experten weiter. Diese selektive Aktivierung ermöglicht eine spärliche Berechnung, was bedeutet, dass nur ein Bruchteil der Modellparameter für eine bestimmte Eingabe aktiviert wird. Diese Sparsity reduziert die Rechenkosten für Inferenz (Verwendung des Modells zur Vorhersage) und Training drastisch. Da verschiedene Experten an verschiedenen Teilen der Eingabedaten arbeiten können, ermöglicht dies eine stärkere Spezialisierung im Modell.
Trotz der Vorteile von MoE müssen mehrere Einschränkungen angegangen werden, um sein volles Potenzial auszuschöpfen. Die ungleichmäßige Aktivierung von Experten ist ein Hauptanliegen. In vielen MoE-Implementierungen werden einige Experten stark genutzt, während andere relativ inaktiv bleiben. Dieses Ungleichgewicht rührt von den inhärenten Eigenschaften der Daten und dem Design des Gate-Netzwerks her.
Dieses Ungleichgewicht kann zu Ineffizienzen in parallelen Rechenumgebungen führen. Da die Workload nicht gleichmäßig auf die Experten verteilt ist, werden einige Verarbeitungseinheiten unterausgelastet gelassen, während andere überlastet sind. Diese Disparität behindert die Skalierbarkeit von MoE und reduziert seine Gesamtleistung. Dieses Ungleichgewicht rührt oft von Verzerrungen in den Trainingsdaten her, was zu einer Unterrepräsentation und einem Untertraining weniger aktiver Experten führt. Dies führt langfristig zu einem suboptimalen Modell.
Ein weiteres häufiges Problem bei der Handhabung von MoE ist die zusätzliche Komplexität beim Entwurf des Gate-Netzwerks. Das Gate-Netzwerk erfordert ausgefeilte Techniken, um sicherzustellen, dass Experten ordnungsgemäß ausgewählt werden, andernfalls funktioniert die MoE möglicherweise nicht wie erwartet und verursacht unnötigen Overhead.
Grouped Experts (MoGE): Adressierung der Herausforderungen von MoE
Huaweis Mixture of Grouped Experts (MoGE)-Architektur bietet eine verfeinerte Alternative zu traditionellen MoE, indem sie sich auf Lastausgleich und effiziente parallele Ausführung konzentriert. Die Methode umfasst das strategische Gruppieren von Experten, was den Routing-Prozess von Eingabedaten verändert und zu einer gleichmäßigeren Workload-Verteilung führt.
Durch das Gruppieren der Experten während der Auswahl stellt MoGE sicher, dass jede Expertengruppe eine ausgewogenere Workload erhält. Anstatt jede Eingabe unabhängig voneinander zu routen, leitet das Gate-Netzwerk nun Eingabegruppen an Expertengruppen weiter. Dieser Ansatz fördert eine gerechtere Verteilung der Rechenlast.
Der Gruppierungsmechanismus hilft auch, die Auswirkungen von Datenverzerrungen zu mildern. Indem sichergestellt wird, dass alle Experten innerhalb einer Gruppe mit einem vielfältigen Satz von Eingaben trainiert werden, reduziert MoGE das Risiko von Unterrepräsentation und Untertraining. Darüber hinaus ermöglicht das Gruppieren von Experten eine bessere Ressourcennutzung. Da jede Gruppe eine konsistentere Workload bearbeitet, wird es einfacher, Rechenressourcen effizient zuzuweisen, was zu einer besseren Gesamtleistung führt.
Das Endergebnis ist ein besserer Experten-Lastausgleich und eine effizientere Ausführung sowohl für Modelltraining als auch für Inferenz. Dies führt zu schnelleren Trainingszeiten, geringeren Rechenkosten und einer verbesserten Gesamtleistung.
Die Ascend NPU: Hardwarebeschleunigung für KI
Die Ascend NPU (Neural Processing Unit) spielt eine Schlüsselrolle in Huaweis KI-Strategie. Diese Prozessoren sind speziell dafür ausgelegt, KI-Aufgaben zu beschleunigen, einschließlich Modelltraining und Inferenz. Sie bieten eine Vielzahl von Funktionen, die für Deep-Learning-Workloads optimiert sind, wie z. B. hohe Speicherbandbreite, spezialisierte Verarbeitungseinheiten für Matrixmultiplikation und Kommunikationsschnittstellen mit geringer Latenz. Darüber hinaus unterstützen Huaweis Ascend NPUs eine Reihe von Datentypen und Präzisionsstufen, was eine feinkörnige Kontrolle über Leistung und Genauigkeit ermöglicht.
Die synergetische Kombination von MoGE und Ascend NPU schafft eine leistungsstarke Plattform für KI-Innovationen. MoGE optimiert die Softwareseite, indem es den Lastausgleich und die parallele Ausführung verbessert, während Ascend NPU die Hardwarebeschleunigung bietet, die erforderlich ist, um diese Vorteile zu realisieren. Dieser integrierte Ansatz ermöglicht es Huawei, die Grenzen der KI-Leistung und -Effizienz zu verschieben.
Die Ascend NPU zeichnet sich durch eine hohe Rechenleistung und Energieeffizienz aus. Diese Funktionen sind entscheidend für den Einsatz von KI-Modellen in einer Vielzahl von Umgebungen, von leistungsstarken Cloud-Servern bis hin zu Edge-Geräten mit begrenztem Energiebudget.
Benchmarks und Leistungskennzahlen
Huaweis Benchmark-Ergebnisse demonstrieren die Effektivität der MoGE-Architektur und der Ascend NPU. Durch den Vergleich von Pangu mit führenden KI-Modellen wie DeepSeek-V3, Qwen2.5-72B und Llama-405B zeigte Huawei, dass seine Technologie auf einer Vielzahl von Aufgaben eine State-of-the-Art-Leistung erzielt.
Pangus Erfolg auf allgemeinen englischen und chinesischen Benchmarks unterstreicht seine Vielseitigkeit und Anpassungsfähigkeit. Die Kompetenz des Modells im Langkontexttraining ist besonders bemerkenswert, da es Fähigkeiten im Umgang mit realen Daten widerspiegelt. Darüber hinaus unterstreicht Pangus starke Leistung bei Denkaufgaben seine Fähigkeit, komplexe Beziehungen zu verstehen und zu verarbeiten.
Diese Benchmarks sind nicht nur akademische Übungen, sie liefern konkrete Beweise für die technologischen Fortschritte, die Huawei erzielt hat. Sie unterstützen den Anspruch des Unternehmens, an der Spitze der KI-Innovation zu stehen, und stärken seine Position auf dem globalen Markt.
Auswirkungen auf Huaweis Zukunft
Huaweis Fortschritte beim KI-Modelltraining haben entscheidende Auswirkungen auf die strategische Vision des Unternehmens, technologische Souveränität im Bereich der künstlichen Intelligenz zu etablieren. Da das Unternehmen inmitten des anhaltenden Handelskonflikts seine Abhängigkeit von US-Technologien minimiert, dienen die Ascend-Chips als Alternativen zu Prozessoren von Nvidia und AMD. Der Pangu Ultra, ein LLM mit 135 Milliarden Parametern für NPUs, unterstreicht die Effektivität der architektonischen und systemischen Straffung von Huawei, indem er die Fähigkeiten seiner hochmodernen Chips demonstriert.
Es wird erwartet, dass diese Bemühungen langfristig zur Wettbewerbsfähigkeit von Huawei beitragen werden, da das Unternehmen bestrebt ist, einen größeren Markt für KI zu bedienen, insbesondere in China. Durch die fortgesetzte Konzentration von Investitionen auf Forschung und Entwicklung hofft Huawei, sich als führendes Unternehmen im KI-Bereich zu etablieren und die aktuellen Marktbeschränkungen zu überwinden.
Zukünftige Forschung
Huaweis kontinuierliche Verbesserungen in der KI-Modellarchitektur durch System- und algorithmenbasierte Optimierungen sowie Hardwareentwicklungen wie der Ascend-Chip unterstreichen seine Bedeutung für die Führung der technologischen Kurve im Bereich der künstlichen Intelligenz. Während Benchmarks wie der Pangu beweisen, dass es sich um ein hochmodernes Modell handelt, gibt es noch viel Verbesserungspotenzial. Eine weitere Verfeinerung der MoGE-Architektur könnte es ermöglichen, größere und komplexere Berechnungen durchzuführen. Weitere Arbeiten zur Spezialisierung der Architektur der Ascend NPU könnten Deep-Learning-Prozesse weiter beschleunigen und Kosten senken. Zukünftige Untersuchungen werden die kontinuierlichen Bemühungen sehen, bessere KI-Modelle zu bauen und bestehende zu verbessern.