Ant Groups Weg zu heimischen KI-Chips

Hohe Einsätze im globalen KI-Hardware-Rennen

Die Landschaft der Entwicklung künstlicher Intelligenz wird zunehmend nicht nur durch algorithmische Durchbrüche definiert, sondern auch durch den Zugang zur hochentwickelten Hardware, die zum Trainieren und Ausführen massiver Modelle erforderlich ist. Im Zentrum dieser Hardware-Gleichung steht die Grafikverarbeitungseinheit (GPU), eine Komponente, die ursprünglich für das Rendern von Bildern entwickelt wurde, aber heute für die Anforderungen der Parallelverarbeitung von KI unverzichtbar ist. Jahrelang war die Nvidia Corporation der unangefochtene Titan in diesem Bereich, ihre fortschrittlichen GPUs wurden zum Goldstandard und trieben Innovationen im Silicon Valley und darüber hinaus voran. Diese Dominanz hat das Unternehmen und seine Kunden jedoch direkt ins Fadenkreuz geopolitischer Spannungen gebracht.

Die von Washington verhängten strengen Exportkontrollen, die darauf abzielen, Chinas Zugang zu modernster Halbleitertechnologie einzudämmen, haben den Markt grundlegend verändert. Diese Beschränkungen zielen speziell auf Hochleistungs-GPUs ab, wie sie von Nvidia hergestellt werden, die als kritisch für fortgeschrittene KI-Anwendungen gelten, einschließlich solcher mit potenziellem militärischem Nutzen. Die unmittelbare Folge war ein Gerangel innerhalb des aufstrebenden Technologiesektors Chinas. Unternehmen, die stark in KI investiert haben, von etablierten Giganten bis hin zu ehrgeizigen Start-ups, sahen sich plötzlich der Aussicht gegenüber, von den wesentlichen Werkzeugen abgeschnitten zu werden, die die nächste Welle des technologischen Fortschritts antreiben. Dies schuf einen dringenden Imperativ: Finden Sie tragfähige Alternativen oder riskieren Sie, in einem global wettbewerbsintensiven Feld zurückzufallen. Die Herausforderung bestand nicht nur darin, einen Chip durch einen anderen zu ersetzen; es ging darum, ein komplexes Netz aus Leistungsunterschieden, Softwarekompatibilitätsproblemen und der schieren Skalierung zu navigieren, die für das Training von Modellen mit Hunderten von Milliarden oder sogar Billionen von Parametern erforderlich ist.

Ant Group steuert Kurs auf Rechenunabhängigkeit

Vor diesem Hintergrund der Unsicherheit in der Lieferkette und der eskalierenden technologischen Rivalität hat Ant Group, der Fintech-Gigant, der mit der Alibaba Group Holding verbunden ist, einen bedeutenden Schritt in Richtung größerer rechnerischer Selbstständigkeit signalisiert. Jüngste Enthüllungen, detailliert in einem Forschungspapier des Ling-Teams des Unternehmens – der Abteilung, die seine Initiativen für große Sprachmodelle (LLM) vorantreibt – deuten auf eine erfolgreiche Abweichung vom Nvidia-zentrierten Pfad hin. Der Kern dieser Leistung liegt in ihrer Fähigkeit, ein hochentwickeltes KI-Modell effektiv mit im Inland hergestellten GPUs zu trainieren.

Das fragliche Modell mit dem Namen Ling-Plus-Base ist kein Leichtgewicht. Es wurde unter Verwendung einer Mixture-of-Experts (MoE)-Architektur entwickelt, einer Technik, die aufgrund ihrer Effizienz bei der Skalierung von LLMs an Bedeutung gewinnt. Mit beachtlichen 300 Milliarden Parametern operiert Ling-Plus-Base in einer Liga, die mit anderen prominenten globalen Modellen vergleichbar ist. Der entscheidende Unterschied ist jedoch die Hardware, die sein Training untermauert. Laut den Forschungsergebnissen kann dieses leistungsstarke Modell auf dem, was das Team als ‘Geräte mit geringerer Leistung’ beschreibt, zur Reife gebracht werden. Diese sorgfältig gewählte Formulierung weist direkt auf die Nutzung von Verarbeitungseinheiten hin, die außerhalb des Geltungsbereichs der US-Exportbeschränkungen liegen, was stark auf die Verwendung von in China entwickelten und hergestellten Chips hindeutet.

Diese Entwicklung ist mehr als nur eine technische Umgehungslösung; sie stellt einen potenziellen strategischen Schwenk dar. Indem Ant Group die Fähigkeit demonstriert, hochmoderne Modelle zu trainieren, ohne sich ausschließlich auf die hochwertigsten, eingeschränkten ausländischen Hardware zu verlassen, mindert das Unternehmen nicht nur Risiken in der Lieferkette, sondern erschließt potenziell auch erhebliche Kosteneffizienzen.

Die wirtschaftliche Gleichung: Senkung der Trainingskosten

Eine der überzeugendsten Zahlen, die aus der Forschung des Ling-Teams hervorgehen, ist eine gemeldete 20-prozentige Reduzierung der Rechenkosten während der kritischen Vortrainingsphase des Ling-Plus-Base-Modells. Das Vortraining ist notorisch ressourcenintensiv und beinhaltet das Füttern des Modells mit riesigen Datensätzen, um Sprachmuster, Kontext und Wissen zu lernen. Es macht einen großen Teil der Gesamtkosten aus, die mit der Entwicklung grundlegender LLMs verbunden sind. Eine Kostenreduzierung um ein Fünftel in dieser Phase führt daher zu erheblichen Einsparungen und setzt potenziell Kapital für weitere Forschung, Entwicklung oder den Einsatz im großen Maßstab frei.

Wie wird diese Kosteneinsparung erreicht? Obwohl das Papier die genaue Kostenaufschlüsselung nicht detailliert, tragen wahrscheinlich mehrere Faktoren dazu bei:

  1. Hardware-Beschaffung: Im Inland hergestellte GPUs, auch wenn sie einzeln weniger leistungsstark sind als Nvidias Spitzenangebote, können zu einem niedrigeren Kaufpreis erhältlich sein oder günstigere Mengenrabatte auf dem chinesischen Markt bieten, insbesondere angesichts des begrenzten Angebots an High-End-Nvidia-Chips.
  2. Energieeffizienz: Obwohl nicht explizit angegeben, könnte die Optimierung des Trainings für potenziell weniger energiehungrige (wenn auch vielleicht weniger leistungsstarke pro Einheit) heimische Chips zu niedrigeren Betriebskosten für Energie beitragen, ein wichtiger Faktor beim Betrieb großer Rechenzentren.
  3. Algorithmische und architektonische Optimierung: Die Verwendung der MoE-Architektur selbst ist entscheidend. MoE-Modelle aktivieren nur bestimmte ‘Experten’-Unternetzwerke für eine gegebene Eingabe, anstatt das gesamte Modell wie dichte Architekturen zu beanspruchen. Diese inhärente Sparsamkeit kann die Rechenlast sowohl während des Trainings als auch während der Inferenz erheblich reduzieren, wodurch es möglich wird, auch mit weniger roher Rechenleistung pro Chip gute Ergebnisse zu erzielen. Ants Erfolg deutet auf eine ausgefeilte Software- und Algorithmusabstimmung hin, um die Effizienz der verfügbaren heimischen Hardware zu maximieren.

Diese Kostenreduzierung ist nicht nur ein buchhalterischer Vorteil; sie senkt die Eintrittsbarriere für die Entwicklung großer Modelle und könnte das Tempo der KI-Innovation innerhalb des Unternehmens und potenziell im breiteren chinesischen Tech-Ökosystem beschleunigen, wenn sich die Methoden als replizierbar erweisen.

Leistungsparität: Überbrückung der Hardware-Lücke?

Kosteneinsparungen sind attraktiv, bedeuten aber wenig, wenn das resultierende KI-Modell deutlich schlechter abschneidet. Ants Ling-Team geht direkt darauf ein und behauptet, dass Ling-Plus-Base eine Leistung erzielt, die mit anderen angesehenen Modellen auf dem Gebiet vergleichbar ist. Insbesondere verglichen sie ihre Schöpfung mit Modellen wie Qwen2.5-72B-Instruct (entwickelt von der Muttergesellschaft Alibaba) und DeepSeek-V2.5-1210-Chat, einem weiteren prominenten chinesischen LLM.

Die Behauptung einer ‘vergleichbaren Leistung’ trotz der Verwendung von ‘Geräten mit geringerer Leistung’ ist bemerkenswert. Sie deutet darauf hin, dass Ant potenziell effektive Wege gefunden hat, um jegliches rohe Rechenleistungsdefizit auszugleichen durch:

  • Fortgeschrittene Modellarchitektur: Das MoE-Design ist hier maßgeblich und verteilt die Arbeitslast effizient.
  • Software-Optimierung: Die Anpassung des Trainingssoftware-Stacks (wie Parallelisierungs-Frameworks und numerische Bibliotheken) speziell an die Architektur der verwendeten heimischen GPUs ist entscheidend. Dies erfordert oft erheblichen technischen Aufwand.
  • Datenkuration und Trainingstechniken: Ausgefeilte Methoden zur Auswahl von Trainingsdaten und zur Verfeinerung des Trainingsprozesses selbst können die endgültige Modellqualität erheblich beeinflussen und manchmal Hardwarebeschränkungen kompensieren.

Es ist wichtig, Leistungsansprüche differenziert zu betrachten. ‘Vergleichbar’ kann eine Reihe von Ergebnissen über verschiedene Benchmarks hinweg umfassen (z. B. Sprachverständnis, logisches Denken, Generierung, Codierung). Ohne Zugang zu detaillierten Benchmark-Ergebnissen über mehrere standardisierte Tests hinweg bleibt ein präziser Vergleich schwierig. Die Behauptung selbst signalisiert jedoch Ants Zuversicht, dass ihr Ansatz keinen lähmenden Kompromiss zwischen Kosten/Zugänglichkeit und Fähigkeit erfordert. Er zeigt einen Weg auf, um auch innerhalb der durch Hardwarebeschränkungen auferlegten Zwänge wettbewerbsfähig zu bleiben.

Die Forscher selbst hoben die breiteren Implikationen hervor: ‘Diese Ergebnisse demonstrieren die Machbarkeit des Trainings hochmoderner, groß angelegter MoE-Modelle auf weniger leistungsfähiger Hardware, was einen flexibleren und kostengünstigeren Ansatz für die Entwicklung grundlegender Modelle in Bezug auf die Auswahl von Rechenressourcen ermöglicht.’ Dies deutet auf eine Art Demokratisierung hin, die es ermöglicht, Spitzen-KI-Entwicklung auch dann fortzusetzen, wenn der Zugang zur absoluten Spitze der Rechenleistung begrenzt ist.

Den Vorteil von Mixture-of-Experts (MoE) verstehen

Die Mixture-of-Experts-Architektur ist zentral für den berichteten Erfolg von Ant Group. Sie stellt eine Abkehr von traditionellen ‘dichten’ neuronalen Netzwerkmodellen dar, bei denen jede Eingabe jeden Parameter aktiviert. In einem MoE-Modell:

  • Das Modell besteht aus zahlreichen kleineren, spezialisierten ‘Experten’-Netzwerken.
  • Ein ‘Gating-Netzwerk’- oder ‘Router’-Mechanismus lernt, eingehende Daten (Tokens im Fall von LLMs) an den/die relevantesten Experten zur Verarbeitung weiterzuleiten.
  • Nur der/die ausgewählte(n) Experte(n) – oft nur einer oder zwei von potenziell Hunderten – führen Berechnungen für dieses spezifische Datenelement durch.

Dieser Ansatz bietet mehrere entscheidende Vorteile, die im Kontext von Hardwarebeschränkungen besonders relevant sind:

  1. Skalierbarkeit: MoE ermöglicht es Modellen, auf enorme Parameterzahlen anzuwachsen (Billionen werden machbar), ohne dass die Rechenkosten für die Verarbeitung jedes Eingabe-Tokens während der Inferenz oder sogar während der Trainingsschritte proportional ansteigen. Dies liegt daran, dass zu jedem Zeitpunkt nur ein Bruchteil der Gesamtparameter aktiv ist.
  2. Trainingseffizienz: Obwohl das Training von MoE-Modellen seine eigenen Komplexitäten hat (wie die Lastverteilung auf die Experten), kann die reduzierte Berechnung pro Token zu schnelleren Trainingszeiten führen oder, wie Ant demonstriert, die Fähigkeit ermöglichen, effektiv auf weniger leistungsfähiger Hardware innerhalb angemessener Zeitrahmen zu trainieren.
  3. Spezialisierung: Jeder Experte kann sich potenziell auf verschiedene Arten von Daten, Aufgaben oder Wissensdomänen spezialisieren, was potenziell zu qualitativ hochwertigeren Ergebnissen in bestimmten Bereichen führt.

Führende KI-Labore weltweit haben MoE übernommen, darunter Google (GShard, Switch Transformer), Mistral AI (Mixtral-Modelle) und innerhalb Chinas Unternehmen wie DeepSeek und Alibaba (dessen Qwen-Modelle MoE-Elemente enthalten). Ants Ling-Plus-Base positioniert es fest in dieser Avantgarde und nutzt architektonische Innovationen, um die Hardware-Realitäten zu meistern.

Das heimische Hardware-Ökosystem: Die Nvidia-Lücke füllen

Während das Forschungspapier von Ant darauf verzichtete, die verwendete Hardware explizit zu nennen, deuteten nachfolgende Berichte, insbesondere von Bloomberg, darauf hin, dass die Leistung im Inland entwickelte Chips umfasste. Dazu gehören Prozessoren, die potenziell von Ants verbundenem Unternehmen Alibaba stammen, das über eine eigene Chip-Design-Einheit T-Head verfügt (die CPUs wie den Yitian 710 herstellt und zuvor KI-Beschleuniger erforschte), und entscheidend, Huawei Technologies.

Huawei hat trotz intensiver US-Sanktionen aggressiv seine Ascend-Serie von KI-Beschleunigern (wie den Ascend 910B) als direkte Alternative zu Nvidias Angeboten auf dem chinesischen Markt entwickelt. Diese Chips werden Berichten zufolge von großen chinesischen Technologieunternehmen übernommen. Die Fähigkeit von Ant Group, solche Hardware effektiv für ein so großes Modell wie Ling-Plus-Base zu nutzen, würde eine bedeutende Bestätigung dieser heimischen Alternativen darstellen.

Es ist wichtig anzumerken, dass Ant Group Nvidia nicht vollständig aufgegeben hat. Die Berichte deuten darauf hin, dass Nvidia-Chips Teil von Ants KI-Entwicklungswerkzeugkasten bleiben, wahrscheinlich für Aufgaben verwendet werden, bei denen ihre spezifischen Leistungsmerkmale oder das ausgereifte Software-Ökosystem (wie CUDA) Vorteile bieten, oder für Altsysteme. Der Schritt zielt nicht unbedingt auf einen vollständigen Ersatz über Nacht ab, sondern auf den Aufbau tragfähiger, paralleler Pfade, die strategische Anfälligkeit reduzieren und Kosten kontrollieren. Dieser hybride Ansatz ermöglicht es dem Unternehmen, die besten verfügbaren Werkzeuge zu nutzen und gleichzeitig Unabhängigkeit zu kultivieren. Ant Group selbst wahrte ein gewisses Maß an unternehmerischer Diskretion und lehnte es ab, sich offiziell zu den spezifisch verwendeten Chips zu äußern.

Ein breiterer Trend: Chinas kollektiver Vorstoß zur KI-Autarkie

Die Initiative von Ant Group findet nicht isoliert statt. Sie spiegelt einen breiteren strategischen Vorstoß im gesamten chinesischen Technologiesektor wider, um Innovationen rund um die durch US-Exportkontrollen auferlegten Beschränkungen zu entwickeln. Der ‘Tech-Krieg’ hat Bemühungen katalysiert, eine größere Autarkie bei kritischen Technologien, insbesondere Halbleitern und KI, zu erreichen.

Andere wichtige Akteure verfolgen ähnliche Ziele:

  • ByteDance: Die Muttergesellschaft von TikTok arbeitet Berichten zufolge ebenfalls daran, alternative Chips, einschließlich heimischer Optionen, für ihre KI-Ambitionen zu sichern und zu nutzen, die Empfehlungsalgorithmen, generative KI und mehr umfassen.
  • DeepSeek: Dieses KI-Start-up, bekannt für seine leistungsstarken Open-Source-Modelle, erwähnt explizit die Trainingseffizienz und hat Modelle unter Verwendung der MoE-Architektur entwickelt, was mit Strategien übereinstimmt, die weniger davon abhängig sind, riesige Flotten nur der leistungsstärksten GPUs zu besitzen.
  • Baidu, Tencent und andere: Alle großen chinesischen Cloud- und Technologieunternehmen investieren stark in KI und prüfen unweigerlich Strategien zur Hardware-Diversifizierung, einschließlich der Optimierung für heimische Chips und potenziell der Entwicklung eigener kundenspezifischer Siliziumchips.

Die kollektive Botschaft ist klar: Während der Zugang zu Nvidias Spitzenprodukten wünschenswert bleibt, entwickelt und validiert die chinesische Technologieindustrie aktiv alternative Lösungen. Dies beinhaltet einen vielschichtigen Ansatz: die Übernahme effizienter Modellarchitekturen wie MoE, intensive Softwareoptimierung für verschiedene Hardware-Backends und die Unterstützung der Entwicklung und Einführung von im Inland hergestellten Chips.

Jenseits von Sprachmodellen: Ants KI-Expansion im Gesundheitswesen

Die KI-Bestrebungen von Ant Group gehen über grundlegende LLMs hinaus. Gleichzeitig mit den Nachrichten über seine Trainingseffizienzen enthüllte das Unternehmen bedeutende Upgrades seiner Suite von KI-Lösungen, die auf den Gesundheitssektor zugeschnitten sind. Diese Initiative nutzt ein eigenständiges, selbst entwickeltes, auf das Gesundheitswesen ausgerichtetes KI-Modell.

Die verbesserten Lösungen verfügen über multimodale Fähigkeiten (Verarbeitung verschiedener Datentypen wie Text, Bilder und potenziell andere medizinische Daten) und ausgefeilte medizinische Schlussfolgerungen. Diese sind in das integriert, was Ant als ‘All-in-One-Maschinen’ beschreibt, vermutlich Geräte oder Plattformen, die für klinische Umgebungen oder das Gesundheitsmanagement konzipiert sind.

Obwohl scheinbar getrennt von den Nachrichten zum Ling-Plus-Base LLM, gibt es eine potenzielle zugrunde liegende Verbindung. Die Fähigkeit, leistungsstarke KI-Modelle kostengünstiger zu trainieren, potenziell unter Verwendung einer Mischung aus Hardware einschließlich heimischer Optionen, könnte die wirtschaftliche Tragfähigkeit der Entwicklung und Bereitstellung spezialisierter Modelle für Sektoren wie das Gesundheitswesen untermauern. Die Senkung der Grundkosten der KI-Entwicklung ermöglicht es, Ressourcen in domänenspezifische Anwendungen zu lenken und potenziell die Einführung praktischer KI-Werkzeuge in kritischen Branchen zu beschleunigen. Dieser Vorstoß im Gesundheitswesen unterstreicht Ants Ambition, seine KI-Expertise breit anzuwenden und über seine Fintech-Wurzeln hinauszugehen.

Implikationen für die Zukunft: Eine Gabelung im KI-Weg?

Das erfolgreiche Training eines groß angelegten MoE-Modells durch Ant Group unter Verwendung von Nicht-Nvidia-, wahrscheinlich heimischen, GPUs hat erhebliche Auswirkungen:

  • Validierung für heimische Chips: Es dient als entscheidender Beweis für die Rentabilität von in China entwickelten KI-Beschleunigern wie Huaweis Ascend und könnte deren Akzeptanz in China fördern.
  • Wettbewerbslandschaft: Es zeigt, dass chinesische Unternehmen trotz Beschränkungen in der Spitzen-KI-Entwicklung wettbewerbsfähig bleiben können, indem sie architektonische und Software-Innovationen nutzen.
  • Kostendynamik: Die Kostenreduzierung um 20% unterstreicht einen potenziellen Wettbewerbsvorteil für Unternehmen, die alternative Hardware effektiv nutzen können, was potenziell die globale KI-Preisgestaltung und Zugänglichkeit beeinflusst.
  • Nvidias Position: Obwohl Nvidia weltweit dominant bleibt, unterstreicht dieser Trend die Herausforderungen, denen sich das Unternehmen auf dem bedeutenden chinesischen Markt aufgrund von Vorschriften und dem Aufstieg lokaler Wettbewerber gegenübersieht. Es könnte Nvidias Entwicklung von exportkonformen Chips, die auf China zugeschnitten sind, beschleunigen, validiert aber auch den alternativen Weg.
  • Technologische Bifurkation?: Langfristig könnte eine fortgesetzte Divergenz beim Hardwarezugang und der Softwareoptimierung zu teilweise unterschiedlichen KI-Ökosystemen führen, wobei Modelle und Werkzeuge für unterschiedliches zugrunde liegendes Silizium optimiert sind.

Die Reise, die das Ling-Team von Ant Group unternommen hat, ist sinnbildlich für den Einfallsreichtum, der durch geopolitische Zwänge angeregt wird. Durch die geschickte Kombination fortschrittlicher Modellarchitekturen wie MoE mit der Bereitschaft zur Optimierung und Nutzung verfügbarer heimischer Hardware haben sie einen Kurs abgesteckt, der kontinuierlichen Fortschritt im kritischen Bereich der künstlichen Intelligenz sicherstellt und potenziell die Kostenstrukturen und strategischen Abhängigkeiten neu gestaltet, die die Branche definieren. Es ist ein Beweis für die Idee, dass Innovation oft unter Druck am lebhaftesten gedeiht.