Ant: KI-Fortschritt mit China-Chips

Ants innovativer Ansatz beim Training von KI-Modellen

Die Ant Group, der von Jack Ma unterstützte Fintech-Gigant, hat einen bedeutenden Durchbruch in der künstlichen Intelligenz erzielt, indem er chinesische Halbleiter einsetzt. Dieser innovative Ansatz hat es dem Unternehmen ermöglicht, Techniken für das Training von KI-Modellen zu entwickeln, was zu einer bemerkenswerten Kostensenkung von 20 % geführt hat. Quellen, die mit der Angelegenheit vertraut sind, haben enthüllt, dass Ant einheimische Chips, darunter solche von seiner Tochtergesellschaft Alibaba Group Holding Ltd. und Huawei Technologies Co., verwendete, um Modelle mit dem Machine-Learning-Ansatz Mixture of Experts (MoE) zu trainieren.

Die von Ant erzielten Ergebnisse waren vergleichbar mit denen, die mit Chips von Nvidia Corp. erzielt wurden, wie dem H800, einem leistungsstarken Prozessor, dessen Export nach China durch die USA eingeschränkt ist. Während Ant weiterhin Nvidia für die KI-Entwicklung einsetzt, verlässt es sich für seine neuesten Modelle zunehmend auf Alternativen, darunter Advanced Micro Devices Inc. (AMD) und chinesische Chips.

Eintritt in das KI-Rennen: China vs. USA

Ants Vorstoß in die Entwicklung von KI-Modellen platziert das Unternehmen mitten in einem harten Wettbewerb zwischen chinesischen und US-amerikanischen Unternehmen. Dieses Rennen hat sich verschärft, seit DeepSeek das Potenzial des Trainings hochleistungsfähiger Modelle zu einem Bruchteil der Kosten aufgezeigt hat, die Branchenriesen wie OpenAI und Alphabet Inc.’s Google, die Milliarden investiert haben, entstehen. Ants Leistung unterstreicht die Entschlossenheit chinesischer Unternehmen, lokal bezogene Alternativen zu den fortschrittlichsten Nvidia-Halbleitern zu nutzen.

Das Versprechen kosteneffizienter KI-Inferenz

Das von Ant in diesem Monat veröffentlichte Forschungspapier hebt das Potenzial seiner Modelle hervor und behauptet in bestimmten Benchmarks eine überlegene Leistung im Vergleich zu Meta Platforms Inc., obwohl diese Behauptungen von Bloomberg News nicht unabhängig verifiziert wurden. Sollten Ants Plattformen jedoch wie angekündigt funktionieren, könnten sie einen bedeutenden Fortschritt in der chinesischen Entwicklung künstlicher Intelligenz darstellen. Dies liegt vor allem an ihrer Fähigkeit, die Kosten für die Inferenz, also den Prozess der Unterstützung von KI-Diensten, drastisch zu senken.

Mixture of Experts: Ein Game-Changer in der KI

Da Unternehmen erhebliche Ressourcen in die KI investieren, haben MoE-Modelle als beliebter und effizienter Ansatz an Bedeutung gewonnen. Diese Technik, die von Unternehmen wie Google und dem in Hangzhou ansässigen Startup DeepSeek eingesetzt wird, beinhaltet die Aufteilung von Aufgaben in kleinere Datensätze. Dies ist vergleichbar mit einem Team von Spezialisten, die sich jeweils auf ein bestimmtes Segment einer Aufgabe konzentrieren und so den Gesamtprozess optimieren.

Überwindung des GPU-Engpasses

Traditionell war das Training von MoE-Modellen stark auf Hochleistungschips angewiesen, wie z. B. die Grafikprozessoren (GPUs) von Nvidia. Die unerschwinglichen Kosten dieser Chips waren für viele kleinere Unternehmen ein großes Hindernis und begrenzten die breite Akzeptanz von MoE-Modellen. Ant hat jedoch fleißig an Methoden gearbeitet, um Large Language Models (LLMs) effizienter zu trainieren und diese Einschränkung effektiv zu beseitigen. Der Titel ihres Forschungspapiers, der das Ziel setzt, ein Modell “ohne Premium-GPUs” zu skalieren, spiegelt dieses Ziel deutlich wider.

Herausforderung der Dominanz von Nvidia

Ants Ansatz stellt die vorherrschende Strategie, die von Nvidias CEO Jensen Huang befürwortet wird, direkt in Frage. Huang hat immer wieder argumentiert, dass der Rechenbedarf weiter steigen wird, selbst wenn effizientere Modelle wie DeepSeeks R1 aufkommen. Er glaubt, dass Unternehmen bessere Chips benötigen werden, um höhere Einnahmen zu generieren, anstatt billigere, um die Kosten zu senken. Folglich hat Nvidia seinen Fokus auf den Bau großer GPUs mit verbesserten Rechenkernen, Transistoren und erhöhter Speicherkapazität beibehalten.

Quantifizierung der Kosteneinsparungen

Ant hat konkrete Zahlen vorgelegt, um die Kosteneffizienz seines optimierten Ansatzes zu demonstrieren. Das Unternehmen gab an, dass das Training von 1 Billion Token mit Hochleistungshardware etwa 6,35 Millionen Yuan (880.000 US-Dollar) kosten würde. Durch den Einsatz von Hardware mit geringeren Spezifikationen und seinen optimierten Techniken kann Ant diese Kosten jedoch auf 5,1 Millionen Yuan senken. Token stellen die Informationseinheiten dar, die ein Modell verarbeitet, um etwas über die Welt zu lernen und relevante Antworten auf Benutzeranfragen zu geben.

Nutzung von KI-Durchbrüchen für industrielle Lösungen

Ant plant, seine jüngsten Fortschritte bei Large Language Models, insbesondere Ling-Plus und Ling-Lite, zu nutzen, um industrielle KI-Lösungen für Sektoren wie das Gesundheitswesen und das Finanzwesen zu entwickeln. Diese Modelle sind darauf ausgelegt, spezifische Branchenbedürfnisse zu adressieren und maßgeschneiderte Lösungen anzubieten.

Erweiterung der KI-Anwendungen im Gesundheitswesen

Ants Engagement im Gesundheitswesen zeigt sich in der Integration der chinesischen Online-Plattform Haodf.com in seine KI-Dienste. Durch die Schaffung des KI-Arztassistenten will Ant das umfangreiche Netzwerk von Haodf mit 290.000 Ärzten unterstützen, indem es bei Aufgaben wie der Verwaltung von Krankenakten hilft. Diese Anwendung von KI hat das Potenzial, die Effizienz und Genauigkeit in der Gesundheitsversorgung erheblich zu verbessern.

KI-gestützte Unterstützung für den Alltag

Über das Gesundheitswesen hinaus hat Ant auch eine KI-‘Lebensassistenten’-App namens Zhixiaobao und einen KI-Finanzberatungsdienst namens Maxiaocai entwickelt. Diese Anwendungen demonstrieren Ants Bestreben, KI in verschiedene Aspekte des täglichen Lebens zu integrieren und Benutzern personalisierte und intelligente Unterstützung zu bieten.

Benchmarking-Leistung: Ling-Modelle vs. Wettbewerber

In seinem Forschungspapier behauptet Ant, dass das Ling-Lite-Modell eines von Metas Llama-Modellen in einem wichtigen Benchmark für das Verständnis der englischen Sprache übertroffen hat. Darüber hinaus zeigten sowohl Ling-Lite- als auch Ling-Plus-Modelle eine überlegene Leistung im Vergleich zu den Äquivalenten von DeepSeek in chinesischsprachigen Benchmarks. Dies unterstreicht Ants Wettbewerbsposition in der KI-Landschaft.

Wie Robin Yu, Chief Technology Officer des in Peking ansässigen KI-Lösungsanbieters Shengshang Tech Co., treffend feststellte: “Wenn man einen Angriffspunkt findet, um den weltbesten Kung-Fu-Meister zu schlagen, kann man immer noch sagen, dass man ihn geschlagen hat, weshalb die Anwendung in der realen Welt wichtig ist.”

Open-Sourcing für Zusammenarbeit und Innovation

Ant hat die Ling-Modelle als Open Source zur Verfügung gestellt, um die Zusammenarbeit und Innovation innerhalb der KI-Community zu fördern. Ling-Lite umfasst 16,8 Milliarden Parameter, das sind einstellbare Einstellungen, die die Leistung des Modells steuern. Ling-Plus hingegen verfügt über deutlich größere 290 Milliarden Parameter und gehört damit zu den größeren Sprachmodellen. Um einen Kontext zu schaffen, schätzen Experten, dass GPT-4.5 von ChatGPT etwa 1,8 Billionen Parameter hat, während DeepSeek-R1 671 Milliarden hat.

Bewältigung von Herausforderungen beim Modelltraining

Ants Weg bei der Entwicklung dieser Modelle war nicht ohne Herausforderungen. Das Unternehmen stieß in bestimmten Bereichen des Trainings auf Schwierigkeiten, insbesondere in Bezug auf die Stabilität. Selbst geringfügige Änderungen an der Hardware oder der Struktur des Modells konnten zu Problemen führen, einschließlich Schwankungen in der Fehlerrate der Modelle. Dies unterstreicht die Komplexität und Sensibilität, die mit dem Training fortschrittlicher KI-Modelle verbunden sind.

Einsatz in der realen Welt im Gesundheitswesen

Ants Engagement für praktische Anwendungen wird durch den Einsatz von auf das Gesundheitswesen ausgerichteten Large-Model-Maschinen weiter demonstriert. Diese Maschinen werden derzeit von sieben Krankenhäusern und Gesundheitsdienstleistern in Großstädten wie Peking und Shanghai eingesetzt. Das Large Model nutzt DeepSeek R1, Alibabas Qwen und Ants eigenes LLM, um medizinische Beratungsdienste anzubieten.

KI-Agenten für verbesserte Gesundheitsdienste

Zusätzlich zu den Large-Model-Maschinen hat Ant zwei medizinische KI-Agenten eingeführt: Angel und Yibaoer. Angel hat bereits über 1.000 medizinische Einrichtungen bedient, während Yibaoer Unterstützung für Krankenversicherungsdienste bietet. Darüber hinaus hat Ant im September des vergangenen Jahres den KI-Healthcare-Manager-Service in seiner Alipay-Zahlungs-App gestartet und damit seine Reichweite im Gesundheitssektor weiter ausgebaut. Diese Initiativen zeigen Ants Engagement, KI zu nutzen, um die Gesundheitsversorgung zu transformieren und zu verbessern.