KI-Chips & Infrastruktur neu denken: Post-DeepSeek

Die rasante Innovation im Bereich der KI-Technologie, die sich in den Fortschritten von DeepSeek manifestiert, erfordert eine grundlegende Neubewertung der Art und Weise, wie wir Rechenzentren, Chips und Systeme aufbauen, um die notwendige Rechenleistung bereitzustellen. Die technischen Innovationen von DeepSeek haben die KI-Rechenkosten erheblich gesenkt und eine breitere Diskussion über die Zukunft der KI-Infrastruktur angestoßen.

DeepSeek hat die Grenzen der KI-Technologie zwar nicht radikal erweitert, sein Einfluss auf den KI-Markt ist jedoch tiefgreifend. Technologien wie Mixture of Experts (MoE), Multi-Layer Attention (MLA) und Multi-Token Prediction (MTP) haben neben DeepSeek an Bedeutung gewonnen. Obwohl nicht alle diese Technologien von DeepSeek entwickelt wurden, hat ihre erfolgreiche Implementierung eine breite Akzeptanz gefördert. Insbesondere MLA ist zu einem Schwerpunkt der Diskussion auf verschiedenen Plattformen geworden, von Edge-Geräten bis hin zu Cloud Computing.

MLA und die Herausforderung der Algorithmusinnovation

Elad Raz, CEO von NextSilicon, wies kürzlich darauf hin, dass MLA zwar die Speichereffizienz verbessert, aber auch die Arbeitsbelastung für Entwickler erhöhen und die Anwendung von KI in Produktionsumgebungen erschweren kann. GPU-Benutzer müssen möglicherweise eine ‘Hand-Code’-Optimierung für MLA durchführen. Dieses Beispiel unterstreicht die Notwendigkeit, die Implementierung von KI-Chips und Infrastrukturarchitekturen in der Post-DeepSeek-Ära zu überdenken.

Um die Bedeutung von MLA zu verstehen, ist es wichtig, die grundlegenden Konzepte von Large Language Models (LLMs) zu verstehen. Bei der Generierung von Antworten auf Benutzereingaben stützen sich LLMs stark auf KV-Vektoren – Schlüssel und Werte –, die es dem Modell ermöglichen, sich auf relevante Daten zu konzentrieren. In Aufmerksamkeitsmechanismen vergleicht das Modell neue Anfragen mit Schlüsseln, um die relevantesten Inhalte zu ermitteln.

Elad Raz verwendet eine Analogie eines Buches, wobei der Schlüssel wie ‘die Kapitelüberschriften eines Buches ist, die angeben, worum es in jedem Teil geht, wobei der Wert detailliertere Zusammenfassungen unter diesen Überschriften sind. Wenn also ein Benutzer eine Anfrage eingibt, fragt er nach einem Suchbegriff, um eine Antwort zu generieren. Er fragt: ‘Unter dieser Handlung, welches Kapitel ist am relevantesten?’’

MLA komprimiert diese Kapitelüberschriften (Schlüssel) und Zusammenfassungen (Werte), beschleunigt den Prozess des Findens von Antworten und steigert die Effizienz. Letztendlich hilft MLA DeepSeek, die Speichernutzung um 5-13 % zu reduzieren. Detailliertere Informationen finden Sie im offiziellen Papier von DeepSeek. Auf der Entwicklerkonferenz von MediaTek wurde sogar die Unterstützung von MLA in ihren Dimensity-Mobilchips erörtert, was den umfassenden Einfluss von DeepSeek unterstreicht.

Technologien wie MLA stellen typische algorithmische Innovationen im KI-Zeitalter dar. Die rasante Entwicklung der KI-Technologie führt jedoch zu einem ständigen Strom von Innovationen, was wiederum neue Herausforderungen schafft, insbesondere wenn diese Innovationen auf bestimmte Plattformen zugeschnitten sind. Im Fall von MLA benötigen Nicht-NVIDIA-GPU-Benutzer zusätzlichen manuellen Code, um die Technologie zu nutzen.

Während die Technologien von DeepSeek die Innovation und den Wert des KI-Zeitalters demonstrieren, müssen sich Hardware und Software an diese Innovationen anpassen. Laut Elad Raz sollte eine solche Anpassung die Komplexität für Entwickler und Produktionsumgebungen minimieren. Andernfalls werden die Kosten jeder Innovation unerschwinglich hoch.

Die Frage ist dann: ‘Was passiert, wenn sich die nächste algorithmische Innovation nicht gut und einfach in bestehende Architekturen übersetzen lässt?’

Der Konflikt zwischen Chipdesign und Algorithmusinnovation

In den letzten Jahren haben KI-Chiphersteller immer wieder berichtet, dass die Entwicklung großer KI-Chips mindestens 1-2 Jahre dauert. Dies bedeutet, dass das Chipdesign lange vor der Markteinführung eines Chips beginnen muss. Angesichts der rasanten Fortschritte in der KI-Technologie muss das KI-Chipdesign zukunftsorientiert sein. Die alleinige Konzentration auf aktuelle Bedürfnisse führt zu veralteten KI-Chips, die sich nicht an die neuesten Anwendungsinnovationen anpassen können.

Die Innovation von KI-Anwendungsalgorithmen erfolgt mittlerweile wöchentlich. Wie in früheren Artikeln erwähnt, sinkt die für KI-Modelle erforderliche Rechenleistung, um die gleichen Fähigkeiten zu erzielen, jährlich um das 4- bis 10-fache. Die Inferenzkosten von KI-Modellen, die eine ähnliche Qualität wie GPT-3 erreichen, sind in den letzten drei Jahren um das 1200-fache gesunken. Derzeit können Modelle mit 2 Milliarden Parametern das gleiche Niveau erreichen wie der GPT-3-Parameter von 170 Milliarden von gestern. Diese rasante Innovation in den oberen Schichten des KI-Technologie-Stacks stellt traditionelle Chiparchitekturplanung und -design vor erhebliche Herausforderungen.

Elad Raz ist der Ansicht, dass die Industrie Innovationen wie DeepSeek MLA als die Norm für KI-Technologie anerkennen muss. ‘Die nächste Generation von Computing muss nicht nur für die heutigen Arbeitslasten optimieren, sondern auch zukünftige Durchbrüche berücksichtigen.’ Diese Perspektive gilt nicht nur für die Chipindustrie, sondern für die gesamte mittlere bis untere Ebene der Infrastruktur des KI-Technologie-Stacks.

‘DeepSeek und andere Innovationen haben den rasanten Fortschritt der Algorithmusinnovation demonstriert’, sagte Elad Raz. ‘Forscher und Datenwissenschaftler benötigen vielseitigere und widerstandsfähigere Werkzeuge, um neue Erkenntnisse und Entdeckungen voranzutreiben. Der Markt benötigt intelligente, softwaredefinierte Hardware-Computing-Plattformen, die es Kunden ermöglichen, bestehende Beschleunigerlösungen ‘Drop-in’ zu ersetzen, während Entwickler ihre Arbeit problemlos portieren können.’

Um dieser Situation zu begegnen, muss die Industrie eine intelligentere, anpassungsfähigere und flexiblere Computing-Infrastruktur entwickeln.

Flexibilität und Effizienz sind oft widersprüchliche Ziele. CPUs sind hochflexibel, haben aber eine deutlich geringere parallele Recheneffizienz als GPUs. GPUs sind mit ihrer Programmierbarkeit möglicherweise weniger effizient als dedizierte KI-ASIC-Chips.

Elad Raz merkte an, dass NVIDIA erwartet, dass KI-Rechenzentrums-Racks bald 600 kW Strom verbrauchen werden. Zum Vergleich: 75 % der Standard-Unternehmensrechenzentren haben einen Spitzenstromverbrauch von nur 15-20 kW pro Rack. Unabhängig von den potenziellen Effizienzsteigerungen in der KI stellt dies eine erhebliche Herausforderung für Rechenzentren dar, die Computing-Infrastruktursysteme aufbauen.

Aus der Sicht von Elad Raz reichen aktuelle GPUs und KI-Beschleuniger möglicherweise nicht aus, um die potenziellen Anforderungen von KI und High-Performance Computing (HPC) zu erfüllen. ‘Wenn wir nicht grundlegend überdenken, wie wir die Recheneffizienz verbessern können, riskiert die Branche, an physische und wirtschaftliche Grenzen zu stoßen. Diese Mauer wird auch Nebenwirkungen haben und den Zugang zu KI und HPC für mehr Unternehmen einschränken, wodurch Innovationen auch bei Fortschritten in Algorithmen oder traditionellen GPU-Architekturen behindert werden.’

Empfehlungen und Anforderungen für die nächste Generation der Computing-Infrastruktur

Basierend auf diesen Beobachtungen schlug Elad Raz ‘vier Säulen’ für die Definition der nächsten Generation der Computing-Infrastruktur vor:

(1) Plug-and-Play-Austauschbarkeit: ‘Die Geschichte hat gezeigt, dass komplexe Architekturübergänge, wie die Migration von CPU zu GPU, Jahrzehnte dauern können, um vollständig implementiert zu werden. Daher sollten Computing-Architekturen der nächsten Generation eine reibungslose Migration unterstützen.’ Für ‘Plug-and-Play’-Austauschbarkeit schlägt Elad Raz vor, dass neue Computing-Architekturen aus den x86- und Arm-Ökosystemen lernen und durch Abwärtskompatibilität eine breitere Akzeptanz erreichen sollten.

Moderne Designs sollten es auch vermeiden, dass Entwickler große Mengen an Code neu schreiben oder Abhängigkeiten von bestimmten Anbietern schaffen müssen. ‘Beispielsweise sollte die Unterstützung für neue Technologien wie MLA standardisiert werden, anstatt zusätzliche manuelle Anpassungen zu erfordern, wie dies bei Nicht-NVIDIA-GPUs der Fall ist. Systeme der nächsten Generation sollten neue Arbeitslasten sofort verstehen und optimieren, ohne dass manuelle Codeänderungen oder wesentliche API-Anpassungen erforderlich sind.’

(2) Anpassungsfähige, Echtzeit-Leistungsoptimierung: Elad Raz ist der Ansicht, dass sich die Industrie von festverdrahteten Beschleunigern entfernen sollte. ‘Die Industrie muss auf intelligenten, softwaredefinierten Hardwaregrundlagen aufbauen, die sich zur Laufzeit dynamisch selbst optimieren können.’

‘Indem sie kontinuierlich aus Arbeitslasten lernen, können zukünftige Systeme sich in Echtzeit anpassen, die Auslastung und die nachhaltige Leistung maximieren, unabhängig von der spezifischen Anwendungsworkload. Diese dynamische Anpassungsfähigkeit bedeutet, dass die Infrastruktur in realen Szenarien eine konsistente Effizienz bieten kann, egal ob HPC-Simulationen, komplexe KI-Modelle oder Vektor-Datenbankoperationen ausgeführt werden.’

(3) Skalierbare Effizienz: ‘Durch die Entkopplung von Hardware und Software und die Konzentration auf intelligente Echtzeitoptimierung sollten zukünftige Systeme eine höhere Auslastung und einen geringeren Gesamtenergieverbrauch erzielen. Dies würde die Infrastruktur kostengünstiger und skalierbarer machen, um die sich ändernden Anforderungen neuer Arbeitslasten zu erfüllen.’

(4) Zukunftsdesign: Dieser Punkt entspricht der zukunftsorientierten Anforderung an die KI-Infrastruktur, insbesondere das Chipdesign. ‘Die heutigen hochmodernen Algorithmen können morgen veraltet sein.’ ‘Ob KI-Neuronale Netze oder Transformer-basierte LLM-Modelle, die Computing-Infrastruktur der nächsten Generation muss anpassungsfähig sein, um sicherzustellen, dass die Technologieinvestitionen von Unternehmen über Jahre hinweg widerstandsfähig bleiben.’

Diese Vorschläge bieten eine relativ idealisierte, aber dennoch zum Nachdenken anregende Perspektive. Diese Leitmethodik sollte für die zukünftige Entwicklung von KI- und HPC-Technologien berücksichtigt werden, auch wenn einige inhärente Widersprüche in der Branche seit langem bestehen. ‘Um das Potenzial von KI, HPC und anderen zukünftigen rechen- und datenintensiven Arbeitslasten freizusetzen, müssen wir die Infrastruktur überdenken und dynamische und intelligente Lösungen nutzen, um Innovationen und Pioniere zu unterstützen.’