KI-Effizienz: Nicht immer 100% Leistung

Die unaufhaltsame Weiterentwicklung der KI hat immer wieder gezeigt, dass größere Modelle tendenziell intelligenter sind, aber ihre betrieblichen Anforderungen steigen ebenfalls. Dies stellt eine erhebliche Herausforderung dar, insbesondere in Regionen mit eingeschränktem Zugang zu fortschrittlichen KI-Chips. Unabhängig von geografischen Beschränkungen gibt es jedoch einen wachsenden Trend unter Modellentwicklern, Mixture of Experts (MoE)-Architekturen in Verbindung mit innovativen Komprimierungstechniken zu nutzen. Das Ziel? Den Rechenaufwand, der für die Bereitstellung und den Betrieb dieser umfangreichen Large Language Models (LLMs) erforderlich ist, drastisch zu reduzieren. Während wir uns dem dritten Jahrestag des generativen KI-Booms nähern, der durch ChatGPT ausgelöst wurde, beginnt die Branche endlich, die wirtschaftlichen Auswirkungen des Betriebs dieser energiehungrigen Modelle ernsthaft in Betracht zu ziehen.

Während es MoE-Modelle, wie z. B. die von Mistral AI, schon seit einiger Zeit gibt, hat ihr eigentlicher Durchbruch im letzten Jahr stattgefunden. Wir haben einen Anstieg neuer Open-Source-LLMs von Tech-Giganten wie Microsoft, Google, IBM, Meta, DeepSeek und Alibaba erlebt, die alle irgendeine Form von MoE-Architektur nutzen. Der Reiz ist unkompliziert: MoE-Architekturen bieten eine weitaus effizientere Alternative zu traditionellen “dichten” Modellarchitekturen.

Überwindung von Speicherbeschränkungen

Die Grundlage der MoE-Architektur reicht bis in die frühen 1990er Jahre zurück, mit der Veröffentlichung von “Adaptive Mixtures of Local Experts”. Die Kernidee dreht sich darum, Aufgaben an ein oder mehrere spezialisierte Submodelle oder “Experten” zu verteilen, anstatt sich auf ein einzelnes, massives Modell zu verlassen, das auf einem breiten Spektrum von Daten trainiert wurde.

Theoretisch kann jeder Experte sorgfältig für einen bestimmten Bereich optimiert werden, von Programmierung und Mathematik bis hin zu kreativem Schreiben. Es ist jedoch erwähnenswert, dass die meisten Modellentwickler nur begrenzte Details über die spezifischen Experten innerhalb ihrer MoE-Modelle liefern und die Anzahl der Experten von Modell zu Modell variiert. Entscheidend ist, dass zu einem bestimmten Zeitpunkt nur ein Bruchteil des Gesamtmodells aktiv ist.

Betrachten Sie das V3-Modell von DeepSeek, das aus 256 gerouteten Experten zusammen mit einem gemeinsam genutzten Experten besteht. Während der Token-Verarbeitung werden nur acht geroutete Experten plus der gemeinsam genutzte aktiviert. Diese selektive Aktivierung bedeutet, dass MoE-Modelle möglicherweise nicht immer das gleiche Qualitätsniveau wie ähnlich große dichte Modelle erreichen. Das Qwen3-30B-A3B MoE-Modell von Alibaba beispielsweise schnitt in den Benchmark-Tests von Alibaba durchweg schlechter ab als das dichte Qwen3-32B-Modell.

Es ist jedoch wichtig, diesen leichten Qualitätsverlust im Kontext der erheblichen Effizienzsteigerungen zu betrachten, die MoE-Architekturen bieten. Die Reduzierung der aktiven Parameter führt zu Speicherbandbreitenanforderungen, die nicht mehr direkt proportional zu der Kapazität sind, die zum Speichern der Modellgewichte benötigt wird. Im Wesentlichen benötigen MoE-Modelle zwar immer noch erheblichen Speicher, aber sie benötigen ihn nicht unbedingt in Form des schnellsten und teuersten High Bandwidth Memory (HBM).

Veranschaulichen wir dies anhand eines Vergleichs. Betrachten Sie das größte “dichte” Modell von Meta, Llama 3.1 405B, und Llama 4 Maverick, ein vergleichbares Modell, das eine MoE-Architektur mit 17 Milliarden aktiven Parametern verwendet. Während zahlreiche Faktoren, wie z. B. Batch-Größe, Gleitkomma-Leistung und Key-Value-Caching, zur realen Leistung beitragen, können wir die minimalen Bandbreitenanforderungen annähern, indem wir die Größe des Modells in Gigabyte bei einer bestimmten Präzision (1 Byte pro Parameter für 8-Bit-Modelle) mit der Zielanzahl an Token pro Sekunde bei einer Batch-Größe von eins multiplizieren.

Der Betrieb einer 8-Bit-quantisierten Version von Llama 3.1 405B würde über 405 GB vRAM und mindestens 20 TB/s Speicherbandbreite erfordern, um Text mit 50 Token pro Sekunde zu generieren. Die auf Nvidia HGX H100 basierenden Systeme, die bis vor kurzem Preise von 300.000 US-Dollar oder mehr erzielten, boten nur 640 GB HBM3 und ungefähr 26,8 TB/s aggregierte Bandbreite. Für den Betrieb des vollständigen 16-Bit-Modells wären mindestens zwei dieser Systeme erforderlich gewesen.

Im Gegensatz dazu benötigt Llama 4 Maverick, während es die gleiche Menge an Speicher verbraucht, weniger als 1 TB/s Bandbreite, um eine vergleichbare Leistung zu erzielen. Dies liegt daran, dass nur 17 Milliarden Parameter an Modellexperten aktiv an der Generierung der Ausgabe beteiligt sind. Dies führt zu einer Steigerung der Textgenerierungsgeschwindigkeit um eine Größenordnung auf derselben Hardware.

Umgekehrt können viele dieser Modelle jetzt, wenn reine Leistung kein vorrangiges Anliegen ist, auf billigerem, wenn auch langsamerem GDDR6-, GDDR7- oder sogar DDR-Speicher betrieben werden, wie bei Intels neuesten Xeons zu sehen ist.

Die neuen RTX Pro Server von Nvidia, die auf der Computex angekündigt wurden, sind genau auf dieses Szenario zugeschnitten. Anstatt sich auf teures und energiehungriges HBM zu verlassen, das eine fortschrittliche Verpackung erfordert, ist jede der acht RTX Pro 6000-GPUs in diesen Systemen mit 96 GB GDDR7-Speicher ausgestattet, dem gleichen Typ, der in modernen Gaming-Karten zu finden ist.

Diese Systeme liefern bis zu 768 GB vRAM und 12,8 TB/s aggregierte Bandbreite, mehr als ausreichend, um Llama 4 Maverick mit Hunderten von Token pro Sekunde zu betreiben. Nvidia hat zwar keine Preise bekannt gegeben, aber die Workstation-Edition dieser Karten wird für rund 8.500 US-Dollar im Einzelhandel verkauft, was darauf hindeutet, dass diese Server weniger als die Hälfte der Kosten eines gebrauchten HGX H100 kosten könnten.

MoE bedeutet jedoch nicht das Ende von HBM-gestapelten GPUs. Erwarten Sie, dass Llama 4 Behemoth, falls es jemals ausgeliefert wird, aufgrund seiner schieren Größe ein Rack voller GPUs benötigt.

Obwohl es ungefähr die Hälfte der aktiven Parameter wie Llama 3.1 405B hat, verfügt es über insgesamt 2 Billionen Parameter. Derzeit gibt es keinen einzigen herkömmlichen GPU-Server auf dem Markt, der das vollständige 16-Bit-Modell und ein Kontextfenster von einer Million Token oder mehr aufnehmen kann.

Die CPU-Renaissance in der KI?

Abhängig von der spezifischen Anwendung ist eine GPU möglicherweise nicht immer erforderlich, insbesondere in Regionen, in denen der Zugang zu High-End-Beschleunigern eingeschränkt ist.

Intel präsentierte im April eine Dual-Socket-Xeon-6-Plattform, die mit 8800 MT/s MCRDIMMs ausgestattet ist. Dieses Setup erreichte einen Durchsatz von 240 Token pro Sekunde in Llama 4 Maverick mit einer durchschnittlichen Ausgabelatenz von unter 100 ms pro Token.

Einfacher ausgedrückt, die Xeon-Plattform konnte 10 Token pro Sekunde oder mehr pro Benutzer für ungefähr 24 gleichzeitige Benutzer aufrechterhalten.

Intel gab keine Einzelbenutzer-Leistungszahlen bekannt, da diese in realen Szenarien weniger relevant sind. Schätzungen zufolge liegt die Spitzenleistung jedoch bei rund 100 Token pro Sekunde.

Dennoch bleibt die Wirtschaftlichkeit der CPU-basierten Inferenz, sofern es keine besseren Alternativen oder spezifischen Anforderungen gibt, stark vom Anwendungsfall abhängig.

Gewichtsreduzierung: Beschneiden und Quantisierung

MoE-Architekturen können die für das Anbieten großer Modelle erforderliche Speicherbandbreite reduzieren, sie reduzieren jedoch nicht die Menge an Speicher, die zum Speichern ihrer Gewichte erforderlich ist. Selbst bei 8-Bit-Präzision benötigt Llama 4 Maverick über 400 GB Speicher, um zu laufen, unabhängig von der Anzahl der aktiven Parameter.

Aufkommende Beschneidungstechniken und Quantisierungsmethoden können diesen Bedarf potenziell halbieren, ohne die Qualität zu beeinträchtigen.

Nvidia hat sich für das Beschneiden eingesetzt und beschnittene Versionen von Metas Llama 3-Modellen veröffentlicht, bei denen redundante Gewichte entfernt wurden.

Nvidia gehörte auch zu den ersten Unternehmen, die 8-Bit-Gleitkomma-Datentypen im Jahr 2022 und erneut mit 4-Bit-Gleitkomma mit der Einführung seiner Blackwell-Architektur im Jahr 2024 unterstützten. Die ersten Chips von AMD, die native FP4-Unterstützung bieten, werden voraussichtlich bald auf den Markt kommen.

Während die native Hardware-Unterstützung für diese Datentypen nicht unbedingt erforderlich ist, reduziert sie im Allgemeinen die Wahrscheinlichkeit von Rechenengpässen, insbesondere bei der Bereitstellung in großem Maßstab.

Wir haben beobachtet, dass immer mehr Modellentwickler Datentypen mit geringerer Präzision verwenden, wobei Meta, Microsoft und Alibaba 8-Bit- und sogar 4-Bit-quantisierte Versionen ihrer Modelle anbieten.

Quantisierung beinhaltet das Komprimieren von Modellgewichten von ihrer nativen Präzision, typischerweise BF16, auf FP8 oder INT4. Dies reduziert effektiv die Speicherbandbreiten- und Kapazitätsanforderungen der Modelle um die Hälfte oder sogar drei Viertel, auf Kosten einiger Qualität.

Die Verluste, die mit dem Übergang von 16 Bit auf 8 Bit verbunden sind, sind oft vernachlässigbar, und mehrere Modellbauer, darunter DeepSeek, haben damit begonnen, von Anfang an mit FP8-Präzision zu trainieren. Das Reduzieren der Präzision um weitere vier Bit kann jedoch zu einer erheblichen Qualitätsminderung führen. Folglich komprimieren viele Post-Training-Quantisierungsansätze, wie z. B. GGUF, nicht alle Gewichte gleichmäßig und belassen einige auf höheren Präzisionsstufen, um Qualitätsverluste zu minimieren.

Google hat kürzlich die Verwendung von Quantisierungsbewusstem Training (QAT) demonstriert, um seine Gemma 3-Modelle um den Faktor 4x zu reduzieren und gleichzeitig Qualitätsniveaus beizubehalten, die nahe an nativem BF16 liegen.

QAT simuliert Operationen mit niedriger Präzision während des Trainings. Durch Anwendung dieser Technik für ungefähr 5.000 Schritte auf ein nicht qualifiziertes Modell konnte Google den Rückgang der Perplexität, einer Metrik zur Messung quantisierungsbedingter Verluste, um 54 Prozent reduzieren, wenn es in INT4 konvertiert wurde.

Ein anderer QAT-basierter Ansatz zur Quantisierung, bekannt als Bitnet, zielt auf noch niedrigere Präzisionsstufen ab und komprimiert Modelle auf nur 1,58 Bit oder ungefähr ein Zehntel ihrer ursprünglichen Größe.

Die Synergie von Technologien

Die Kombination aus MoE und 4-Bit-Quantisierung bietet erhebliche Vorteile, insbesondere wenn die Bandbreite begrenzt ist.

Für andere, die nicht bandbreitenbeschränkt sind, kann jedoch jede der beiden Technologien, sei es MoE oder Quantisierung, die Kosten für Ausrüstung und Betrieb zum Ausführen größerer und leistungsfähigerer Modelle erheblich senken; dies setzt voraus, dass ein wertvoller Dienst gefunden werden kann, den sie ausführen können.

Und wenn nicht, können Sie sich zumindest damit trösten, dass Sie nicht allein sind - eine kürzlich von IBM durchgeführte Umfrage ergab, dass nur jede vierte KI-Bereitstellung die versprochene Kapitalrendite erzielt hat.