AI Efficiëntie: Niet Altijd 100% Hersencapaciteit

De meedogenloze opmars van AI-ontwikkeling heeft consequent aangetoond dat grotere modellen doorgaans slimmer zijn, maar hun operationele eisen escaleren ook. Dit creëert een aanzienlijke uitdaging, vooral in regio’s met beperkte toegang tot geavanceerde AI-chips. Ongeacht geografische beperkingen is er echter een groeiende trend onder modelontwikkelaars om Mixture of Experts (MoE) -architecturen te omarmen, gekoppeld aan innovatieve compressietechnieken. Het doel? Om de computationele resources die nodig zijn om deze uitgebreide Large Language Models (LLM’s) te implementeren en uit te voeren drastisch te verminderen. Nu we de derde verjaardag naderen van de generatieve AI-hausse die werd aangewakkerd door ChatGPT, begint de industrie eindelijk serieus na te denken over de economische gevolgen van het draaiende houden van deze energieverslindende modellen.

Hoewel MoE-modellen, zoals die van Mistral AI, al een tijdje bestaan, heeft hun echte doorbraak het afgelopen jaar plaatsgevonden. We hebben een golf van nieuwe open-source LLM’s gezien van techreuzen als Microsoft, Google, IBM, Meta, DeepSeek en Alibaba, die allemaal een vorm van MoE-architectuur gebruiken. De aantrekkingskracht is eenvoudig: MoE-architecturen bieden een veel efficiënter alternatief voor traditionele "dense" modelarchitecturen.

Overwinnen van geheugenbeperkingen

De basis van de MoE-architectuur dateert uit het begin van de jaren negentig, met de publicatie van "Adaptive Mixtures of Local Experts". Het kernidee draait om het verdelen van taken over een of meer gespecialiseerde submodellen of "experts", in plaats van te vertrouwen op een enkel, massaal model dat is getraind op een breed spectrum aan data.

In theorie kan elke expert zorgvuldig worden geoptimaliseerd voor een specifiek domein, van codering en wiskunde tot creatief schrijven. Het is echter vermeldenswaard dat de meeste modelontwikkelaars beperkte details verstrekken over de specifieke experts binnen hun MoE-modellen, en het aantal experts varieert van model tot model. Cruciaal is dat slechts een fractie van het algehele model op een bepaald moment actief is.

Neem het V3-model van DeepSeek, dat bestaat uit 256 gerouteerde experts samen met een gedeelde expert. Tijdens de tokenverwerking worden slechts acht gerouteerde experts, plus de gedeelde expert, geactiveerd. Deze selectieve activering betekent dat MoE-modellen mogelijk niet altijd hetzelfde kwaliteitsniveau bereiken als vergelijkbare dense modellen. Het Qwen3-30B-A3B MoE-model van Alibaba presteerde bijvoorbeeld consequent slechter dan het dense Qwen3-32B-model in de benchmarktests van Alibaba.

Het is echter essentieel om deze kleine daling in kwaliteit te contextualiseren tegen de aanzienlijke efficiëntiewinst die wordt geboden door MoE-architecturen. De vermindering van het aantal actieve parameters resulteert in geheugenbandbreedtevereisten die niet langer recht evenredig zijn met de capaciteit die nodig is om de gewichten van het model op te slaan. In wezen, hoewel MoE-modellen nog steeds aanzienlijk geheugen nodig kunnen hebben, hoeft dit niet per se het snelste en duurste High Bandwidth Memory (HBM) te zijn.

Laten we dit illustreren met een vergelijking. Neem het grootste dense model van Meta, Llama 3.1 405B, en Llama 4 Maverick, een vergelijkbaar model dat een MoE-architectuur gebruikt met 17 miljard actieve parameters. Hoewel tal van factoren, zoals batchgrootte, floating-point performance en key-value caching, bijdragen aan de real-world performance, kunnen we de minimale bandbreedtevereisten benaderen door de grootte van het model in gigabytes te vermenigvuldigen met een gegeven precisie (1 byte per parameter voor 8-bit modellen) met de beoogde tokens per seconde bij een batchgrootte van één.

Voor het uitvoeren van een 8-bit gekwantificeerde versie van Llama 3.1 405B zou meer dan 405 GB vRAM en ten minste 20 TB/s geheugenbandbreedte nodig zijn om tekst te genereren met 50 tokens per seconde. De HGX H100-gebaseerde systemen van Nvidia, die tot voor kort prijzen van $ 300.000 of meer hadden, boden slechts 640 GB HBM3 en ongeveer 26,8 TB/s aggregate bandbreedte. Voor het uitvoeren van het volledige 16-bit model waren minstens twee van deze systemen nodig.

Daarentegen vereist Llama 4 Maverick, terwijl het dezelfde hoeveelheid geheugen verbruikt, minder dan 1 TB/s bandbreedte om vergelijkbare prestaties te bereiken. Dit komt omdat slechts 17 miljard parameters aan model-experts actief betrokken zijn bij het genereren van de output. Dit vertaalt zich in een orde van grootte toename in de tekstgeneratiesnelheid op dezelfde hardware.

Omgekeerd, als pure performance geen primaire zorg is, kunnen veel van deze modellen nu worden uitgevoerd op goedkopere, zij het langzamere, GDDR6-, GDDR7- of zelfs DDR-geheugen, zoals te zien is in de nieuwste Xeons van Intel.

De nieuwe RTX Pro Servers van Nvidia, aangekondigd op Computex, zijn op dit scenario afgestemd. In plaats van te vertrouwen op dure en energieverslindende HBM die geavanceerde packaging vereist, is elk van de acht RTX Pro 6000 GPU’s in deze systemen uitgerust met 96 GB GDDR7-geheugen, hetzelfde type dat wordt gevonden in moderne gamingkaarten.

Deze systemen leveren tot 768 GB vRAM en 12,8 TB/s aggregate bandbreedte, meer dan voldoende om Llama 4 Maverick uit te voeren met honderden tokens per seconde. Hoewel Nvidia de prijzen niet heeft onthuld, is de workstation-editie van deze kaarten voor ongeveer $ 8.500 te koop , wat suggereert dat deze servers geprijsd zouden kunnen zijn voor minder dan de helft van de kosten van een gebruikte HGX H100.

MoE betekent echter niet het einde van HBM-gestapelde GPU’s. Verwacht dat Llama 4 Behemoth, ervan uitgaande dat het ooit wordt verzonden, een rack vol GPU’s nodig heeft vanwege zijn enorme omvang.

Hoewel het ongeveer de helft van de actieve parameters heeft als Llama 3.1 405B, beschikt het over in totaal 2 biljoen parameters. Momenteel is er geen enkele conventionele GPU-server op de markt die het volledige 16-bit model en een contextvenster van een miljoen tokens of meer kan bevatten.

De CPU Renaissance in AI?

Afhankelijk van de specifieke toepassing is een GPU mogelijk niet altijd nodig, met name in regio’s waar de toegang tot high-end accelerators beperkt is.

Intel toonde in april een dual-socket Xeon 6-platform uitgerust met 8800 MT/s MCRDIMM’s. Deze setup behaalde een doorvoer van 240 tokens per seconde in Llama 4 Maverick, met een gemiddelde outputlatentie van minder dan 100 ms per token.

In eenvoudigere bewoordingen kon het Xeon-platform 10 tokens per seconde of meer per gebruiker aanhouden voor ongeveer 24 gelijktijdige gebruikers.

Intel heeft geen single-user performance cijfers bekendgemaakt, omdat ze minder relevant zijn in real-world scenario’s. Schattingen suggereren echter een piekperformance van ongeveer 100 tokens per seconde.

Niettemin, tenzij er geen betere alternatieven zijn of specifieke vereisten, blijft de economie van CPU-gebaseerde inference sterk afhankelijk van de use-case.

Gewichtsreductie: pruning en kwantisatie

MoE-architecturen kunnen de geheugenbandbreedte verminderen die nodig is voor het bedienen van grote modellen, maar ze verminderen niet de hoeveelheid geheugen die nodig is om hun gewichten op te slaan. Zelfs bij 8-bit precisie vereist Llama 4 Maverick meer dan 400 GB geheugen om te draaien, ongeacht het aantal actieve parameters.

Opkomende pruning-technieken en kwantisatiemethoden kunnen die vereiste mogelijk halveren zonder kwaliteitsverlies.

Nvidia is een voorstander van pruning en heeft pruned versies van Meta’s Llama 3-modellen vrijgegeven waarbij redundante gewichten zijn verwijderd.

Nvidia was ook een van de eerste bedrijven die in 2022 8-bit floating-point datatypes ondersteunde, en opnieuw met 4-bit floating point met de lancering van zijn Blackwell-architectuur in 2024. De eerste chips van AMD die native FP4-ondersteuning bieden, worden binnenkort verwacht.

Hoewel native hardware-ondersteuning voor deze datatypes niet strikt essentieel is, vermindert het over het algemeen de kans op het tegenkomen van computationele bottlenecks, met name bij het bedienen op schaal.

We hebben een groeiend aantal modelontwikkelaars gezien die datatypes met een lagere precisie gebruiken, waarbij Meta, Microsoft en Alibaba acht-bits en zelfs vier-bits gekwantificeerde versies van hun modellen aanbieden.

Kwantisatie omvat het comprimeren van modelgewichten van hun native precisie, typisch BF16, naar FP8 of INT4. Dit reduceert effectief de geheugenbandbreedte en capaciteitsvereisten van de modellen met de helft of zelfs driekwart, ten koste van enige kwaliteit.

De verliezen die gepaard gaan met de overgang van 16 bits naar acht bits zijn vaak verwaarloosbaar, en verschillende modelbouwers, waaronder DeepSeek, zijn begonnen met trainen op FP8-precisie vanaf het begin. Het verminderen van de precisie met nog eens vier bits kan echter leiden tot aanzienlijke kwaliteitsvermindering. Bijgevolg comprimeren veel post-training kwantisatiebenaderingen, zoals GGUF, niet alle gewichten gelijk, waardoor sommige op hogere precisieniveaus blijven om kwaliteitsverlies te minimaliseren.

Google demonstreerde onlangs het gebruik van quantization-aware training (QAT) om zijn Gemma 3-modellen met een factor 4x te reduceren, terwijl de kwaliteitsniveaus dicht bij native BF16 werden gehouden.

QAT simuleert low-precision operaties tijdens de training. Door deze techniek gedurende ongeveer 5.000 stappen toe te passen op een niet-gekwalificeerd model, kon Google de daling in perplexiteit, een metriek voor het meten van kwantisatiegerelateerde verliezen, met 54 procent verminderen bij conversie naar INT4.

Een andere QAT-gebaseerde aanpak voor kwantisatie, bekend als Bitnet, streeft naar nog lagere precisieniveaus en comprimeert modellen tot slechts 1,58 bits, of ongeveer een tiende van hun oorspronkelijke grootte.

De Synergie van Technologieën

De combinatie van MoE en 4-bit kwantisatie biedt aanzienlijke voordelen, met name wanneer de bandbreedte beperkt is.

Voor anderen die niet bandbreedtebeperkt zijn, kan echter een van de twee technologieën, of het nu MoE of kwantisatie is, de kosten van apparatuur en werking voor het uitvoeren van grotere en krachtigere modellen aanzienlijk verlagen; dit ervan uitgaande dat een waardevolle service kan worden gevonden die ze kunnen uitvoeren.en dat er een businessmodel onder ligt.

En zo niet, dan kun je op zijn minst getroost zijn dat je niet de enige bent - uit een recente IBM-enquête bleek dat slechts één op de vier AI-implementaties het beloofde rendement op de investering heeft opgeleverd.