AI-Chips & Infra Herdenken: Post-DeepSeek Tijdperk

De snelle innovatie in AI-technologie, geïllustreerd door DeepSeek’s vooruitgang, noodzaakt een fundamentele herwaardering van hoe we datacenters, chips en systemen construeren om de benodigde rekenkracht te leveren. DeepSeek’s engineeringinnovaties hebben de AI-rekenkosten aanzienlijk verlaagd, wat aanleiding geeft tot een bredere discussie over de toekomst van AI-infrastructuur.

Hoewel DeepSeek de grenzen van AI-technologie misschien niet drastisch heeft verlegd, is de invloed ervan op de AI-markt diepgaand. Technologieën zoals Mixture of Experts (MoE), Multi-Layer Attention (MLA) en Multi-Token Prediction (MTP) hebben aan bekendheid gewonnen naast DeepSeek. Hoewel niet al deze technologieën door DeepSeek zijn ontwikkeld, heeft hun succesvolle implementatie geleid tot brede acceptatie. MLA is in het bijzonder een centraal punt van discussie geworden op verschillende platforms, van edge-apparaten tot cloud computing.

MLA en de uitdaging van algoritme-innovatie

Elad Raz, CEO van NextSilicon, wees er onlangs op dat MLA weliswaar de geheugenefficiëntie verbetert, maar ook de werklast voor ontwikkelaars kan verhogen en de toepassing van AI in productieomgevingen kan compliceren. GPU-gebruikers moeten mogelijk ‘hand-code’ optimalisatie uitvoeren voor MLA. Dit voorbeeld onderstreept de noodzaak om de implementatie van AI-chips en infrastructuurarchitecturen in het post-DeepSeek-tijdperk te heroverwegen.

Om de betekenis van MLA te begrijpen, is het essentieel om de onderliggende concepten van Large Language Models (LLM’s) te begrijpen. Bij het genereren van antwoorden op gebruikersinvoer, vertrouwen LLM’s sterk op KV-vectoren – sleutels en waarden – die het model in staat stellen zich te concentreren op relevante gegevens. In aandachtmechanismen vergelijkt het model nieuwe verzoeken met sleutels om de meest relevante inhoud te bepalen.

Elad Raz gebruikt een analogie van een boek, waarbij de sleutel is als ‘de hoofdstuktitels van een boek, die aangeven waar elk deel over gaat, en de waarde meer gedetailleerde samenvattingen onder die titels zijn. Dus als een gebruiker het verzoek invoert, vraagt hij om een zoekterm om een antwoord te genereren. Het vraagt: ‘Onder deze verhaallijn, welk hoofdstuk is het meest relevant?’’

MLA comprimeert deze hoofdstuktitels (sleutels) en samenvattingen (waarden), waardoor het proces van het vinden van antwoorden wordt versneld en de efficiëntie wordt verhoogd. Uiteindelijk helpt MLA DeepSeek om het geheugengebruik met 5-13% te verminderen. Meer gedetailleerde informatie is te vinden in DeepSeek’s officiële paper. MediaTek’s ontwikkelaarsconferentie besprak zelfs ondersteuning voor MLA in hun Dimensity mobiele chips, wat de uitgebreide invloed van DeepSeek onderstreept.

Technologieën zoals MLA vertegenwoordigen typische algoritmische innovaties in het AI-tijdperk. De snelle ontwikkeling van AI-technologie leidt echter tot een constante stroom van innovaties, wat op zijn beurt nieuwe uitdagingen creëert, vooral wanneer deze innovaties zijn afgestemd op specifieke platforms. In het geval van MLA hebben niet-NVIDIA GPU-gebruikers extra handmatige codering nodig om de technologie te benutten.

Hoewel DeepSeek’s technologieën de innovatie enwaarde van het AI-tijdperk aantonen, moeten hardware en software zich aanpassen aan deze innovaties. Volgens Elad Raz moet dergelijke aanpassing de complexiteit voor ontwikkelaars en productieomgevingen minimaliseren. Anders worden de kosten van elke innovatie onbetaalbaar hoog.

De vraag is dan: ‘Wat gebeurt er als de volgende algoritme-innovatie niet goed en eenvoudig naar bestaande architecturen vertaalt?’

Het conflict tussen chipontwerp en algoritme-innovatie

De afgelopen jaren hebben AI-chipfabrikanten consequent gemeld dat het ontwerpen van grote AI-chips minstens 1-2 jaar duurt. Dit betekent dat het chipontwerp ruim voor de marktintroductie van een chip moet beginnen. Gezien de snelle vooruitgang in AI-technologie, moet AI-chipontwerp vooruitziend zijn. Alleen focussen op de huidige behoeften zal resulteren in verouderde AI-chips die zich niet kunnen aanpassen aan de nieuwste toepassingsinnovaties.

AI-applicatie algoritme-innovatie vindt nu wekelijks plaats. Zoals vermeld in eerdere artikelen, neemt de rekenkracht die nodig is voor AI-modellen om dezelfde mogelijkheden te bereiken, jaarlijks met 4-10 keer af. De inferentiekosten van AI-modellen die een vergelijkbare kwaliteit bereiken als GPT-3 zijn de afgelopen drie jaar met 1200 keer gedaald. Momenteel kunnen modellen met 2 miljard parameters hetzelfde niveau bereiken als de 170 miljard parameter GPT-3 van weleer. Deze snelle innovatie in de bovenste lagen van de AI-technologiestack vormt aanzienlijke uitdagingen voor de traditionele chiparchitectuurplanning en -ontwerp.

Elad Raz is van mening dat de industrie innovaties zoals DeepSeek MLA moet erkennen als de norm voor AI-technologie. ‘Next-generation computing moet niet alleen optimaliseren voor de huidige workloads, maar ook toekomstige doorbraken accommoderen.’ Dit perspectief is niet alleen van toepassing op de chipindustrie, maar op de hele midden- tot lager gelegen infrastructuur van de AI-technologiestack.

‘DeepSeek en andere innovaties hebben de snelle vooruitgang van algoritme-innovatie aangetoond,’ zei Elad Raz. ‘Onderzoekers en datawetenschappers hebben meer veelzijdige, veerkrachtige tools nodig om nieuwe inzichten en ontdekkingen te stimuleren. De markt heeft intelligente, softwaregedefinieerde hardware computing platforms nodig waarmee klanten bestaande acceleratoroplossingen kunnen ‘drop-in vervangen’, terwijl ontwikkelaars hun werk pijnloos kunnen porteren.’

Om deze situatie aan te pakken, moet de industrie intelligentere, aanpasbare en flexibele computerinfrastructuur ontwerpen.

Flexibiliteit en efficiëntie zijn vaak tegenstrijdige doelen. CPU’s zijn zeer flexibel, maar hebben een aanzienlijk lagere parallelle rekenefficiëntie dan GPU’s. GPU’s, met hun programmeerbaarheid, zijn mogelijk minder efficiënt dan speciale AI ASIC-chips.

Elad Raz merkte op dat NVIDIA verwacht dat AI-datacenterracks binnenkort 600 kW aan stroomverbruik zullen bereiken. Ter context: 75% van de standaard enterprise-datacenters heeft een piekvermogen van slechts 15-20 kW per rack. Ongeacht de potentiële efficiëntiewinst in AI, vormt dit een aanzienlijke uitdaging voor datacenters die computerinfrastructuursystemen bouwen.

Volgens Elad Raz zijn de huidige GPU’s en AI-acceleratoren mogelijk niet voldoende om aan de potentiële eisen van AI en High-Performance Computing (HPC) te voldoen. ‘Als we niet fundamenteel heroverwegen hoe we de rekenefficiëntie verbeteren, loopt de industrie het risico fysieke en economische grenzen te bereiken. Deze muur zal ook neveneffecten hebben, waardoor de toegang tot AI en HPC voor meer organisaties wordt beperkt, waardoor innovatie wordt belemmerd, zelfs met vooruitgang in algoritmen of traditionele GPU-architecturen.’

Aanbevelingen en vereisten voor next-generation computing-infrastructuur

Op basis van deze observaties stelde Elad Raz ‘vier pijlers’ voor voor het definiëren van next-generation computing-infrastructuur:

(1) Plug-and-Play Vervangbaarheid: ‘De geschiedenis heeft aangetoond dat complexe architectuurtransities, zoals de migratie van CPU naar GPU, decennia kunnen duren om volledig te implementeren. Daarom moeten next-generation computerarchitecturen een soepele migratie ondersteunen.’ Voor ‘plug-and-play’ vervangbaarheid suggereert Elad Raz dat nieuwe computerarchitecturen moeten leren van de x86- en Arm-ecosystemen, waardoor een bredere acceptatie wordt bereikt door achterwaartse compatibiliteit.

Moderne ontwerpen moeten ook voorkomen dat ontwikkelaars grote hoeveelheden code moeten herschrijven of afhankelijkheden van specifieke leveranciers creëren. ‘Ondersteuning voor opkomende technologieën zoals MLA moet bijvoorbeeld worden gestandaardiseerd, in plaats van extra handmatige aanpassingen te vereisen, zoals het geval is bij niet-NVIDIA GPU’s. Next-generation systemen moeten nieuwe workloads out-of-the-box begrijpen en optimaliseren, zonder dat handmatige codewijzigingen of significante API-aanpassingen nodig zijn.’

(2) Aanpasbare, Real-Time Prestatieoptimalisatie: Elad Raz is van mening dat de industrie moet afstappen van fixed-function accelerators. ‘De industrie moet voortbouwen op intelligente, softwaregedefinieerde hardwarefundamenten die zich tijdens runtime dynamisch zelf kunnen optimaliseren.’

‘Door continu te leren van workloads, kunnen toekomstige systemen zichzelf in realtime aanpassen, waardoor het gebruik en de aanhoudende prestaties worden gemaximaliseerd, ongeacht de specifieke applicatieworkload. Deze dynamische aanpasbaarheid betekent dat infrastructuur consistente efficiëntie kan bieden in real-world scenario’s, of het nu gaat om HPC-simulaties, complexe AI-modellen of vector database-operaties.’

(3) Schaalbare Efficiëntie: ‘Door hardware en software te ontkoppelen en te focussen op intelligente real-time optimalisatie, zouden toekomstige systemen een hoger gebruik en een lager algeheel energieverbruik moeten bereiken. Dit zou de infrastructuur kosteneffectiever en schaalbaarder maken om te voldoen aan de evoluerende eisen van nieuwe workloads.’

(4) Toekomstgericht Ontwerp: Dit punt komt overeen met de vooruitziende eis voor AI-infrastructuur, met name chipontwerp. ‘De geavanceerde algoritmen van vandaag kunnen morgen verouderd zijn.’ ‘Of het nu gaat om AI neurale netwerken of Transformer-gebaseerde LLM-modellen, next-generation computerinfrastructuur moet aanpasbaar zijn, zodat de technologie-investeringen van ondernemingen jarenlang veerkrachtig blijven.’

Deze suggesties bieden een relatief geïdealiseerd maar toch tot nadenken stemmend perspectief. Deze leidende methodologie moet worden overwogen voor de toekomstige ontwikkeling van AI- en HPC-technologieën, zelfs als sommige inherente tegenstrijdigheden langdurige problemen in de industrie blijven. ‘Om het potentieel van AI, HPC en andere toekomstige computing- en data-intensieve workloads te ontsluiten, moeten we de infrastructuur heroverwegen en dynamische en intelligente oplossingen omarmen om innovatie en pioniers te ondersteunen.’