Redeneermodellen, geprezen als de volgende grote sprong in de evolutie van grote taalmodellen (LLM’s), hebben opmerkelijke vooruitgang laten zien, vooral in domeinen die ingewikkelde probleemoplossing vereisen, zoals wiskunde en computerprogrammering. Deze geavanceerde systemen, gekenmerkt door een extra “redeneertraining”-fase, maken gebruik van reinforcement learning om hun mogelijkheden te verfijnen voor het aanpakken van complexe uitdagingen. OpenAI’s o3 valt op als een baanbrekend voorbeeld, dat aanzienlijke prestatiewinsten laat zien ten opzichte van zijn voorganger, o1, volgens benchmarkevaluaties. De centrale vraag die nu boven dit veld hangt, is de duurzaamheid van deze vooruitgang. Kunnen deze modellen in hetzelfde tempo blijven evolueren door simpelweg de rekenkracht te vergroten?
Epoch AI, een onderzoeksorganisatie die zich richt op de maatschappelijke impact van kunstmatige intelligentie, heeft de taak op zich genomen om deze vraag te ontrafelen. Josh You, een data-analist bij Epoch AI, heeft een uitgebreide analyse uitgevoerd om de huidige niveaus van computationele investeringen in redeneertraining te bepalen en om het resterende potentieel voor uitbreiding te beoordelen.
De Computationele Golf Achter Redeneermodellen
OpenAI heeft publiekelijk verklaard dat o3 is getraind met tien keer de computationele bronnen die zijn besteed aan redeneren in vergelijking met o1 - een aanzienlijke toename die in slechts vier maanden is bereikt. Een door OpenAI geproduceerde grafiek illustreert levendig de nauwe correlatie tussen rekenkracht en prestaties op de AIME wiskunde benchmark. Epoch AI veronderstelt dat deze cijfers specifiek betrekking hebben op de tweede fase van de training, de redeneertraining, en niet op het volledige modeltrainingsproces.
Om deze cijfers in perspectief te plaatsen, onderzocht Epoch AI vergelijkbare modellen. DeepSeek-R1, bijvoorbeeld, naar verluidt getraind met ongeveer 6e23 FLOP (floating point operations per second) tegen een geschatte kostprijs van $1 miljoen, behaalde benchmarkresultaten die vergelijkbaar zijn met o1.
Techreuzen Nvidia en Microsoft hebben ook bijgedragen aan de ontwikkeling van redeneermodellen door publiekelijk toegankelijke trainingsdata te leveren. Nvidia’s Llama-Nemotron Ultra 253B gebruikte ongeveer 140.000 H100 GPU-uren, equivalent aan ongeveer 1e23 FLOP, voor zijn redeneertrainingsfase. Microsoft’s Phi-4-reasoning gebruikte zelfs minder rekenkracht, minder dan 1e20 FLOP. Een cruciale factor die deze modellen onderscheidt, is hun sterke afhankelijkheid van synthetische trainingsdata die zijn gegenereerd door andere AI-systemen. Epoch AI benadrukt dat deze afhankelijkheid directe vergelijkingen met modellen zoals o3 bemoeilijkt vanwege de inherente verschillen tussen echte en synthetische data en de impact ervan op het leren en generaliseren van modellen.
“Redeneertraining” Definiëren: Een Troebel Gebied
Een andere complexiteit komt voort uit het ontbreken van een universeel aanvaarde definitie van “redeneertraining”. Naast reinforcement learning integreren sommige modellen technieken zoals supervised fine-tuning. De ambiguïteit rond de componenten die zijn opgenomen in de berekeningen, introduceert inconsistenties, waardoor het een uitdaging is om resources tussen verschillende modellen accuraat te vergelijken.
Momenteel verbruiken redeneermodellen nog steeds aanzienlijk minder rekenkracht dan de meest uitgebreide AI-trainingsruns, zoals Grok 3, die meer dan 1e26 FLOP overschrijdt. Hedendaagse redeneertrainingsfasen werken doorgaans tussen 1e23 en 1e24 FLOP, wat aanzienlijke ruimte laat voor potentiële uitbreiding - of zo lijkt het op het eerste gezicht.
Dario Amodei, CEO van Anthropic, deelt een vergelijkbaar perspectief. Hij stelt dat een investering van $ 1 miljoen in redeneertraining aanzienlijke vooruitgang kan opleveren. Bedrijven onderzoeken echter actief manieren om het budget voor deze secundaire trainingsfase te verhogen tot honderden miljoenen dollars en meer, wat een toekomst suggereert waarin de economie van training drastisch verschuift.
Als de huidige trend van ruwweg tienvoudige toename van de rekenkracht elke drie tot vijf maanden aanhoudt, kan de rekenkracht voor redeneertraining mogelijk al volgend jaar de totale rekenkracht voor training van toonaangevende modellen inhalen. Josh You verwacht echter dat de groei uiteindelijk zal vertragen tot ongeveer een viervoudige stijging per jaar, in lijn met bredere trends in de industrie. Deze vertraging zal waarschijnlijk worden veroorzaakt door een combinatie van factoren, waaronder afnemende meeropbrengsten van investeringen in training, de stijgende kosten van rekenresources en de beperkingen van beschikbare trainingsdata.
Voorbij Compute: De Knelpunten aan de Horizon
Epoch AI benadrukt dat rekenkracht niet de enige beperkende factor is. Redeneertraining vereist aanzienlijke hoeveelheden hoogwaardige, uitdagende taken. Het verwerven van dergelijke data is moeilijk; het synthetisch genereren ervan is nog moeilijker. Het probleem met synthetische data is niet alleen authenticiteit; velen beweren dat de kwaliteit slecht is. Bovendien blijft de effectiviteit van deze aanpak buiten sterk gestructureerde domeinen zoals wiskunde en computerprogrammering onzeker. Niettemin suggereren projecten zoals “Deep Research” in ChatGPT, dat gebruik maakt van een op maat afgestemde versie van o3, potentieel voor bredere toepasbaarheid.
Arbeidsintensieve taken achter de schermen, zoals het selecteren van de juiste taken, het ontwerpen van beloningsfuncties en het ontwikkelen van trainingsstrategieën, vormen ook uitdagingen. Deze ontwikkelingskosten, die vaak worden uitgesloten van berekeningen, dragen aanzienlijk bij aan de totale kosten van redeneertraining.
Ondanks deze uitdagingen blijven OpenAI en andere ontwikkelaars optimistisch. Zoals Epoch AI opmerkt, lijken schaalcurves voor redeneertraining momenteel op de klassieke log-lineaire vooruitgang die wordt waargenomen bij pre-training. Bovendien laat o3 aanzienlijke winst zien, niet alleen in wiskunde, maar ook in agent-gebaseerde softwaretaken, wat wijst op het veelzijdige potentieel van deze nieuwe aanpak.
De toekomst van deze vooruitgang hangt af van de schaalbaarheid van redeneertraining - technisch, economisch en in termen van content. De volgende punten onderzoeken verschillende sleutelfactoren die de toekomst van deze modellen zullen bepalen:
- Technische schaalbaarheid: Verwijst naar het vermogen om de computationele resources die worden gebruikt bij training te vergroten zonder onoverkomelijke technische obstakels tegen te komen. Dit omvat vorderingen in hardware, software en algoritmen om grotere datasets en krachtigere computerinfrastructuur efficiënt te gebruiken. Naarmate modellen in omvang en complexiteit toenemen, wordt technische schaalbaarheid steeds crucialer voor voortdurende vooruitgang. De onderliggende architectuur zal moeten evolueren om de enorme schaal van de modellen bij te houden.
- Economische schaalbaarheid: Omvat de haalbaarheid van het verhogen van de computationele resources binnen redelijke budgettaire beperkingen. Als de kosten van training lineair of exponentieel schalen met de modelgrootte, kan het onbetaalbaar duur worden om verdere winst na te streven. Als zodanig kan goedkopere en efficiëntere training noodzakelijk zijn. Innovaties in hardware- en optimalisatietechnieken die de kosten per FLOP verlagen, zijn cruciaal voor economische schaalbaarheid. De trend is geweest om zich te concentreren op steeds grotere modellen, maar met een eindig budget zullen de prikkels verschuiven naar het trainen van de meest efficiënte modellen.
- Content schaalbaarheid: Benadrukt de beschikbaarheid van hoogwaardige trainingsdata die effectief winst in redeneervermogen kunnen stimuleren. Naarmate modellen geavanceerder worden, zijn moeilijkere en meer diverse datasets nodig om ze uit te dagen en overfitting te voorkomen. De beschikbaarheid van dergelijke datasets is beperkt, vooral in domeinen die complex redeneren vereisen. Technieken voor het genereren van synthetische data kunnen helpen om dit knelpunt te verlichten, maar ze moeten zorgvuldig worden ontworpen om vertekeningen of onnauwkeurigheden te voorkomen die de modelprestaties zouden kunnen verslechteren.
De Toekomst van Compute
Het is voor leken gemakkelijk te denken dat we op weg zijn naar oneindige rekenkracht. In werkelijkheid is het echter beperkt en in de toekomst kan die limiet duidelijker worden. In deze sectie zullen we een aantal manieren onderzoeken waarop compute in de toekomst zou kunnen evolueren en hoe die veranderingen de LLM-industrie zullen beïnvloeden.
Quantum Computing
Quantum computing vertegenwoordigt een paradigmaverschuiving in computation, waarbij de principes van de kwantummechanica worden gebruikt om problemen op te lossen die onhandelbaar zijn voor klassieke computers. Hoewel nog in de kinderschoenen, heeft quantum computing een immens potentieel voor het versnellen van AI-workloads, inclusief redeneermodel training. Quantum-algoritmen zoals quantum annealing en variational quantum eigensolvers (VQEs) zouden mogelijk modelparameters efficiënter kunnen optimaliseren dan klassieke optimalisatiemethoden, waardoor de computationele resources die nodig zijn voor training worden verminderd. Quantum machine learning-algoritmen zouden bijvoorbeeld de optimalisatie van complexe neurale netwerken kunnen verbeteren, wat leidt tot snellere trainingstijden en mogelijk betere modelprestaties.
Er blijven echter aanzienlijke uitdagingen in het opschalen van quantum computers en het ontwikkelen van robuuste quantum-algoritmen. De technologie is nog grotendeels experimenteel en praktische quantumcomputers met voldoende qubits (quantum bits) en coherentietijden zijn nog niet direct beschikbaar. Bovendien vereist de ontwikkeling van quantum-algoritmen die zijn afgestemd op specifieke AI-taken, gespecialiseerde expertise en is het een voortdurend onderzoeksgebied. Wijdverbreide adoptie van quantum computing in AI blijft nog enkele jaren verwijderd en is waarschijnlijk pas praktisch als computers beschikbaar zijn.
Neuromorphic Computing
Neuromorphic computing bootst de structuur en functie van het menselijk brein na om computation uit te voeren. In tegenstelling tot traditionele computers die vertrouwen op binaire logica en sequentiële verwerking, gebruiken neuromorphic chips kunstmatige neuronen en synapsen om informatie op een parallelle en energie-efficiënte manier te verwerken. Deze architectuur is geschikt voor AI-taken die patroonherkenning, leren en aanpassing omvatten, zoals redeneermodeltraining. Neuromorphic chips zouden mogelijk het energieverbruik en de latentie die samenhangen met het trainen van grote AI-modellen kunnen verminderen, waardoor het economisch haalbaarder en ecologisch duurzamer wordt.
Intel’s Loihi en IBM’s TrueNorth zijn voorbeelden van neuromorphic chips die veelbelovende resultaten hebben laten zien in AI-toepassingen. Deze chips zijn in staat om complexe AI-taken uit te voeren met een aanzienlijk lager energieverbruik in vergelijking met traditionele CPU’s en GPU’s. Neuromorphic computing is echter nog een relatief nieuw terrein en er blijven uitdagingen in de ontwikkeling van robuuste programmeertools en het optimaliseren van algoritmen voor neuromorphic architecturen. Bovendien hebben de beperkte beschikbaarheid van neuromorphic hardware en het gebrek aan wijdverbreide expertise in neuromorphic computing de adoptie van deze technologie in mainstream AI-toepassingen belemmerd.
Analog Computing
Analog computing gebruikt continue fysieke grootheden, zoals spanning of stroom, om informatie weer te geven en te verwerken, in plaats van discrete digitale signalen. Analoge computers kunnen bepaalde wiskundige bewerkingen, zoals differentiaalvergelijkingen en lineaire algebra, veel sneller en efficiënter uitvoeren dan digitale computers, vooral bij taken die nuttig kunnen zijn voor redeneren. Analoge computation kan nuttig zijn voor het trainen van modellen of voor het uitvoeren van inferentie wanneer dat nodig is.
Analoge computation staat echter voor uitdagingen op het gebied van precisie, schaalbaarheid en programmeerbaarheid. Analoge circuits zijn vatbaar voor ruis en drift, waardoor de nauwkeurigheid van berekeningen kan afnemen. Het opschalen van analoge computers om grote en complexe AI-modellen te verwerken, is ook een technische uitdaging. Bovendien vereist het programmeren van analoge computers doorgaans gespecialiseerde expertise en is het moeilijker dan het programmeren van digitale computers. Ondanks deze uitdagingen is er groeiende interesse in analoge computation als een potentieel alternatief voor digitale computation voor specifieke AI-toepassingen, met name die welke hoge snelheid en energie-efficiëntie vereisen.
Distributed Computing
Distributed computing omvat het distribueren van AI-workloads over meerdere machines of apparaten die zijn verbonden door een netwerk. Met deze aanpak kunnen organisaties de collectieve rekenkracht van een groot aantal resources benutten om AI-training en -inferentie te versnellen. Distributed computing is essentieel voor het trainen van grote taalmodellen (LLM’s) en andere complexe AI-modellen die enorme datasets en computationele resources vereisen.
Frameworks zoals TensorFlow, PyTorch en Apache Spark bieden tools en API’s voor het distribueren van AI-workloads over clusters van machines. Met deze frameworks kunnen organisaties hun AI-capaciteiten opschalen door indien nodig meer computationele resources toe te voegen. Distributed computing introduceert echter uitdagingen op het gebied van databeheer, communicatieoverhead en synchronisatie. Het efficiënt distribueren van data over meerdere machines en het minimaliseren van communicatievertragingen is cruciaal voor het maximaliseren van de prestaties van gedistribueerde AI-systemen. Bovendien is het waarborgen dat de verschillende machines of apparaten correct zijn gesynchroniseerd en gecoördineerd, essentieel voor het bereiken van nauwkeurige en betrouwbare resultaten.
Conclusie
Het traject van redeneermodellen is onmiskenbaar verweven met de beschikbaarheid en schaalbaarheid van computationele resources. Hoewel het huidige tempo van vooruitgang dat wordt gedreven door verhoogde rekenkracht indrukwekkend is, suggereren verschillende factoren, waaronder de schaarste aan hoogwaardige trainingsdata, de stijgende kosten van rekenkracht en de opkomst van alternatieve computationele paradigma’s, dat het tijdperk van ongebreidelde computeschaling zijn grenzen nadert. De toekomst van redeneermodellen zal waarschijnlijk afhangen van ons vermogen om deze beperkingen te overwinnen en nieuwe benaderingen te onderzoeken om AI-mogelijkheden te verbeteren. Met al deze informatie kunnen we aannemen dat de toename van de mogelijkheden van redeneermodellen binnenkort kan beginnen te vertragen vanwege een van de talrijke beperkingen die worden besproken.