Was GPT-4.5 een mislukking?

De schaal en reikwijdte van GPT-4.5

GPT-4.5 vertegenwoordigt OpenAI’s meest ambitieuze onderneming tot nu toe in termen van pure omvang. Hoewel precieze details over de architectuur en trainingsgegevens schaars blijven, is het bekend dat het trainingsproces zo rekenintensief was dat het distributie over meerdere datacenters vereiste. Dit alleen al wijst op de monumentale middelen die in de ontwikkeling zijn gestoken.

De prijsstructuur van het model onderstreept verder zijn positionering als een premium aanbod. De kosten zijn aanzienlijk hoger dan die van zijn voorgangers, en overtreffen GPT-4o met een factor 15-30X, o1 met 3-5X en Claude 3.7 Sonnet met 10-25X. Toegang is momenteel beperkt tot ChatGPT Pro-abonnees (tegen een forse $200 per maand) en API-klanten die bereid zijn te betalen op basis van per-token.

De prestatieverbeteringen, althans op sommige gebieden, komen echter niet helemaal overeen met het prijskaartje. Initiële benchmarks lieten slechts bescheiden verbeteringen zien ten opzichte van GPT-4o en toonden zelfs aan dat GPT-4.5 achterbleef bij modellen als o1 en o3-mini in redeneertaken.

Het beoogde doel van GPT-4.5 begrijpen

Het is cruciaal om te erkennen dat OpenAI GPT-4.5 nooit expliciet heeft gepromoot als zijn vlaggenschip, all-purpose model. In feite verduidelijkten vroege versies van hun blogpost dat het niet bedoeld was als een ‘frontier model’ dat de absolute grenzen van de mogelijkheden verlegt. Bovendien is het niet primair ontworpen als een redeneermodel, waardoor directe vergelijkingen met modellen die voor dat doel zijn geoptimaliseerd (zoals o3 en DeepSeek-R1) enigszins misleidend zijn.

OpenAI heeft aangegeven dat GPT-4.5 zijn laatste niet-chain-of-thought model zal zijn. Dit betekent dat de training zich sterk richtte op het inbedden van enorme hoeveelheden wereldkennis en het afstemmen op gebruikersvoorkeuren, in plaats van op het ontwikkelen van complexe redeneervaardigheden.

Waar GPT-4.5 zou kunnen uitblinken: Kennis en Nuance

Het belangrijkste voordeel van grotere modellen ligt vaak in hun uitgebreide capaciteit voor kennisverwerving. GPT-4.5, in lijn met dit principe, vertoont een verminderde neiging tot hallucineren in vergelijking met zijn kleinere tegenhangers. Dit maakt het potentieel waardevol in scenario’s waar strikte naleving van feiten en contextuele informatie van het grootste belang is.

Bovendien vertoont GPT-4.5 een verbeterd vermogen om gebruikersinstructies en -voorkeuren te volgen. Dit is aangetoond in verschillende demonstraties door OpenAI en bevestigd door online gedeelde gebruikerservaringen. Het model lijkt de nuances van de gebruikersintentie effectiever te begrijpen, wat leidt tot meer op maat gemaakte en relevante outputs.

Het debat over prozakwaliteit: Subjectiviteit en Potentieel

Er is een levendige discussie ontstaan over het vermogen van GPT-4.5 om superieur proza te genereren. Sommige OpenAI-executives hebben de outputkwaliteit van het model geprezen, waarbij CEO Sam Altman zelfs suggereerde dat interactie ermee een glimp van ‘AGI’ (Artificial General Intelligence) opleverde voor sommige kritische testers.

De bredere reactie is echter beslist gemengd. OpenAI mede-oprichter Andrej Karpathy anticipeerde op verbeteringen in taken die minder afhankelijk zijn van puur redeneren, met de nadruk op gebieden als ‘EQ’ (emotionele intelligentie), creativiteit, het maken van analogieën en humor – aspecten die vaak worden belemmerd door wereldkennis en algemeen begrip.

Interessant genoeg onthulde een volgende enquête uitgevoerd door Karpathy een algemene gebruikersvoorkeur voor de reacties van GPT-4o boven die van GPT-4.5 in termen van schrijfkwaliteit. Dit benadrukt de inherente subjectiviteit bij het evalueren van proza en suggereert dat bekwame prompt engineering vergelijkbare kwaliteit zou kunnen ontlokken aan kleinere, efficiëntere modellen.

Karpathy erkende zelf de ambiguïteit van de resultaten en suggereerde verschillende mogelijke verklaringen: de ‘high-taste’ testers zouden subtiele structurele verbeteringen kunnen waarnemen die door anderen worden gemist, de geteste voorbeelden zijn misschien niet ideaal geweest, of de verschillen zijn misschien gewoon te subtiel om te onderscheiden in een kleine steekproefomvang.

De grenzen van schaling en de toekomst van LLM’s

De release van GPT-4.5 onderstreept in sommige opzichten de potentiële beperkingen van het simpelweg opschalen van modellen die zijn getraind op enorme datasets. Ilya Sutskever, een andere OpenAI mede-oprichter en voormalig chief scientist, verklaarde op NeurIPS 2024 dat ‘pre-training zoals we die kennen ongetwijfeld zal eindigen… We hebben piekdata bereikt en er zal niet meer zijn. We moeten omgaan met de data die we hebben. Er is maar één internet.’

De afnemende meeropbrengsten die bij GPT-4.5 worden waargenomen, getuigen van de uitdagingen van het schalen van algemene modellen die voornamelijk zijn getraind op internetgegevens en verfijnd voor afstemming door middel van reinforcement learning from human feedback (RLHF).

De volgende grens voor grote taalmodellen lijkt test-time scaling (of inference-time scaling) te zijn. Dit omvat het trainen van modellen om langer te ‘denken’ door chain-of-thought (CoT) tokens te genereren. Test-time scaling verbetert het vermogen van een model om complexe redeneerproblemen aan te pakken en is een sleutelfactor geweest in het succes van modellen als o1 en R1.

Geen mislukking, maar een fundament

Hoewel GPT-4.5 misschien niet de optimale keuze is voor elke taak, is het cruciaal om zijn potentiële rol als een fundamenteel element voor toekomstige ontwikkelingen te erkennen. Een robuuste kennisbasis is essentieel voor de ontwikkeling van meer geavanceerde redeneermodellen.

Zelfs als GPT-4.5 zelf niet het go-to model wordt voor de meeste toepassingen, kan het dienen als een cruciale bouwsteen voor volgende redeneermodellen. Het is zelfs aannemelijk dat het al wordt gebruikt binnen modellen als o3.

Zoals Mark Chen, OpenAI’s Chief Research Officer, uitlegde: ‘Je hebt kennis nodig om daarop voort te bouwen. Een model kan niet blindelings redeneren leren. We vinden deze twee paradigma’s dus behoorlijk complementair, en we denken dat ze feedback loops op elkaar hebben.’

De ontwikkeling van GPT-4.5 vertegenwoordigt daarom geen doodlopende weg, maar een strategische stap in de voortdurende evolutie van grote taalmodellen. Het is een bewijs van de iteratieve aard van AI-onderzoek, waarbij elke stap, zelfs als deze op zichzelf schijnbaar teleurstellend is, bijdraagt aan de bredere vooruitgang naar meer capabele en veelzijdige AI-systemen. De focus verschuift nu naar het benutten van deze sterke kennisbasis om modellen te bouwen die niet alleen informatie kunnen oproepen, maar ook kunnen redeneren en problemen kunnen oplossen met ongekende effectiviteit. De reis naar echt intelligente AI gaat door, en GPT-4.5, ondanks de gemengde ontvangst, speelt een belangrijke rol in die reis.
De focus ligt nu niet alleen op hoeveel een model weet, maar hoe goed het die kennis kan gebruiken. Dit is de kernuitdaging waar de AI-gemeenschap mee worstelt, en GPT-4.5, hoewel geen perfecte oplossing, biedt waardevolle inzichten en een solide basis voor toekomstige doorbraken. De weg vooruit omvat een combinatie van benaderingen: het verfijnen van bestaande technieken, het verkennen van nieuwe architecturen en het ontwikkelen van meer geavanceerde methoden voor training en evaluatie. Het uiteindelijke doel blijft hetzelfde: AI-systemen creëren die niet alleen menselijke taal kunnen begrijpen en genereren, maar ook kunnen redeneren, leren en zich aanpassen op manieren die ooit werden beschouwd als het exclusieve domein van menselijke intelligentie.