De ontwikkeling van GPT-4.5, een project dat twee jaar geleden werd gestart, vertegenwoordigt OpenAI’s meest ambitieuze onderneming tot nu toe. Deze enorme inspanning vereiste de gezamenlijke inspanningen van honderden individuen, waarbij Sam Altman, CEO van OpenAI, opmerkte dat het project vrijwel de volledige organisatie betrok.
Het overwinnen van ‘catastrofale problemen’ bij grootschalige training
De reis om GPT-4.5 te creëren was niet zonder obstakels. Het team stuitte op tal van ‘catastrofale problemen’ tijdens de onderzoeks- en ontwikkelingsfase. Het gebruik van een cluster van 100.000 GPU’s legde voorheen ongeziene, lage-waarschijnlijkheid, maar diepgaande infrastructuurfouten bloot. Om doelmatigheid in evenwicht te brengen met optimale prestaties, werd OpenAI’s systeemteam gedwongen om een ‘fix-as-we-go’-aanpak te hanteren. Een bijzonder ongrijpbare bug plaagde het cluster met frequente fouten, die onopgemerkt bleven tot ongeveer 40% van het trainingsproces was verstreken.
Ondanks deze uitdagingen katalyseerde het GPT-4.5-project de ontwikkeling van een robuustere technologiestack. Tegenwoordig kan een klein team van slechts 5-10 personen een groot model repliceren dat lijkt op GPT-4. De prestatiewinst van GPT-4 naar GPT-4.5 was ongeveer tienvoudig, wat resulteerde in ‘intelligentie die moeilijk te kwantificeren is, maar in alle aspecten verbeterd’, een resultaat dat zelfs OpenAI’s eigen personeel verraste.
Verschuiving van focus: van rekenkracht naar data-efficiëntie
OpenAI is tot het besef gekomen dat het bereiken van de volgende tienvoudige of honderdvoudige sprong in prestaties niet afhangt van brute rekenkracht, maar van data-efficiëntie - specifiek het vermogen om meer kennis uit dezelfde hoeveelheid data te halen, terwijl er meer rekenkracht wordt benut.
De architectuur evolueert ook van een single-cluster naar een multi-cluster paradigma. Toekomstige trainingsiteraties kunnen collaboratief leren omvatten over maar liefst 10 miljoen GPU’s, wat een verhoogde fouttolerantie vereist.
Sam Altmans dialoog met het GPT-4.5-team
Het volgende is een bewerkte compilatie van een discussie tussen Sam Altman en het OpenAI GPT-4.5-team:
Sam Altman: Wat is er nodig om zo’n groot model als GPT-4.5 te bouwen?
Alex Paino: We zijn dit project ongeveer twee jaar geleden begonnen. Destijds stond OpenAI op het punt een nieuw groot computercluster te lanceren, en ons team zag dit als een mogelijkheid om een reeks operaties uit te voeren om te bepalen welke functies het model moest bevatten, en voerde een groot aantal risicobeperkende operatietests uit.
We hebben hiervoor een lang plan ontwikkeld, dat de hele technologiestack van systeem tot machine learning omvat. Het verminderen van risico’s en het voorbereiden van training is een lang uitvoeringsproces, en training zelf is een zeer groot project.
Amin Tootoonchian: Ik denk dat dit proces vanaf het begin een nauwe samenwerking vereist tussen het machine learning-team en het systeemteam, totdat we duidelijk hebben welk model we willen trainen, en dan met de training beginnen.
We hebben voorspellingen gedaan in zowel machine learning- als systeemaspecten, in een poging om de kloof tussen verwachting en realiteit zoveel mogelijk te verkleinen. Maar omdat ons werktempo hoog is en we de nieuwste computerbronnen moeten gebruiken, is modeltraining iets geworden dat moeilijk perfect van tevoren te plannen is.
We beginnen bijna altijd met trainen met veel onopgeloste problemen en proberen uitdagingen te overwinnen en vooruitgang te boeken tijdens de operatie. De belangrijkste oplossing is om meer computerbronnen toe te voegen.
De laatste fase is de uitvoering, die vereist dat veel mensen lange tijd veel energie en motivatie investeren om het trainingsproces te voltooien.
Sam Altman: Hoe groot is volgens jou de kloof tussen onze verwachtingen en de realiteit?
Amin Tootoonchian: Qua systeem zijn we meestal ver verwijderd van de verwachte staat aan het begin. We staan altijd voor de keuze: het begin uitstellen en wachten tot het probleem is opgelost, of vroeg beginnen en het probleem in het proces oplossen. Dit vereist altijd een afweging om onredelijke vertragingen in het proces te voorkomen.
Maar er zijn bijna altijd wel onverwachte problemen, en wat we moeten doen, is deze knelpunten zoveel mogelijk aanpakken, de onbekende factoren aanpakken en een plan formuleren voor modeltraining.
Alex Paino: In dit project is ons doel om GPT-4.5 te maken, wat betekent dat de mogelijkheden ervan 10 keer slimmer moeten zijn dan GPT-4. Dit is het aanvankelijke doel dat we ongeveer 2 jaar geleden hebben gesteld.
Er is veel gebeurd tijdens dit proces. We dachten na over de vraag of we het beter zouden kunnen doen of slechter zouden zijn dan verwacht? Dit is een zeer ingewikkeld proces, maar uiteindelijk hebben we, in termen van de effectieve berekeningen die we hebben geïnvesteerd, een model gekregen dat volgens ons 10 keer slimmer is geworden dan GPT-4.
Amin Tootoonchian: Qua uitvoering ligt de tijd die aan het GPT-4.5-project is besteed ver verwijderd van wat we aanvankelijk hadden verwacht.
Sam Altman: Waarom zijn jullie op zoveel problemen gestuit toen het cluster uitbreidde van 10.000 kaarten naar 100.000 kaarten?
Amin Tootoonchian: Ik denk dat als systeemontwikkelaars gevoelig genoeg zijn, de meeste problemen in de kleinschalige fase kunnen worden waargenomen.
Sommige problemen zijn niet uniek voor de grootschalige trainingsfase, maar zijn al vaker voorgekomen, maar worden catastrofale problemen nadat de schaal is vergroot, vooral wanneer het team niet had verwacht dat deze problemen in zo’n mate zouden verergeren.
Sam Altman: Welke dingen hebben catastrofale gevolgen gehad?
Amin Tootoonchian: Ik denk dat infrastructuurproblemen algemeen bekend zijn, of het nu gaat om het uitvalpercentage, het type uitval of de totale hoeveelheid uitval, is erg hoog. Het 100.000-kaartencluster is een grootschalige samplepool, dus we hebben ook problemen ontdekt die de leverancier van computerkracht niet heeft waargenomen.
Het netwerk is er een van, en individuele versnellers kunnen ook problemen hebben. Maar dit is ook de schoonheid van dit systeem - bijna alle componenten moeten werken zoals verwacht om de verwachte resultaten te produceren. Het is onze taak om dit probleem zoveel mogelijk te minimaliseren.
Sam Altman: Het is inderdaad moeilijk om op de limiet van de clustergrootte te werken, maar ik heb ook gemerkt dat het veel gemakkelijker is geworden om dingen te doen die niet langer toonaangevend zijn in de technologie. Voor het trainen van GPT-4.5 zijn honderden mensen nodig, en OpenAI heeft bijna iedereen aan boord.
Maar als je vandaag het kleinste team van OpenAI zou selecteren en GPT-4 helemaal opnieuw zou trainen met alle kennis en systeemwerk dat we kennen, hoeveel mensen zouden er dan nodig zijn?
Alex Paino: Ik denk dat er nu ongeveer 5 tot 10 mensen nodig zijn om een model op GPT-4-niveau te maken. De technologiestack is enorm verbeterd tijdens het voltooien van GPT-4.5.
In feite hebben we tijdens het trainen van GPT-4.5 iets soortgelijks gedaan - we hebben GPT-4o getraind, wat een model op GPT-4-niveau is, en het opnieuw getraind met veel van dezelfde inhoud uit het GPT-4.5-onderzoeksproject. Er zijn minder mensen gebruikt voor die training.
Sam Altman: Vanuit jouw perspectief, Dan? Waarom is het moeilijk om grote modellen te trainen?
Daniel Selsam: Ik denk dat het moeilijk is om iets nieuws te doen. Ik denk dat zelfs alleen al ontdekken dat iemand anders iets heeft gedaan, het veel gemakkelijker maakt, omdat het moeilijkste is om in de eerste plaats het vertrouwen te hebben om iets te doen. Ik denk dat alleen al weten dat iets haalbaar is, een supercheatcode is die dingen veel gemakkelijker maakt.
Alex Paino: We breiden de GPT-pre-trainingrun uit tot 10 keer de vorige grootte, en we vinden altijd wel interessante nieuwe dingen die je niet per se kunt voorspellen.
Sam Altman: Wat is er nodig om de volgende 10x of 100x groei in pre-trainingsschaal te bereiken?
Daniel Selsam: Data-efficiëntie. De Transformer-architectuur (d.w.z. GPT) is zeer efficiënt in het gebruik van data. Het kan informatie goed absorberen en comprimeren en generalisatie bereiken. Het grootste kenmerk is dat het efficiënt informatie kan absorberen met computerbronnen.
De diepte van het inzicht dat het uit data haalt, is echter beperkt. Wanneer de computerkracht snel groeit en de data relatief langzaam groeit, wordt data een bottleneck voor dit standaardmodel. Dit vereist algoritmische innovatie om methoden te ontwikkelen die meer computerkracht kunnen gebruiken om meer kennis uit dezelfde hoeveelheid data te halen.
Sam Altman: Wat denk je nog meer dat we nodig hebben om de uitbreiding te behouden?
Amin Tootoonchian: Mijn antwoord gaat over het systeem. Ik denk dat de enorme hoeveelheid werk die nodig is voor GPT-4.5 in wezen het onvermijdelijke resultaat is van modelspecificaties. We kunnen GPT-4.5 niet trainen met exact dezelfde technische architectuur als GPT-4.
Qua state management moeten we, omdat de benodigde computerbronnen de capaciteit van een enkel cluster hebben overschreden, overschakelen op een multi-cluster trainingsarchitectuur. Om dit doel te bereiken, moeten we meerdere verschillende workflows in korte tijd integreren.
Hoewel dit ons inderdaad heeft geholpen om fase doorbraken te bereiken, moeten we, om de volgende orde van grootte prestatieverbetering te bereiken, nog steeds verschillende bekende, maar tijdelijk opgeschorte technische problemen oplossen - deze problemen kunnen niet worden vermeden. Het is dit soort technische afweging dat de R&D-cyclus van het perfecte systeem voortdurend verlengt, en we maken altijd strategische afwegingen in het proces van het nastreven van het optimale implementatieplan.
Het moet duidelijk zijn dat het systeem zelf niet het uiteindelijke doel is, en de werkelijke outputwaarde ervan de belangrijkste overweging is. Voor de volgende 10x prestatieverbetering denk ik dat de doorbraak in fouttolerantie cruciaal is. We moeten een fouttolerantie mechanisme bouwen dat diep synergetisch is met de workload om de operationele en onderhoudsspanning aanzienlijk te verminderen. De operationele en onderhoudscomplexiteit van de huidige ultragrootschalige systemen verschilt in wezen van eerdere systemen.
Sam Altman: Weet je welk percentage van de storingen werd veroorzaakt door bepaalde componenten tijdens de GPT-4.5-training?
Amin Tootoonchian: Ik heb geen specifieke cijfers om te delen, maar in het algemeen worden we in de vroege stadia van de implementatie van een nieuwe generatie hardware vaak geconfronteerd met veel technische uitdagingen die niet volledig worden begrepen. We hebben ervoor gekozen om het project te versnellen voordat het probleem volledig was gedefinieerd, wat leidde tot een hoog initieel uitvalpercentage.
Maar de ervaring heeft geleerd dat naarmate de oorzaak wordt geïdentificeerd en opgelost, het uitvalpercentage aanzienlijk zal dalen. Dit fenomeen weerspiegelt in wezen ons verdiepende begrip van de infrastructuur - sommigen noemen het het opschonen van de infrastructuur of het begrijpen van de basisproblemen van de infrastructuur.
De vroege stadia van de uitvoering zijn bijna altijd behoorlijk pijnlijk. Terwijl we het project voortzetten, ontdekken en lossen we ook voortdurend nieuwe uitvalmodi op, maar het uitvalpercentage zal geleidelijk afnemen en de normale werkingstijd zal langer worden.
Dit is in wezen een kwestie van prioriteitsafwegingen: in de vroege stadia van de levenscyclus van de infrastructuur is het faalrisico vaak moeilijk nauwkeurig in te schatten; en als we buitensporig het ultieme ideaal nastreven (het origineel is ‘City Estate’, het ideale stadsstaatontwerp), kan dit leiden tot het systeem. De beschikbaarheidsprestaties in de vroege stadia zijn uiterst slecht.
Sam Altman: Hoewel het redeneermodel een belangrijk onderdeel is van onze toekomstige technologiestack, laten we ons tijdelijk concentreren op de ontwikkelingsgrens van het traditionele pre-trainingsmodel. Stel dat we onbeperkte GPU-computerkracht, onbeperkte netwerkbandbreedte en onbeperkte stroomvoorziening hebben, maar nog steeds worden beperkt door bestaande technische knelpunten - waaronder betrouwbaarheidsproblemen van het systeem, het ontbreken van fouttolerante trainingsmethoden en de beperkingen van bestaande datasets.
Volgens onze evolutiewet van het bereiken van een 100-voudige schaalvergroting in elk belangrijk GPT-versienummer, op basis van de huidige technische grenzen, welk niveau kan de ontwikkeling van het pre-trainingsmodel bereiken? Specifiek voor de GPT-serie modellen, wat voor soort model kunnen we theoretisch trainen met ons bestaande kennissysteem? Kan GPT-5.5 worden gemaakt?
Alex Paino: Vanuit het perspectief van machine learning en algoritmeontwikkeling hebben we nog geen duidelijke theoretische bovengrens bereikt. In feite beginnen we pas algoritmen met een hogere data-efficiëntie te onderzoeken en hoe we bestaande databronnen vollediger kunnen benutten. Deze situatie is erg interessant - zelfs modellen als GPT-4 zijn grotendeels ontwikkeld onder de beperkingen van beperkte computerbronnen, wat ook de richting van de meeste eerdere onderzoeken bepaalt.
Maar de situatie is nu compleet anders. Sinds GPT-4.5 wordt in sommige belangrijke dimensies data in plaats van computing de belangrijkste beperking. Deze verschuiving maakt gerelateerd onderzoek minder spannend.
Sam Altman: Maar dit is inderdaad een geweldige vooruitgang, en de wereld realiseert zich misschien niet volledig dat computerbronnen niet langer het belangrijkste knelpunt zijn in het beste model dat we kunnen bouwen. Deze verandering is diepgaand, we hebben immers te lang in een computing-beperkte omgeving geleefd.
Sam Altman: Wat is de meest interessante machine learning-ervaring die we hebben geleerd tijdens het trainen van GPT-4.5? Praat gewoon over wat je wilt delen.
Amin Tootoonchian: Over het algemeen zijn de meest tot nadenken stemmende situaties de situaties die afwijken van onze voorspellingen - vooral wanneer we proberen te begrijpen waarom de werkelijke prestaties afwijken van de verwachte curve.
Alex Paino: Een van de meest verrassende bevindingen voor ons is dat de schaalbaarheidsprestaties van verschillende machine learning-componenten sterk variëren. Sommige onderdelen kunnen goed worden geschaald, terwijl andere dat niet kunnen. Dit is wat we echt hebben gerealiseerd in het daadwerkelijke trainingsproces. Deze ervaring heeft ons veel inspiratie gegeven.
Daniel Selsam: Ik denk dat de twee belangrijkste kenmerken van het GPT-paradigma zijn: ten eerste kan het testverlies (een meetwaarde om te meten hoe goed het model presteert op onbekende testdata) nauwkeurig worden voorspeld; ten tweede vertonen de modelprestaties een voorspelbare verbetering met de uitbreiding van de schaal. Nog magischer is dat de vermindering van het testverlies zich zal omzetten in een allround verbeterd niveau van intelligentie op verschillende manieren die moeilijk te kwantificeren maar verbazingwekkend zijn.
Sam Altman: Ben je hier absoluut optimistisch over? Ben je het volledig eens met deze mening?
Daniel Selsam: Wat ik eigenlijk wil zeggen, is dat we bijzonder interessante verschijnselen hebben gevonden in de GPT-4.5-test - na hertesten vertoonde het model veel subtiele vaardigheden die ieders verwachtingen volledig overtroffen.
We zijn er zeker van dat het op verschillende manieren slimmer zal worden die niet van tevoren kunnen worden gedefinieerd, en na daadwerkelijke implementatie kunnen we deze subtiele niveaus van verbetering observeren vanuit de tevredenheid van de gebruiker: sterkere common sense-reserves, nauwkeurigere mogelijkheden voor contextueel begrip en een delicatere semantische grip - dit is precies de magie die wordt gebracht door die extra testverliezen. Naar mijn mening is Scaling Law perfect geverifieerd in deze dimensie.
Sam Altman: Wat was het meest positieve moment tijdens het hele trainingsproces? Wat is je favoriete herinnering? Er is duidelijk veel pijn, maar ik hoop dat die pijnen zijn verlicht.
Alex Paino: Ik heb zo’n moment. We hebben veel machine learning-werk gedaan tijdens het trainen. Ik denk dat sommige van de wijzigingen die we tijdens de operatie hebben aangebracht een redelijk goede impact hebben gehad, mogelijk beter dan verwacht, wat een zeer spannend moment voor ons was.
Amin Tootoonchian: Voor mij bouwen we tegelijkertijd met het trainen ook infrastructuur. We zijn er vast van overtuigd dat we deze prestatiekloof kunnen oversteken, en we hebben een plan, en iedereen voert het uit, maar het duurt lang. Dit is hard werken en zeker moeilijker dan ik dacht. Mijn voorspelling was verkeerd en ik heb de tijd onderschat die nodig is om deze problemen op te lossen.
Het moment waarop het team uiteindelijk die belangrijkste problemen overwon en de prestaties aanzienlijk werden verbeterd, staat me nog steeds helder voor de geest. Je kunt duidelijk de energietransformatie van het hele team voelen - iedereen zit plotseling vol energie en snelt met nieuwe motivatie op het uiteindelijke doel af.
Het meest magische is dat de geschatte voltooiingstijd die op onze status tracker wordt weergegeven, bleef inkorten van de aanvankelijke twee jaar, en uiteindelijk werd vergrendeld op een duidelijk tijdstip. Deze zichtbare vooruitgang heeft een onmetelijke boost gegeven aan het moreel van het team. Ik denk dat dit de schoonheid ervan is.
Ik wil benadrukken dat machine learning-werk nooit is gestopt. Zelfs nadat de training is gestart, gaat dit machine learning-co-designproces door. Het machine learning-team volgt niet alleen actief die problemen op die als ‘vervolgverwerking’ zijn gemarkeerd, maar levert ook voortdurend verbeteringen die de trainingstijd echt optimaliseren.
Dit weerspiegelt perfect onze teamgeest - er is hier geen “iedereen veegt de sneeuw voor de eigen deur” werkgrens, maar een echt naadloze samenwerking, en deze samenhang is onze grootste kracht.
Sam Altman: De buitenwereld heeft veel besproken over de uitdagingen en de voorspellingsnauwkeurigheid van deze training zelf. Maar in feite is dit alles gebaseerd op een uiterst grondige planning - kun je hier meer in detail over praten?
Alex Paino: Dit is absoluut ons meest grondige plan tot nu toe. Zoals ik al zei, zijn we een jaar voor de officiële start van de training begonnen met de voorbereidingen voor dit project. Tijdens deze periode hebben we meerdere grootschalige risicobeheertests uitgevoerd.
We besteden speciale aandacht aan het geleidelijk introduceren van alle verbeteringen: beginnend met een basisconfiguratie met een hoog vertrouwen - die kan worden begrepen als een volwassen architectuur vergelijkbaar met GPT-4, we hebben deze configuratie op machine learning-niveau volledig onder de knie - en voegen vervolgens laag voor laag nieuwe functies toe als bouwstenen.
De sleutel is om de schaalbaarheid van elke verbetering op verschillende schalen strikt te verifiëren: niet alleen om prestatieverbeteringen te zien, maar ook om ervoor te zorgen dat deze verbeteringen effectief blijven naarmate de modelschaal toeneemt. Veel verbeteringen presteren goed in kleinschalige tests, maar zullen falen in grootschalige toepassingen.
Daarom hebben we gedurende het hele proces een hoge mate van waakzaamheid gehandhaafd en onze methodologie voor expansiewetten blijven herhalen en verbeteren. Door deze risicobeheerpraktijk hebben we veel waardevolle ervaring opgedaan die de ontwikkeling van toekomstige GPT-serie modellen zal blijven begeleiden.
Amin Tootoonchian: Ik herinner me een bijzonder interessant moment dat ik erg mis. Weet je, we komen bijna altijd verschillende bugs tegen elke keer dat we een trainingstaak starten. Dit is alledaags. Maar de sleutel is om ervoor te zorgen dat de voortgang niet wordt geblokkeerd en om altijd te bevestigen dat de huidige voortgang inderdaad op de goede weg is en of deze bugs een fatale impact zullen hebben op de gezondheid van de training.
Hoewel we aanvankelijk veel vertrouwen hadden in het feit dat er grote defecten waren, zijn we via het hele monitoringsysteem dat we hebben gebouwd in staat geweest om de oorzaak van het probleem nauwkeurig te onderscheiden: is het een hardwarefout? Welk type hardwarefout? Is het datacorruptie? Of is het een bug in het machine learning-model zelf? Of is het een race conditie in de code?
Op dat moment hadden we tegelijkertijd meerdere probleemdiscussiegebieden openstaan, met verschillende symptomen. Na een reeks bugfixes zaten we vast: er lagen meerdere onopgeloste problemen voor ons en iedereen brak zich het hoofd - werden deze veroorzaakt door verschillende bugs? Of is het een bug op het werk?
Later hielden we een stemming om teamleden te laten stemmen op de meest waarschijnlijke oorzaak. De minst veelbelovende optie raakte de waarheid: het bleek dat er een probleem was met de torch.sum-functie stroomopwaarts van PyTorch, een eenvoudige optelsom.
Deze bug is bijzonder interessant. Weet je, we gebruiken voornamelijk de Triton-kernel, en we vallen alleen terug op torch-operaties in sommige onbelangrijke edge-scenario’s. En de torch.sum-functie bug die wordt geactiveerd door ons specifieke codepad, zal per ongeluk illegale geheugentoegang veroorzaken vanwege de kenmerken van de datadistributie - het maakte een fout bij het berekenen van de geheugenoffset.
Het meest dramatische is dat toen een ingenieur het probleem uiteindelijk lokaliseerde en een fix indiende, alle foutrapporten met verschillende symptomen verdwenen. Iedereen veranderde opgewonden het Slack-kanaal van de “multi-bug theorie” in de “single-bug theorie”, en de scène was erg blij.
Hoe lang heeft deze bug op de loer gelegen? Het bestaat al sinds de vroege stadia van de training en werd pas geïdentificeerd toen de voortgangsbalk ongeveer 40% passeerde. Het ontdekkingsproces zat ook vol drama: op dat moment riep een complexe kernel sequentieel sequenties aan, en de tweede aanroep veroorzaakte illegale geheugentoegang.
Hoewel deze crashfrequentie extreem laag is (het komt slechts één keer per honderden of zelfs duizenden trainingsstappen voor), is het gemakkelijk om te worden genegeerd als een incidentele fout, maar de richtlijn van ons team is: laat nooit afwijkingen los. Het beste deel van dit verhaal ligt in dit doorzettingsvermogen om niet gemakkelijk op te geven.
Sam Altman: Wat moet je nog meer doen nadat de GPT-4.5 pre-training is gestart?
Alex Paino: We moeten allemaal de loss curve regelmatig observeren. Daarnaast moeten we het systeem blijven optimaliseren en het co-design verbeteren dat niet was voltooid voordat de training begon. We houden verschillende statistieken tijdens het trainingsproces nauwlettend in de gaten om ervoor te zorgen dat er geen onverwachte trends zijn. Tegelijkertijd onderzoeken we mogelijke verbeteringsplannen vanuit een machine learning-perspectief. Hoewel het data-niveau werk tijdelijk zal worden verminderd nadat de pre-training is gestart, zijn er nog steeds veel taken die moeten worden verwerkt.
Amin Tootoonchian: Ik denk dat machine learning grotendeels afhangt van het correctheidsoordeel. Nadat de pre-training is gestart, en we geconfronteerd worden met een grote hoeveelheid ruissignalen, zijn we als waarzeggers die theebladeren interpreteren, en we moeten beoordelen of het systeem gezond is. Dit is onze verantwoordelijkheid.
Sam Altman: Op systeemniveau, wat zal ons beperken om modeltraining uit te voeren? Is het chip, processor, geheugen, netwerk of stroomvoorziening?
Amin Tootoonchian: De schoonheid van het systeem is dat, wanneer je samenwerkingsontwerp doet, de workload zich kan aanpassen aan de infrastructuur die je bouwt. Er is geen universele uitspraak dat het netwerk de bottleneck is, of dat de geheugenbandbreedte de bottleneck is, enz. Zelfs voor modellen met dezelfde specificatie kunnen we ervoor kiezen om bronvereisten over te dragen. We kunnen ervoor kiezen om een meer gebalanceerd systeem te creëren, maar het is altijd gunstig om meer geheugenbandbreedte te hebben. Het is moeilijk om deze vraag te beantwoorden zonder beperkende voorwaarden.
Bij het ontwerpen van GPT-4.5 hebben we mogelijk een bepaald kenmerk in het systeem nodig, dat moet worden gegenereerd door menselijke begeleiding. Daarom is samenwerkingsontwerp erg belangrijk voor het vormen van de modelarchitectuur en architecturale elementen, en verbindt het tot op zekere hoogte de systeem- en machine learning-aspecten. Als het systeem een kenmerk heeft dat we niet heel graag willen hebben. Mijn ideale situatie is dat alles ontkoppeld moet zijn om elkaar de grootste ruimte te geven.
Soms zijn dingen met elkaar verbonden en moeten we voldoen aan de eisen van de infrastructuur, of de dingen moeten zo zijn. Meestal hebben we een gebalanceerd systeem nodig, een gebalanceerde communicatie. En de beste reguleringsmiddelen die we hebben, zijn al deze collaboratieve ontwerpen.
Sam Altman: Hoe ver zijn we verwijderd van zo’n ideaal systeemdoel?
Amin Tootoonchian: We zijn ver verwijderd van dat doel. Het proces van het bouwen van een systeem is altijd zo: eerst is er een geïdealiseerde visie op hoe de dingen zouden moeten werken, en dan worden die verschillen verzoend met de bestaande middelen.
Ik denk niet dat we het doen voor theorie om de theorie, maar alleen om te bespreken wat we willen dat het wordt, om het te realiseren en om zo dicht mogelijk bij dat ideaal te komen. Dit is misschien wel het meest opwindende deel van het systeemveld. Mensen zeiden vroeger dat dit een elegant systeemontwerp is, en uiteindelijk zal de geschiedenis ons vertellen of deze keuze juist of fout is.
Sam Altman: Als je voor de volgende grote training een antwoord zou kunnen krijgen op een machine learning-vraag, wat zou je dan het liefst willen weten?
Alex Paino: Ik wil weten welke algoritmen we moeten gebruiken onder beperkte data en specifieke gebieden. Hoewel dit een brede vraag is, is het inderdaad de meest cruciale.
Sam Altman: Ga je in de toekomst synchrone pre-training uitvoeren met 10 miljoen GPU’s of meer?
Alex Paino: Ik denk dat dat zal gebeuren, maar het is misschien niet het traditionele pre-trainingsmodel. De vorm ervan kan heel anders zijn dan bestaande technologieën, maar het zal nog steeds de kern van ongesuperviseerd leren behouden.
Amin Tootoonchian: Ik geef de voorkeur aan een semi-synchroon model. Vanwege de natuurwetten is volledige synchronisatie niet erg realistisch.
Daniel Selsam: Ik denk dat het waarschijnlijker is dat het gedecentraliseerd zal zijn. Er zullen zeker 10 miljoen GPU’s samenwerken in een AI-systeem dat taken leert en uitvoert, maar net als de verschillende delen van de hersenen, hoeven ze niet noodzakelijkerwijs met elkaar te communiceren.
Sam Altman: Hoeveel verschil is er tussen de huidige meest geavanceerde algoritmen en de data-efficiëntie van de mens? Is het mogelijk om dat in de toekomst in te halen?
Daniel Selsam: De twee zijn moeilijk rechtstreeks te vergelijken. De kloof in taal leren is zeker enorm. De sleutel ligt in hoe de hoeveelheid informatie wordt gedefinieerd die door menselijke visuele zenuwen wordt ontvangen. Ik denk dat de algehele data-efficiëntie van algoritmen veel lager is dan die van mensen.
Decennialang heeft deep learning zich gericht op computing-efficiëntie. Naast de groei van data en computing-kracht, is het echt verrassende het gesuperponeerde effect dat wordt geproduceerd door algoritmeverbeteringen. Elke keer dat de algoritme prestaties met 10% of 20% worden verbeterd, heeft dit een aanzienlijk effect wanneer het wordt gesuperponeerd op data-efficiëntie. Tot nu toe is er geen dergelijke mobilisatie rond data-efficiëntie geweest, omdat het niet de moeite waard is wanneer data niet stroomt en de computing-kracht beperkt is.
Nu betreden we een nieuwe fase van AI-onderzoek en zullen we beginnen met het verzamelen van data-efficiëntie overwinningen. Ik denk dat het een beetje dwaas is om nu te voorspellen dat we onoverkomelijke obstakels zullen tegenkomen. De manier waarop het menselijk brein werkt, is zeker anders dan onze algoritmeverbeteringen, en we moeten voorzichtig zijn in dit opzicht. Maar ik denk dat we optimistisch moeten blijven over de toekomstige ontwikkeling van algoritmen.
Sam Altman: Wat is de correlatie tussen grootschaliger pre-training en de sterkere leer- en redeneervermogens van het model?
Alex Paino: Wat we hebben waargenomen, is dat betere pre-training en ongesuperviseerd leren de neiging hebben om de algehele intelligentie van het model te verbeteren en de generalisatie aanzienlijk te helpen, wat een aanvulling is op het redeneervermogen, terwijl redeneren misschien een beetje saaier is in het verbeteren van de intelligentie. Ik denk dat ze elkaar aanvullen.
Sam Altman: Pre-training lijkt universeel te zijn in veel dingen, terwijl het trainen van een model het alleen goed kan maken in één type ding, klopt dat?
Alex Paino: Dit is erg interessant, maar als je de data ziet die ze trainen, zal je niet verrast zijn door deze situatie. Het pre-training dataset bereik is erg groot en wat we nastreven is breedte en diversiteit. Als het gaat om model reinforcement learning en het duidelijk laten verkrijgen van goede beloningssignalen en een goede trainingsomgeving, denk ik dat het moeilijk is om rekening te houden met de breedte van de dataset.
Daniel Selsam: Ik ben het ermee eens, maar ik denk dat er nog een andere factor is. Pre-training is in wezen het comprimeren van data, waardoor de verbanden tussen verschillende dingen worden ontdekt. Het gaat over analogie en abstracter. Redeneren is een vaardigheid die zorgvuldig nadenken vereist over een specifiek probleem en kan ook oplossingen opleveren voor veel soorten problemen. Maar in het pre-training proces kan meer abstracte kennis worden geleerd bij het comprimeren van data over verschillende gebieden.
Sam Altman: Waarom is ongesuperviseerd leren effectief?
Daniel Selsam: De sleutel is compressie. De ideale vorm van intelligentie is Solomonov-inductie. Over het algemeen zal machine learning alle mogelijkheden overwegen, maar de neiging hebben om te beginnen met eenvoudigere programma’s om te testen.
De essentie van de huidige pre-training is een compressieproces, dat een benaderende uitdrukking bereikt door het eenvoudigste programma te vinden om alle data te verklaren die mensen tot nu toe hebben geproduceerd.
Sam Altman: Hoe helpt de volgende Token-voorspelling om compressie te bereiken?
Daniel Selsam: Er is een paradox in de statistiek - waarom lijken diepe netwerken niet in staat om te comprimeren, maar kunnen ze generalisatie bereiken? Normaal gesproken, wanneer je veel data en enkele kleine modellen hebt, moeten deze modellen compressie ondergaan om iets te leren.
In pre-training is de schaal van zowel data als modellen erg groot. Sommige mensen denken dat deze training slechts geheugen- en interpolatieleren is. In feite negeren ze een ander perspectief van het begrijpen van compressie - pre-sequentiele compressie. Het is als een compressor.