De Ontstaan van GPT-4.5: Een Tweejarige Odyssee
Het GPT-4.5 initiatief, twee jaar vóór de lancering bedacht, vertegenwoordigde OpenAI’s meest zorgvuldig geplande onderneming tot nu toe. Het vereiste de gezamenlijke inspanning van honderden individuen, waarbij Altman opmerkte dat het project effectief ‘bijna iedereen’ bij OpenAI betrok. Deze wijdverbreide betrokkenheid onderstreept het strategische belang van GPT-4.5 binnen de bredere missie van de organisatie.
Tijdens de ontwikkelingsfase kwam het OpenAI-team wat ze ‘catastrofale problemen’ noemden. De implementatie van een cluster met 100.000 GPU’s legde latente infrastructuurkwetsbaarheden bloot die zich manifesteerden als zeldzame maar diepgaande storingen. Om een evenwicht te vinden tussen doelmatigheid en optimale prestaties, namen de systeemingenieurs een iteratieve aanpak aan, in wezen ‘bouwen en repareren’ tegelijkertijd. Een bijzonder ongrijpbare bug teisterde het cluster met terugkerende fouten, die pas werden ontdekt toen het trainingsproces ongeveer 40% voltooid was.
Paradoxaal genoeg droegen deze beproevingen bij aan de versterking van de technische basis van OpenAI. De opgedane expertise stelt nu een klein team van slechts 5-10 personen in staat om een model van de omvang van GPT-4 te repliceren. De prestatiesprong van GPT-4 naar GPT-4.5, geschat op ongeveer tienvoudig, werd gekenmerkt door ‘moeilijk te kwantificeren maar alomvattend verbeterde intelligentie’, wat zelfs de mensen binnen OpenAI verraste. Deze kwalitatieve sprong suggereert vooruitgang die verder gaat dan alleen schalen, en wijst op fundamentele verbeteringen in het vermogen van het model om te redeneren en te begrijpen.
Vooruitkijkend erkent OpenAI dat het bereiken van de volgende ordegrootte in prestaties niet alleen zal afhangen van rekenkracht, maar eerder van data-efficiëntie. De focus verschuift naar het ontwikkelen van algoritmen die meer kennis uit bestaande datasets kunnen halen, waardoor het nut van beschikbare rekenresources wordt gemaximaliseerd.
Verder evolueert de architectuur van een enkel cluster naar een multi-cluster ontwerp, waarbij toekomstige trainingsscenario’s worden voorzien met collaboratief leren over maar liefst 10 miljoen GPU’s. Deze transitie vereist aanzienlijke verbeteringen in fouttolerantie om de stabiliteit en betrouwbaarheid van dergelijke grootschalige gedistribueerde systemen te waarborgen.
Het gesprek ging ook in op de relatie tussen de ‘long tail’ van data en schaalwetten, de voordelen van nauwe samenwerking tussen machine learning en systeemteams (co-design), de essentie van unsupervised learning en een cultuur van nauwgezette probleemoplossing.
Belangrijke Spelers Achter GPT-4.5
Naast Altman waren de andere drie OpenAI-teamleden die aan dit gesprek deelnamen:
- Alex Paino: Verantwoordelijk voor de pre-training machine learning algoritmen van GPT-4.5.
- Amin Tootoonchian: OpenAI’s chief system architect.
- Daniel Selsam: Onderzoekt data-efficiëntie en algoritmen.
Oorsprong en Evolutie van GPT-4.5
Sam Altman: Wat is er werkelijk nodig om een model zo groot als GPT-4.5 te bouwen?
Alex Paino: We zijn dit project ongeveer twee jaar geleden gestart. Op dat moment stond OpenAI op het punt een nieuw groot computercluster te lanceren, en ons team zag deze kans en voerde een reeks taken uit om de functies te bepalen die het model moest bevatten, en voerde een groot aantal risicobeperkende operatietests uit.
We hebben hiervoor een lang plan ontwikkeld, waarbij de hele technologiestack van systeem tot machine learning betrokken was. Het verminderen van risico’s en het voorbereiden op training is een lang uitvoeringsproces, en training zelf is ook een zeer groot project.
Amin Tootoonchian: Ik denk dat dit proces vanaf het begin nauwe samenwerking vereist tussen het machine learning-team en het systeemteam, totdat we duidelijk weten welk model we willen trainen, en dan beginnen met trainen.
We hebben voorspellingen gedaan in machine learning en systemen, in een poging de kloof tussen verwachtingen en realiteit te minimaliseren. Omdat ons werktempo echter erg hoog is en we de nieuwste computerbronnen moeten gebruiken, is modeltraining iets geworden dat moeilijk perfect van tevoren te plannen is.
We beginnen bijna altijd met trainen met veel onopgeloste problemen en proberen uitdagingen te overwinnen en vooruitgang te boeken tijdens het proces. De belangrijkste oplossing is het verhogen van meer computerbronnen.
De laatste fase is de uitvoering, die vereist dat veel mensen gedurende lange tijd veel energie en motivatie investeren om het trainingsproces te voltooien.
Sam Altman: Hoe groot denk je dat de kloof is tussen onze verwachtingen en de realiteit?
Amin Tootoonchian: In termen van het systeem zijn we in het begin meestal ver verwijderd van de verwachte staat. We staan altijd voor een keuze: of de lancering uitstellen en wachten tot het probleem is opgelost, of vroeg beginnen en het probleem in het proces oplossen. Dit vereist altijd compromissen om onredelijke vertragingen in het proces te voorkomen.
Maar er zijn bijna altijd onverwachte problemen, en wat we moeten doen, is deze knooppunten zoveel mogelijk afhandelen, de onbekende factoren aanpakken en een plan opstellen voor modeltraining.
Alex Paino: In dit project is ons doel om GPT-4.5 te maken, wat betekent dat de mogelijkheden 10 keer slimmer moeten zijn dan GPT-4. Dit is het oorspronkelijke doel dat we ongeveer 2 jaar geleden hebben gesteld.
Er zijn veel dingen gebeurd in dit proces. We dachten erover na of we het beter of slechter zouden kunnen doen dan verwacht? Dit is een zeer ingewikkeld proces, maar uiteindelijk hebben we, in termen van de effectieve berekeningen die we hebben ingevoerd, een model gekregen waarvan we denken dat het 10 keer slimmer is dan GPT-4.
Amin Tootoonchian: In termen van uitvoering is de tijd die aan het GPT-4.5-project is besteed, verre van wat we aanvankelijk hadden verwacht.
De Lean Team Revolutie: GPT-4 trainen met minimale middelen
Sam Altman: Toen het cluster uitbreidde van 10.000 kaarten naar 100.000 kaarten, waarom ondervond je toen zoveel problemen?
Amin Tootoonchian: Ik denk dat als systeemontwikkelaars gevoelig genoeg zijn, de meeste problemen in de kleinschalige fase kunnen worden waargenomen.
Er zijn ook enkele problemen die niet uniek zijn voor de grootschalige trainingsfase, maar oorspronkelijk vaak voorkwamen, maar catastrofale problemen worden nadat de schaal is vergroot, vooral wanneer het team niet heeft voorzien dat deze problemen van tevoren zo erg zouden worden.
Sam Altman: Welke dingen hebben desastreuze gevolgen gehad?
Amin Tootoonchian: Ik denk dat de infrastructuurproblemen bekend zijn. Het uitvalpercentage, het uitvaltype en de totale hoeveelheid uitval zijn erg hoog. Het cluster van 100.000 kaarten is een grootschalige sample pool, dus we ontdekten ook problemen die de computerkrachtleverancier niet had waargenomen.
Het netwerk is een onderdeel ervan, en individuele acceleratoren kunnen ook problemen hebben. Maar dit is ook de schoonheid van dit systeem - bijna alle componenten moeten werken zoals verwacht om de verwachte resultaten te produceren. Het is onze taak om dit probleem zoveel mogelijk te minimaliseren.
Sam Altman: Het is inderdaad moeilijk om op de limiet van de clusterschaal te werken, maar ik heb ook gemerkt dat het veel gemakkelijker is geworden om dingen te doen die niet langer tot de top van de technologie behoren. Het trainen van GPT-4.5 vereist honderden mensen, en bijna iedereen in OpenAI is erbij betrokken.
Maar vandaag, als je het kleinste team van OpenAI mag kiezen en GPT-4 helemaal opnieuw mag hertrainen met alle kennis die we hebben en al het systeemwerk, hoeveel mensen zou het dan kosten?
Alex Paino: Ik denk dat er nu ongeveer 5 tot 10 mensen nodig zijn om een model van GPT-4-niveau te maken. De technologiestack is enorm verbeterd in het proces van het voltooien van GPT-4.5.
In feite hebben we vergelijkbare dingen gedaan in het proces van het trainen van GPT-4.5 - we hebben GPT-4o getraind, wat een model van GPT-4-niveau is, en het opnieuw getraind met veel van dezelfde inhoud uit het GPT-4.5-onderzoeksproject. Er werden minder mensen gebruikt voor die training.
Data-efficiëntie: De sleutel tot het ontsluiten van de volgende generatie modellen
Sam Altman: Vanuit jouw perspectief, Dan? Waarom is het moeilijk om grote modellen te trainen?
Daniel Selsam: Ik denk dat het moeilijk is om iets nieuws te doen. Ik denk dat zelfs alleen al ontdekken dat iemand anders iets heeft gedaan, het veel gemakkelijker maakt, omdat het moeilijkste is om te geloven dat je überhaupt iets kunt doen. Ik denk dat alleen al weten dat iets haalbaar is, een super cheatcode is, waardoor dingen veel gemakkelijker worden.
Alex Paino: We breiden de GPT-pre-training-operatie uit tot 10 keer wat het eerder was, en we zullen altijd een aantal interessante nieuwe dingen vinden die je niet noodzakelijkerwijs kunt voorspellen.
Sam Altman: Wat is er nodig om de volgende 10x of 100x groei in pre-training-schaal te bereiken?
Daniel Selsam: Data-efficiëntie. De Transformer-architectuur (wat GPT is) is zeer efficiënt in het gebruik van data. Het kan informatie goed absorberen en comprimeren en generalisatie bereiken. Het grootste kenmerk is dat het efficiënt informatie kan absorberen met computerbronnen.
De diepte van het inzicht dat het uit data haalt, is echter beperkt. Wanneer de rekenkracht snel groeit, terwijl de data relatief langzaam groeit, wordt data een bottleneck in dit standaardmodel. Dit vereist algoritmische innovatie, het ontwikkelen van methoden die meer rekenkracht kunnen gebruiken om meer kennis uit dezelfde hoeveelheid data te leren.
Sam Altman: Wat denk je nog meer dat we nodig hebben om de uitbreiding te behouden naast dit?
Amin Tootoonchian: Mijn antwoord gaat over het systeem. Ik denk dat de enorme hoeveelheid werk die nodig is voor GPT-4.5 in wezen het onvermijdelijke resultaat is van modelspecificaties. We kunnen GPT-4.5 niet trainen met exact dezelfde technische architectuur als GPT-4.
In termen van state management moeten we, omdat de vereiste computerbronnen de draagkracht van een enkel cluster hebben overschreden, overschakelen naar een multi-cluster trainingsarchitectuur. Om dit doel te bereiken, moeten we meerdere verschillende workflows in korte tijd integreren.
Hoewel dit ons wel heeft geholpen om een gefaseerde doorbraak te bereiken, moeten we, om de volgende ordegrootte van prestatieverbetering te bereiken, nog steeds een aantal bekende maar tijdelijk opgeschorte technische problemen oplossen - deze problemen kunnen niet worden vermeden. Het is dit soort technische afweging dat de ontwikkelingscyclus van een perfect systeem voortdurend verlengt. We maken altijd strategische afwegingen in het proces van het nastreven van het optimale implementatieplan.
Het moet duidelijk zijn dat het systeem zelf niet het uiteindelijke doel is. De werkelijke outputwaarde is de belangrijkste overweging. Voor de volgende 10x prestatieverbetering denk ik dat de doorbraak in fouttolerantie cruciaal is. We moeten een fouttolerantmechanisme bouwen dat diep samenwerkt met de workload om de operationele en onderhoudsangst aanzienlijk te verminderen. De operationele en onderhoudscomplexiteit van het huidige supergrote systeem verschilt in wezen van die van eerdere systemen.
Sam Altman: Weet je welk percentage van de storingen werd veroorzaakt door bepaalde componenten tijdens de GPT-4.5-training?
Amin Tootoonchian: Ik heb geen specifieke cijfers om te delen, maar over het algemeen wordt de eerste implementatie van een nieuwe generatie hardware vaak geconfronteerd met veel technische uitdagingen die nog niet volledig worden begrepen. We hebben ervoor gekozen om het project te versnellen voordat het probleem volledig was opgehelderd, wat leidde tot een hoge initiële uitval.
Maar de ervaring leert dat naarmate de oorzaak wordt geïdentificeerd en opgelost, het uitvalpercentage aanzienlijk zal worden verminderd. Dit fenomeen weerspiegelt in wezen ons groeiende begrip van infrastructuur - sommigen noemen het het opschonen van de infrastructuur of het begrijpen van de basisproblemen van de infrastructuur.
De vroege stadia van de uitvoering zijn bijna altijd behoorlijk pijnlijk. Terwijl we het project vooruithelpen, ontdekken en lossen we ook voortdurend nieuwe faalmodi op, maar uiteindelijk zal het uitvalpercentage geleidelijk afnemen en zal de normale looptijd toenemen.
Dit is in wezen een kwestie van prioriteitsafwegingen: in de vroege stadia van de levenscyclus van de infrastructuur is het faalrisico vaak moeilijk nauwkeurig in te schatten; en als we buitensporig streven naar de ultieme ideale staat (origineel is ‘City Estate’, het ideale stadsstaatontwerp), kan dit leiden tot het systeem. De initiële beschikbaarheidsprestaties zijn extreem slecht.
Verder dan Compute: Algoritmische Innovatie en het Onaangeboorde Potentieel van Data
Sam Altman: Hoewel het inference model een belangrijk onderdeel is van onze toekomstige technologiestack, laten we ons tijdelijk concentreren op de ontwikkelingsgrenzen van traditionele pre-training modellen. Ervan uitgaande dat we onbeperkte GPU-rekenkracht, onbeperkte netwerkbandbreedte en onbeperkte stroomtoevoer hebben, maar nog steeds beperkt worden door bestaande technische bottlenecks - inclusief problemen met systeembetrouwbaarheid, gebrek aan fouttolerante trainingsmethoden en beperkingen van bestaande datasets.
Volgens onze evolutieregel van het bereiken van een 100-voudige schaalvergroting voor elke belangrijke GPT-versie nummer, op basis van de huidige technische grenzen, welk niveau kan de ontwikkeling van pre-training modellen bereiken? Specifiek, voor de GPT-serie modellen, op basis van ons bestaande kennissysteem, wat voor soort model kan theoretisch worden getraind? Kunnen we GPT-5.5 maken?
Alex Paino: Vanuit het perspectief van machine learning en algoritmeontwikkeling hebben we nog geen duidelijke theoretische limiet bereikt. In feite zijn we pas net begonnen met het verkennen van algoritmen met een hogere data-efficiëntie en hoe we bestaande databronnen ten volle kunnen benutten. Deze situatie is erg interessant - zelfs modellen als GPT-4 zijn grotendeels ontwikkeld onder omstandigheden van beperkte computerbronnen, wat de richting van het meeste eerdere onderzoek heeft bepaald.
Maar de situatie is nu compleet anders. Sinds GPT-4.5 wordt in sommige belangrijke dimensies data in plaats van computing de belangrijkste beperking. Deze verschuiving maakt gerelateerd onderzoek minder spannend.
Sam Altman: Maar dit is inderdaad een geweldige vooruitgang, en de wereld realiseert zich misschien niet volledig dat computerbronnen niet langer de belangrijkste bottleneck zijn voor het beste model dat we kunnen bouwen. Deze verschuiving is erg zinvol, tenslotte hebben we te lang in een rekenkracht beperkte omgeving geleefd.
Onthulling van de Verrassingen: Voorspelbaarheid versus Onvoorziene Intelligentie
Sam Altman: Wat is de meest interessante machine learning ervaring die we hebben geleerd tijdens de training van GPT-4.5? Zeg gewoon wat je wilt delen.
Amin Tootoonchian: Over het algemeen zijn de meest tot nadenken stemmende dingen de dingen die afwijken van onze voorspellingen - vooral wanneer we proberen te begrijpen waarom de werkelijke prestaties afwijken van de verwachte curve.
Alex Paino: Een van de meest verrassende ontdekkingen voor ons is dat verschillende machine learning componenten zeer verschillende schaalbaarheidsprestaties hebben. Sommige onderdelen kunnen heel goed worden uitgebreid, terwijl andere dat niet kunnen. Dit is wat we echt beseften tijdens het daadwerkelijke trainingsproces. Deze ervaring gaf ons veel inspiratie.
Daniel Selsam: Ik denk dat de twee belangrijkste kenmerken van het GPT-paradigma zijn: ten eerste, het testverlies (een metriek die meet hoe goed het model presteert op ongeziene testdata) kan nauwkeurig worden voorspeld; ten tweede, de modelprestaties vertonen een voorspelbare verbetering met de toename van de schaal. Wat nog verbazingwekkender is, is dat de vermindering van het testverlies zal worden omgezet in een allround verbeterd niveau van intelligentie op verschillende moeilijk te kwantificeren, maar verbazingwekkende en mysterieuze manieren.
Sam Altman: Ben je hier absoluut optimistisch over? Ben je het volledig eens met dit standpunt?
Daniel Selsam: Eigenlijk, wat ik wil zeggen is dat we een bijzonder interessant fenomeen hebben gevonden in de GPT-4.5-test - na hertesting overtroffen de vele geavanceerde mogelijkheden die het model vertoonde volledig ieders verwachtingen.
We zijn er zeker van dat het op verschillende manieren slimmer zal worden die moeilijk van tevoren te definiëren zijn, en deze subtiele verbeteringen kunnen worden waargenomen aan de hand van de gebruikerstevredenheid na de daadwerkelijke implementatie: sterkere gezond verstand reserves, nauwkeuriger contextueel begrip vermogen, en subtielere semantische greep - dit is de magie die wordt gebracht door die extra testverliezen. Naar mijn mening is Scaling Law in deze dimensie perfect geverifieerd.
De Kracht van Samenwerking: Machine Learning en Systeemteams die in Harmonie Werken
Sam Altman: Wat was het meest positieve moment tijdens het hele trainingsproces? Wat is je favoriete herinnering? Het is duidelijk dat er veel pijn is, maar ik hoop dat die pijn is verlicht.
Alex Paino: Ik heb wel zo’n moment. We hebben veel machine learning werk gedaan tijdens de training, en ik denk dat sommige van de veranderingen die we tijdens het proces hebben aangebracht een behoorlijk goede impact hadden, misschien zelfs beter dan verwacht, wat een zeer opwindend moment voor ons was.
Amin Tootoonchian: Voor mij bouwen we tegelijkertijd met training ook infrastructuur. We zijn er vast van overtuigd dat we deze prestatiekloof kunnen overbruggen, en we hebben een plan, en iedereen voert het uit, maar het duurt lang. Dit is hard werken en zeker moeilijker dan ik dacht. Mijn voorspelling was verkeerd, en ik heb de tijd die nodig zou zijn om deze problemen op te lossen, onderschat.
Het moment waarop het team eindelijk die belangrijkste problemen overwon en de prestaties aanzienlijk werden verbeterd, staat nog vers in mijn geheugen. Je kunt duidelijk de energieverschuiving in het hele team voelen - iedereen zit plotseling vol energie en rent met nieuwe motivatie naar het einddoel.
Het meest verbazingwekkende is dat de geschatte voltooiingstijd die op onze status tracker werd weergegeven, bleef inkorten van de aanvankelijke twee jaar en uiteindelijk op een duidelijk tijdsknooppunt werd vergrendeld. Deze zichtbare vooruitgang is onmetelijk voor de moreel van het team. Ik denk dat dit de schoonheid ervan is.
Ik wil benadrukken dat machine learning werk nooit is gestopt. Zelfs nadat de training is gestart, is dit machine learning co-design proces nog steeds aan de gang. Het machine learning team volgde niet alleen actief de problemen op die waren gemarkeerd als ‘subsequent processing’, maar leverde ook voortdurend verbeteringen die de trainingstijd echt optimaliseerden.
Dit belichaamt perfect onze teamgeest - er is hier geen ‘sweeping the snow in front of your own door’ werkgrens, maar een werkelijk naadloze samenwerking. Deze cohesie is ons grootste voordeel.
Nauwgezette Planning en Genadeloos Nastreven van Anomalieën in GPT-4.5 Pre-Training
Daniel Selsam: De buitenwereld heeft veel gesproken over de uitdagingen en de voorspellende nauwkeurigheid van deze training zelf. Maar in feite is dit alles gebouwd op uiterst nauwgezette planning - kun je hier meer in detail over vertellen?
Alex Paino: Dit is absoluut het meest nauwgezette plan dat we tot nu toe hebben gemaakt. Zoals ik al zei, zijn we een jaar voor de officiële lancering van de training begonnen met de voorbereiding van dit project. Tijdens deze periode hebben we meerdere grootschalige risicobeheersingstests uitgevoerd.
We besteden speciale aandacht aan het geleidelijk introduceren van alle verbeteringen: beginnend bij een basisconfiguratie met een hoog betrouwbaarheidsniveau - die kan worden begrepen als een volwassen architectuur vergelijkbaar met GPT-4, hebben we deze configuratie op machine learning niveau volledig onder de knie - en vervolgens nieuwe functies gelaagd als bouwstenen.
De sleutel is om de schaalbaarheid van elke verbetering strikt te verifiëren op verschillende schalen: niet alleen om prestatieverbeteringen te zien, maar ook om ervoor te zorgen dat deze verbeteringen effectief blijven naarmate de modelgrootte toeneemt. Veel verbeteringen presteren goed in kleinschalige tests, maar zullen falen in grootschalige toepassingen.
Daarom hebben we gedurende het hele proces een hoge mate van waakzaamheid gehandhaafd en onze scaling law methodologie blijven herhalen en verbeteren. Door deze risicobeheersing hebben we veel waardevolle ervaring opgedaan, die de ontwikkeling van toekomstige GPT-serie modellen zal blijven begeleiden.
Amin Tootoonchian: Ik herinner me een bijzonder interessant moment dat ik erg mis. Je weet dat we bijna onvermijdelijk verschillende bugs tegenkomen telkens wanneer we een trainingstaak starten, wat alledaags is. Maar de sleutel is om ervoor te zorgen dat de voortgang niet wordt belemmerd, en we moeten altijd bevestigen of de huidige voortgang inderdaad op de goede weg is en of deze bugs een fatale impact zullen hebben op de gezondheid van de training.
Hoewel we er aanvankelijk erg zeker van waren dat er grote gebreken waren, waren we door het hele monitoringsysteem dat we hebben gebouwd, in staat om de hoofdoorzaak van het probleem nauwkeurig te onderscheiden: Is het een hardwarestoring? Welk type hardwarestoring? Is het data corruptie? Of is het een bug in het machine learning model zelf? Of is het een race condition in de code?
Op dat moment hadden we meerdere probleemdiscussiegebieden tegelijkertijd open, met een grote verscheidenheid aan symptomen. Na een reeks bugfixes raakten we in een impasse: er lagen meerdere onopgeloste problemen voor ons, en iedereen brak zijn hoofd - werden deze veroorzaakt door verschillende bugs? Of is het een bug die problemen veroorzaakt?
Later hebben we gestemd en teamleden gevraagd om te stemmen op de meest waarschijnlijke hoofdoorzaak. Als gevolg hiervan sloeg de minst optimistische optie de waarheid: het bleek dat er een probleem was met de torch.sum functie upstream van PyTorch, een eenvoudige sommatie operatie.
Deze bug is erg interessant. Je weet dat we voornamelijk de Triton kernel gebruiken, en alleen in sommige onbeduidende marginale scenario’s zullen we terugvallen op torch operaties. De torch.sum functie bug die wordt geactiveerd door ons specifieke codepad zal af en toe illegale geheugentoegang veroorzaken als gevolg van de data distributie kenmerken - het maakte een fout bij het berekenen van de geheugenoffset.
Het meest dramatische is dat toen een ingenieur eindelijk het probleem lokaliseerde en een fix indiende, alle fouten met verschillende symptomen verdwenen. Iedereen veranderde opgewonden het Slack kanaal van de “multi-bug theorie” naar de “single-bug theorie”, en de scène was erg vrolijk.
Hoe lang sluimerde deze bug al? Het bestond al sinds devroege stadia van de training en werd pas gevonden toen de voortgangsbalk ongeveer 40% was gepasseerd. Het ontdekkingsproces zat ook vol drama: Op dat moment riep een complexe kernel continu een sequence aan, en de tweede aanroep activeerde illegale geheugentoegang.
Hoewel deze crash frequentie extreem laag is (het komt slechts één keer per paar honderd of zelfs duizenden trainingsstappen voor), is het gemakkelijk om te worden genegeerd als een incidentele storing, maar ons teamp principe is: laat nooit een afwijking los. Het beste deel van dit verhaal ligt in dit volhardende niet opgeven.
De Zoektocht naar Ideale Systemen: Een Verre Horizon
Sam Altman: Nadat GPT-4.5 pre-training is gestart, wat moet je nog meer doen?
Alex Paino: We moeten allemaal vaak de verliescurve observeren. Daarnaast moeten we het systeem voortdurend optimaliseren en de co-design verbeteren die niet voltooid was voordat de training begon. We houden verschillende statistische indicatoren tijdens het trainingsproces nauwlettend in de gaten om ervoor te zorgen dat er geen onverwachte abnormale trends zijn. Tegelijkertijd onderzoeken we mogelijke verbeterplannen vanuit een machine learning perspectief. Hoewel data-level werk tijdelijk zal worden verminderd nadat pre-training is gestart, zijn er nog steeds een groot aantal taken die moeten worden verwerkt.
Amin Tootoonchian: Ik denk dat machine learning grotendeels afhankelijk is van de correctheid van het oordeel. Nadat pre-training is gestart, zijn we, geconfronteerd met een groot aantal ruissignalen, als waarzeggers die theebladeren interpreteren, en moeten we beoordelen of het systeem gezond is. Dit is onze verantwoordelijkheid.
Sam Altman: Op systeemniveau, wat beperkt ons van het uitvoeren van modeltraining? Zijn het chips, processors, geheugen, netwerk of stroom?
Amin Tootoonchian: De schoonheid van het systeem is dat bij co-design de workload zich kan aanpassen aan de infrastructuur die je bouwt. Er is hier geen algemeen gezegde dat het netwerk de bottleneck is, of de geheugenbandbreedte de bottleneck is, enzovoort. Zelfs voor modellen van dezelfde specificatie kunnen we ervoor kiezen om resourcevereisten over te dragen, en we kunnen ervoor kiezen om een meer gebalanceerd systeem te creëren, maar het hebben van meer geheugenbandbreedte is altijd gunstig. Het is moeilijk om deze vraag te beantwoorden zonder beperkende voorwaarden.
Bij het ontwerpen van GPT-4.5 hebben we mogelijk het systeem nodig om een soort attribuut te hebben, dat moet worden gegenereerd onder menselijke begeleiding. Daarom is co-design erg belangrijk voor het vormen van de modelarchitectuur en architecturale elementen, en verbindt het tot op zekere hoogte de systeem- en machine learning aspecten. Als het systeem een attribuut heeft dat we niet erg graag willen hebben, is mijn ideale situatie dat alles van elkaar wordt ontkoppeld om elkaar de maximale ruimte te geven.
Soms zijn dingen met elkaar verbonden en moeten we voldoen aan de vereisten van de infrastructuur, of moeten dingen zo zijn. Meestal hebben we een gebalanceerd systeem en een gebalanceerde communicatie nodig. En de beste middelen van aanpassing die we hebben, zijn al deze co-designs.
Sam Altman: Hoe ver zijn we verwijderd van dit ideale systeemdoel?
Amin Tootoonchian: Het is nog een lange weg naar dat doel. Het proces van het bouwen van een systeem is altijd zo: eerst is er een geïdealiseerde visie op hoe dingen zouden moeten werken, en dan de verschillen met bestaande middelen verzoenen.
Ik denk dat we het niet doen voor theorie voor theorie, maar alleen om te bespreken wat we willen dat het wordt, om het te realiseren en om zo dicht mogelijk bij dat ideaal te komen. Dit is misschien wel het meest opwindende deel van het systeemveld. Mensen zeiden vroeger dat dit een elegant systeemontwerp is, en uiteindelijk zal de geschiedenis ons vertellen of deze keuze correct of verkeerd is.
Sam Altman: Als je een antwoord zou kunnen krijgen op een machine learning probleem voor de volgende grote training, wat zou je dan het liefst willen weten?
Alex Paino: Ik zou graag willen weten welke algoritmen we moeten gebruiken onder beperkte data en specifieke velden. Hoewel dit een brede vraag is, is het inderdaad de meest kritische.
Sam Altman: Zullen jullie in de toekomst synchrone pre-training uitvoeren met 10 miljoen GPU’s of meer?
Alex Paino: Ik denk dat er wel zullen zijn, maar het is misschien geen traditioneel pre-training model. De vorm ervan kan heel anders zijn dan bestaande technologie, maar het zal nog steeds de kern van unsupervised learning behouden.
Amin Tootoonchian: Ik geef de voorkeur aan de semi-synchrone modus. Vanwege de natuurwetten is volledige synchronisatie niet realistisch.
Daniel Selsam: Ik denk dat het waarschijnlijker is dat het gedecentraliseerd zal zijn. Er zullen zeker 10 miljoen GPU’s samenwerken in een AI-systeem voor het leren en uitvoeren van taken, maar net als de verschillende delen van de hersenen, hoeven ze misschien niet noodzakelijkerwijs met elkaar te communiceren.
De Synergetische Kracht van Algoritmische Verbeteringen en Data-efficiëntie
Sam Altman: Hoe groot is de kloof tussen de meest geavanceerde algoritmen en de data-efficiëntie van de mens? Kunnen we hopen in de toekomst in te halen?
Daniel Selsam: Het is moeilijk om de twee rechtstreeks te vergelijken. De kloof in het leren van talen is zeker enorm. De sleutel is hoe je de hoeveelheid informatie definieert die door menselijke visuele zenuwen wordt ontvangen. Ik denk dat algoritmen over het algemeen veel minder data-efficiënt zijn dan mensen.
Decennialang heeft deep learning zich gericht op het efficiënt gebruiken van rekenkracht. Naast de groei van data en rekenkracht is wat echt verrassend is, het synergetische effect dat wordt geproduceerd door algoritmische verbeteringen. Elke keer dat de algoritme prestaties met 10% of 20% verbeteren, zal het een aanzienlijk effect hebben wanneer het wordt gesuperponeerd op data-efficiëntie. Tot nu toe is er geen mobilisatie geweest rond data-efficiëntie, omdat deze aanpak niet de moeite waard is wanneer data niet circuleert en de rekenkracht beperkt is.
Nu betreden we een nieuwe fase van AI-onderzoek en zullen we beginnen met het verzamelen van overwinningen in data-efficiëntie. Ik denk dat het enigszins dwaas is om nu te voorspellen dat we onoverkomelijke obstakels zullen tegenkomen. De manier waarop het menselijk brein werkt, is zeker anders dan onze algoritmische verbeteringen, en we moeten in dit opzicht voorzichtig zijn. Maar ik denk dat we optimistisch moeten blijven over de toekomstige ontwikkeling van algoritmen.
Sam Altman: Wat is de correlatie tussen grootschaligere pre-training en het sterkere leer- en redeneervermogen van het model?
Alex Paino: Wat we hebben waargenomen, is dat betere pre-training en unsupervised learning vaak de algehele intelligentie van het model verbeteren en van grote hulp zijn bij generalisatie. Dit is complementair aan het redeneervermogen, terwijl redeneren misschien trager is in het verbeteren van intelligentie. Ik denk dat ze complementair zijn.
Sam Altman: Pre-training lijkt in veel dingen algemeen te zijn, terwijl het trainen van een model het alleen goed kan laten doen in één soort ding, is dat correct?
Alex Paino: Dit is erg interessant, maar je zult niet verrast zijn door deze situatie wanneer je de data ziet die hen traint. Het pre-training dataset bereik is erg groot en wat we nastreven is breedte en diversiteit. Als het gaat om model reinforcement learning en het het duidelijk laten verkrijgen van goede beloningssignalen en een goede trainingsomgeving, denk ik dat het moeilijk is om de breedte van de dataset in evenwicht te brengen.
Daniel Selsam: Ik ben het ermee eens, maar ik denk dat er nog een andere factor is. Pre-training is in wezen het comprimeren van data, waardoor de verbanden tussen verschillende dingen worden ontdekt. Het gaat over analogieën en abstracter. Redeneren is een vaardigheid die zorgvuldig nadenken over een specifiek probleem vereist en kan ook oplossingen opleveren voor veel soorten problemen. Echter, in het pre-training proces kan meer abstracte kennis worden geleerd bij het comprimeren van data over verschillende velden.
De Essentie van Intelligentie: Compressie en het Long-Tail Effect
Sam Altman: Waarom is unsupervised learning effectief?
Daniel Selsam: De sleutel is compressie. De ideale vorm van intelligentie is Solomonoff inductie. Over het algemeen zal machine learning alle mogelijkheden overwegen, maar heeft het de neiging om te beginnen met het testen met eenvoudigere programma’s.
De essentie van de huidige pre-training is een compressieproces, dat een benaderende uitdrukking bereikt door het eenvoudigste programma te vinden om alle data te verklaren die tot nu toe door mensen is geproduceerd.
Sam Altman: Hoe helpt de volgende Token voorspelling bij het bereiken van compressie?
Daniel Selsam: Er is een paradox in statistiek - waarom kunnen deep networks generalisatie bereiken, ook al lijken ze niet in staat om te comprimeren? Normaal gesproken, wanneer je veel data en enkele kleine modellen hebt, moeten deze modellen compressie doorlopen om iets te leren.
In pre-training is de schaal van data en modellen erg groot. Sommige mensen denken dat deze training gewoon geheugen- en interpolatieleren is. In feite negeren ze een ander begripsperspectief van compressie - pre-quential compressie. Het is als een compressor.