Die Entschlüsselung des GPT-4.5-Trainings von OpenAI: Ein tiefer Einblick in 100.000 GPUs und die Überwindung von ‘katastrophalen Problemen’
In einem seltenen Blick hinter die Kulissen hat OpenAI kürzlich Details über die Entwicklung seines bisher ambitioniertesten Modells, GPT-4.5, bekannt gegeben. Diese Offenbarung erfolgte mehr als einen Monat nach der Veröffentlichung des Modells in einem offenen 45-minütigen Gespräch mit Sam Altman, dem Mitbegründer und CEO von OpenAI, sowie drei wichtigen technischen Köpfen des GPT-4.5-Projekts. Die Diskussion enthüllte eine Reihe bisher unbekannter Herausforderungen, darunter erhebliche Zeitplanüberschreitungen, häufige Ausfälle im Rechencluster und unvorhersehbare Wege zur Leistungssteigerung.
Die Entstehung von GPT-4.5: Eine zweijährige Odyssee
Die GPT-4.5-Initiative, die zwei Jahre vor ihrem Start konzipiert wurde, stellte das bisher sorgfältigste Vorhaben von OpenAI dar. Sie erforderte die konzertierte Anstrengung von Hunderten von Personen, wobei Altman feststellte, dass das Projekt effektiv ‘fast alle’ bei OpenAI einbezog. Diese breite Beteiligung unterstreicht die strategische Bedeutung von GPT-4.5 innerhalb der umfassenderen Mission des Unternehmens.
Während der Entwicklungsphase stieß das OpenAI-Team auf das, was es als ‘katastrophale Probleme’ bezeichnete. Der Einsatz eines 100.000 GPU-Clusters deckte latente Infrastruktur-Schwachstellen auf, die sich als seltene, aber tiefgreifende Ausfälle manifestierten. Um ein Gleichgewicht zwischen Zweckmäßigkeit und optimaler Leistung zu finden, verfolgten die Systemingenieure einen iterativen Ansatz, indem sie im Wesentlichen gleichzeitig ‘bauten und reparierten’. Ein besonders schwer fassbarer Fehler plagte den Cluster mit wiederkehrenden Fehlern und blieb unentdeckt, bis der Trainingsprozess etwa 40 % erreicht hatte.
Paradoxerweise trugen diese Prüfungen zur Stärkung der technischen Grundlage von OpenAI bei. Das erworbene Fachwissen ermöglicht es nun einem schlanken Team von nur 5-10 Personen, ein Modell von GPT-4’s Größe zu replizieren. Der Leistungssprung von GPT-4 zu GPT-4.5, der auf etwa das Zehnfache geschätzt wird, war durch eine ‘schwer zu quantifizierende, aber umfassend verbesserte Intelligenz’ gekennzeichnet, die selbst diejenigen innerhalb von OpenAI überraschte. Dieser qualitative Sprung deutet auf Fortschritte hin, die über bloße Skalierung hinausgehen, und weist auf grundlegende Verbesserungen der Fähigkeit des Modells zum logischen Denken und Verstehen hin.
Mit Blick auf die Zukunft erkennt OpenAI, dass das Erreichen der nächsten Größenordnung in der Leistung nicht allein von der Rechenleistung abhängen wird, sondern vielmehr von der Dateneffizienz. Der Fokus verlagert sich auf die Entwicklung von Algorithmen, die mehr Wissen aus bestehenden Datensätzen extrahieren können, wodurch die Nutzung der verfügbaren Rechenressourcen maximiert wird.
Darüber hinaus entwickelt sich die Architektur von einem Einzelcluster zu einem Multicluster-Design, wobei zukünftige Trainingsszenarien mit kollaborativem Lernen über bis zu 10 Millionen GPUs angestrebt werden. Dieser Übergang erfordert erhebliche Verbesserungen der Fehlertoleranz, um die Stabilität und Zuverlässigkeit solcher groß angelegter verteilter Systeme zu gewährleisten.
Das Gespräch befasste sich auch mit der Beziehung zwischen dem ‘Long Tail’ der Daten und den Skalierungsgesetzen, den Vorteilen einer engen Zusammenarbeit zwischen Machine-Learning- und Systemteams (Co-Design), dem Wesen des unbeaufsichtigten Lernens und einer Kultur der akribischen Problemlösung.
Schlüsselpersonen hinter GPT-4.5
Neben Altman nahmen auch die folgenden drei OpenAI-Teammitglieder an diesem Gespräch teil:
- Alex Paino: Verantwortlich für die Pre-Training-Machine-Learning-Algorithmen von GPT-4.5.
- Amin Tootoonchian: Chief System Architect von OpenAI.
- Daniel Selsam: Forscht an Dateneffizienz und Algorithmen.
Ursprünge und Evolution von GPT-4.5
Sam Altman: Was braucht es wirklich, um ein so großes Modell wie GPT-4.5 zu bauen?
Alex Paino: Wir haben dieses Projekt vor etwa zwei Jahren initiiert. Zu dieser Zeit stand OpenAI kurz vor dem Start eines neuen großen Rechenclusters, und unser Team sah diese Gelegenheit und führte eine Reihe von Aufgaben durch, um die Funktionen zu bestimmen, die das Modell enthalten musste, und führte eine große Anzahl von Risikominderungsoperationen durch.
Wir haben einen langen Plan dafür entwickelt, der den gesamten Technologie-Stack vom System bis zum Machine Learning umfasst. Die Reduzierung von Risiken und die Vorbereitung auf das Training ist ein langer Ausführungsprozess, und das Training selbst ist auch ein sehr großes Projekt.
Amin Tootoonchian: Ich denke, dieser Prozess erfordert von Anfang an eine enge Zusammenarbeit zwischen dem Machine-Learning-Team und dem Systemteam, bis wir klar wissen, welches Modell wir trainieren wollen, und dann mit dem Training beginnen.
Wir haben Vorhersagen im Machine Learning und in den Systemen getroffen und versucht, die Lücke zwischen Erwartungen und Realität zu minimieren. Da unser Arbeitsrhythmus jedoch sehr schnell ist und wir die neuesten Rechenressourcen nutzen müssen, ist das Modelltraining zu etwas geworden, das im Voraus nur schwer perfekt zu planen ist.
Wir beginnen fast immer mit dem Training mit vielen ungelösten Problemen und versuchen, Herausforderungen zu meistern und während des Prozesses Fortschritte zu erzielen. Die Hauptlösung besteht darin, mehr Rechenressourcen zu erhöhen.
Die letzte Phase ist die Ausführung, die erfordert, dass viele Menschen lange Zeit viel Energie und Motivation investieren, um den Trainingsprozess abzuschließen.
Sam Altman: Wie groß ist Ihrer Meinung nach die Lücke zwischen unseren Erwartungen und der Realität?
Amin Tootoonchian: In Bezug auf das System sind wir am Anfang normalerweise weit vom erwarteten Zustand entfernt. Wir stehen immer vor der Wahl: ob wir den Start verschieben und warten, bis das Problem gelöst ist, oder frühzeitig beginnen und das Problem im Prozess lösen. Dies erfordert immer Kompromisse, um unangemessene Verzögerungen im Prozess zu vermeiden.
Aber es gibt fast immer unerwartete Probleme, und was wir tun müssen, ist, diese Knoten so weit wie möglich zu bearbeiten, mit den unbekannten Faktoren umzugehen und einen Plan für das Modelltraining zu erstellen.
Alex Paino: In diesem Projekt ist es unser Ziel, GPT-4.5 zu erstellen, was bedeutet, dass seine Fähigkeiten 10-mal intelligenter sein sollten als GPT-4. Dies ist das anfängliche Ziel, das wir vor etwa 2 Jahren gesetzt haben.
Viele Dinge sind in diesem Prozess passiert. Wir haben darüber nachgedacht, ob wir besser oder schlechter als erwartet abschneiden könnten? Dies ist ein sehr komplizierter Prozess, aber am Ende haben wir in Bezug auf die effektiven Berechnungen, die wir eingebracht haben, ein Modell erhalten, von dem wir denken, dass es 10-mal intelligenter ist als GPT-4.
Amin Tootoonchian: In Bezug auf die Ausführung ist die für das GPT-4.5-Projekt aufgewendete Zeit weit von dem entfernt, was wir ursprünglich erwartet hatten.
Die Lean-Team-Revolution: Training von GPT-4 mit minimalen Ressourcen
Sam Altman: Als der Cluster von 10.000 Karten auf 100.000 Karten erweitert wurde, warum sind Sie auf so viele Probleme gestoßen?
Amin Tootoonchian: Ich denke, dass die meisten Probleme im kleinen Maßstab beobachtet werden können, wenn Systementwickler sensibel genug sind.
Es gibt auch einige Probleme, die nicht einzigartig für die groß angelegte Trainingsphase sind, sondern ursprünglich häufig auftraten, aber nach der Skalierung zu katastrophalen Problemen werden, insbesondere wenn das Team nicht vorhergesehen hat, dass sich diese Probleme in diesem Ausmaß verschlimmern würden.
Sam Altman: Welche Dinge haben katastrophale Folgen verursacht?
Amin Tootoonchian: Ich denke, die Infrastrukturprobleme sind bekannt. Die Ausfallrate, die Art des Ausfalls und die Gesamtzahl der Ausfälle sind sehr hoch. Der 100.000-Karten-Cluster ist ein groß angelegter Sample-Pool, sodass wir auch Probleme entdeckt haben, die der Rechenleistungsanbieter nicht beobachtet hat.
Das Netzwerk ist ein Teil davon, und auch einzelne Beschleuniger können Probleme haben. Aber das ist auch das Schöne an diesem System - fast alle Komponenten müssen wie erwartet funktionieren, um die erwarteten Ergebnisse zu erzielen. Unsere Aufgabe ist es, dieses Problem so weit wie möglich zu minimieren.
Sam Altman: Es ist in der Tat schwierig, am Limit der Clustergröße zu arbeiten, aber ich habe auch festgestellt, dass es viel einfacher geworden ist, Dinge zu tun, die nicht mehr an der Spitze der Technologie stehen. Das Training von GPT-4.5 erfordert Hunderte von Menschen, und fast jeder bei OpenAI ist beteiligt.
Aber wenn Sie heute ein kleinstes Team von OpenAI auswählen und GPT-4 von Grund auf mit all dem Wissen, das wir kennen, und all der Systemarbeit neu trainieren lassen, wie viele Leute wären dafür erforderlich?
Alex Paino: Ich denke, es braucht jetzt etwa 5 bis 10 Leute, um ein Modell auf GPT-4-Niveau zu erstellen. Der Technologie-Stack wurde im Laufe der Fertigstellung von GPT-4.5 stark verbessert.
Tatsächlich haben wir im Prozess des Trainings von GPT-4.5 ähnliche Dinge getan - wir haben GPT-4o trainiert, das ein Modell auf GPT-4-Niveau ist, und es mit vielen der gleichen Inhalte aus dem GPT-4.5-Forschungsprojekt neu trainiert. Für dieses Training wurden weniger Leute eingesetzt.
Dateneffizienz: Der Schlüssel zur Erschließung der nächsten Generation von Modellen
Sam Altman: Aus Ihrer Sicht, Dan? Warum ist es schwierig, große Modelle zu trainieren?
Daniel Selsam: Ich denke, es ist schwer, etwas Neues zu tun. Ich denke, selbst wenn man entdeckt, dass jemand anderes etwas getan hat, macht es das viel einfacher, denn das Schwierigste ist, überhaupt daran zu glauben, dass man etwas tun kann. Ich denke, nur zu wissen, dass etwas machbar ist, ist ein Super-Cheat-Code, der die Dinge viel einfacher macht.
Alex Paino: Wir erweitern die GPT-Pre-Training-Operation auf das Zehnfache des vorherigen Umfangs, und wir werden immer einige interessante neue Dinge finden, die man nicht unbedingt vorhersagen kann.
Sam Altman: Was ist erforderlich, um das nächste 10-fache oder 100-fache Wachstum der Pre-Training-Skala zu erreichen?
Daniel Selsam: Dateneffizienz. Die Transformer-Architektur (die GPT ist) ist sehr effizient bei der Verwendung von Daten. Sie kann Informationen gut aufnehmen und komprimieren und eine Verallgemeinerung erreichen. Ihr größtes Merkmal ist, dass sie mit Rechenressourcen effizient Informationen aufnehmen kann.
Die Tiefe der Einsicht, die sie aus Daten gewinnt, ist jedoch begrenzt. Wenn die Rechenleistung schnell wächst, während die Daten relativ langsam wachsen, werden Daten zu einem Engpass in diesem Standardmodell. Dies erfordert algorithmische Innovation, die Entwicklung von Methoden, die mehr Rechenleistung nutzen können, um mehr Wissen aus der gleichen Datenmenge zu lernen.
Sam Altman: Was brauchen wir Ihrer Meinung nach noch, um die Expansion aufrechtzuerhalten?
Amin Tootoonchian: Meine Antwort bezieht sich auf das System. Ich denke, der enorme Arbeitsaufwand, der für GPT-4.5 erforderlich ist, ist im Wesentlichen das unvermeidliche Ergebnis von Modellvorgaben. Wir können GPT-4.5 nicht mit genau der gleichen technischen Architektur wie GPT-4 trainieren.
In Bezug auf das Zustandsmanagement müssen wir auf eine Multicluster-Trainingsarchitektur umsteigen, da die erforderlichen Rechenressourcen die Kapazität eines einzelnen Clusters überschritten haben. Um dieses Ziel zu erreichen, müssen wir mehrere verschiedene Workflows in kurzer Zeit integrieren.
Obwohl uns dies geholfen hat, einen schrittweisen Durchbruch zu erzielen, müssen wir, um die nächste Größenordnung der Leistungsverbesserung zu erreichen, noch mehrere bekannte, aber vorübergehend auf Eis gelegte technische Probleme lösen - diese Probleme können nicht vermieden werden. Es ist diese Art von technischem Kompromiss, der den Entwicklungszyklus eines perfekten Systems ständig verlängert. Wir treffen immer strategische Kompromisse im Prozess der Verfolgung des optimalen Implementierungsplans.
Es muss klar sein, dass das System selbst nicht das oberste Ziel ist. Sein tatsächlicher Ausgabewert ist die Kernüberlegung. Für die nächste 10-fache Leistungsverbesserung halte ich den Durchbruch bei der Fehlertoleranz für entscheidend. Wir müssen einen fehlertoleranten Mechanismus aufbauen, der tief mit der Arbeitslast zusammenarbeitet, um die Betriebs- und Wartungsangst erheblich zu reduzieren. Die Betriebs- und Wartungskomplexität des aktuellen supergroßen Systems unterscheidet sich grundlegend von der vorheriger Systeme.
Sam Altman: Wissen Sie, wie viel Prozent der Ausfälle während des GPT-4.5-Trainings durch bestimmte Komponenten verursacht wurden?
Amin Tootoonchian: Ich habe keine konkreten Zahlen, die ich mitteilen kann, aber im Allgemeinen steht die erste Bereitstellung einer neuen Hardwaregeneration oft vor vielen technischen Herausforderungen, die noch nicht vollständig verstanden wurden. Wir haben uns entschieden, das Projekt voranzutreiben, bevor das Problem vollständig geklärt war, was zu einer hohen anfänglichen Ausfallrate führte.
Die Erfahrung zeigt jedoch, dass die Ausfallrate deutlich reduziert wird, sobald die Ursache identifiziert und behoben ist. Dieses Phänomen spiegelt im Wesentlichen unser tieferes Verständnis der Infrastruktur wider - einige Leute nennen es die Bereinigung der Infrastruktur oder das Verständnis der grundlegenden Probleme der Infrastruktur.
Die frühen Phasen der Ausführung sind fast immer ziemlich schmerzhaft. Während wir das Projekt vorantreiben, entdecken und lösen wir auch kontinuierlich neue Ausfallmodi, aber letztendlich wird die Ausfallrate allmählich sinken und die normale Laufzeit wird zunehmen.
Dies ist im Wesentlichen eine Frage der Prioritätskompromisse: In den frühen Phasen des Infrastrukturlebenszyklus ist das Ausfallrisiko oft schwer genau abzuschätzen; und wenn wir übermäßig den ultimativen Idealzustand (das Original ist ‘City Estate’, der ideale Stadtstaatentwurf) anstreben, kann dies dazu führen, dass die anfängliche Verfügbarkeitsleistung des Systems extrem schlecht ist.
Jenseits von Compute: Algorithmische Innovation und das ungenutzte Potenzial von Daten
Sam Altman: Obwohl das Inferenzmodell eine Schlüsselkomponente unseres zukünftigen Technologie-Stacks ist, konzentrieren wir uns vorübergehend auf die Entwicklungsgrenzen traditioneller Pre-Training-Modelle. Angenommen, wir haben unbegrenzte GPU-Rechenleistung, unbegrenzte Netzwerkbandbreite und unbegrenzte Stromversorgung, sind aber immer noch durch bestehende technische Engpässe begrenzt - einschließlich Systemzuverlässigkeitsprobleme, Mangel an fehlertoleranten Trainingsmethoden und Einschränkungen bestehender Datensätze.
Entsprechend unserer Evolutionsregel, für jede Haupt-GPT-Versionsnummer eine 100-fache Skalierung zu erreichen, welches Niveau kann die Entwicklung von Pre-Training-Modellen basierend auf den aktuellen technischen Grenzen erreichen? Welche Art von Modell kann theoretisch auf der Grundlage unseres bestehenden Wissenssystems für die GPT-Serienmodelle trainiert werden? Können wir GPT-5.5 herstellen?
Alex Paino: Aus der Perspektive des maschinellen Lernens und der Algorithmusentwicklung haben wir noch keine klare theoretische Grenze erreicht. Tatsächlich haben wir erst jetzt begonnen, Algorithmen mit höherer Dateneffizienz zu erforschen und wie bestehende Datenressourcen besser genutzt werden können. Diese Situation ist sehr interessant - selbst Modelle wie GPT-4 werden größtenteils unter Bedingungen begrenzter Rechenressourcen entwickelt, was die Richtung der meisten früheren Forschungen bestimmt hat.
Aber die Situation ist jetzt völlig anders. Seit GPT-4.5 werden in einigen Schlüsseldimensionen eher Daten als Berechnungen zur Haupteinschränkung. Diese Verlagerung macht die entsprechende Forschung weniger spannend.
Sam Altman: Aber dies ist in der Tat ein erstaunlicher Fortschritt, und die Welt ist sich möglicherweise nicht vollständig bewusst, dass Rechenressourcen nicht mehr der Haupthindernis für das beste Modell sind, das wir bauen können. Diese Verlagerung ist sehr sinnvoll, schließlich leben wir schon zu lange in einer rechenbeschränkten Umgebung.
Enthüllung der Überraschungen: Vorhersagbarkeit vs. unvorhergesehene Intelligenz
Sam Altman: Was ist die interessanteste Erfahrung mit maschinellem Lernen, die wir während des Trainings von GPT-4.5 gemacht haben? Sagen Sie einfach, was Sie mitteilen möchten.
Amin Tootoonchian: Im Allgemeinen sind die Dinge, die am meisten zum Nachdenken anregen, diejenigen, die von unseren Vorhersagen abweichen - insbesondere wenn wir versuchen zu verstehen, warum die tatsächliche Leistung von der erwarteten Kurve abweicht.
Alex Paino: Eine der überraschendsten Entdeckungen für uns ist, dass verschiedene Machine-Learning-Komponenten sehr unterschiedliche Skalierungsleistungen aufweisen. Einige Teile können sehr gut erweitert werden, andere nicht. Dies ist es, was wir während des tatsächlichen Trainingsprozesses wirklich erkannt haben. Diese Erfahrung hat uns viel Inspiration gegeben.
Daniel Selsam: Ich denke, die beiden Kernmerkmale des GPT-Paradigmas sind: Erstens kann der Testverlust (eine Metrik, die misst, wie gut das Modell mit ungesehenen Testdaten abschneidet) genau vorhergesagt werden; zweitens zeigt die Modellleistung eine vorhersehbare Verbesserung mit zunehmender Skalierung. Noch erstaunlicher ist, dass die Reduzierung des Testverlusts in ein allseitig verbessertes Intelligenzniveau in verschiedenen schwer zu quantifizierenden, aber erstaunlichen und mysteriösen Weisen umgewandelt wird.
Sam Altman: Sind Sie absolut optimistisch, was das angeht? Stimmen Sie diesem Standpunkt voll und ganz zu?
Daniel Selsam: Eigentlich möchte ich sagen, dass wir im GPT-4.5-Test ein besonders interessantes Phänomen festgestellt haben - nach erneuten Tests haben die vielen ausgefeilten Fähigkeiten, die das Modell gezeigt hat, alle Erwartungen übertroffen.
Wir sind sicher, dass es in verschiedener Hinsicht intelligenter wird, die im Voraus nur schwer zu definieren sind, und diese subtilen Verbesserungen können aus der Benutzerzufriedenheit nach der tatsächlichen Bereitstellung beobachtet werden: stärkere gesunde Menschenverstandreserven, genauere kontextuelle Verständnis Fähigkeit und subtileres semantisches Verständnis - das ist die Magie, die durch diese zusätzlichen Testverluste gebracht wird. Meiner Meinung nach wurde das Skalierungsgesetz in dieser Dimension perfekt bestätigt.
Die Kraft der Zusammenarbeit: Machine-Learning- und Systemteams, die harmonisch zusammenarbeiten
Sam Altman: Was war der positivste Moment während des gesamten Trainingsprozesses? Was ist Ihre liebste Erinnerung? Offensichtlich gibt es viel Schmerz, aber ich hoffe, dass dieser Schmerz gelindert wurde.
Alex Paino: Ich habe so einen Moment. Wir haben während des Trainings viel Machine-Learning-Arbeit geleistet, und ich denke, einige der Änderungen, die wir während des Prozesses vorgenommen haben, hatten eine ziemlich gute Auswirkung, vielleicht sogar besser als erwartet, was für uns ein sehr aufregender Moment war.
Amin Tootoonchian: Für mich bauen wir gleichzeitig mit dem Training auch Infrastruktur auf. Wir sind fest davon überzeugt, dass wir diese Leistungsklippe überwinden können, und wir haben einen Plan, und jeder setzt ihn um, aber es dauert lange. Das ist harte Arbeit und definitiv schwieriger als ich dachte. Meine Vorhersage war falsch, und ich habe die Zeit, die benötigt wird, um diese Probleme zu lösen, unterschätzt.
Der Moment, als das Team endlich diese Schlüsselprobleme überwunden hatte und die Leistung deutlich verbessert wurde, ist mir noch gut in Erinnerung. Man kann deutlich die Energieverlagerung im gesamten Team spüren - alle sind plötzlich voller Energie und stürmen mit neuer Motivation auf das Endziel zu.
Das Erstaunlichste ist, dass sich die geschätzte Fertigstellungszeit, die auf unserem Status-Tracker angezeigt wurde, von den anfänglichen zwei Jahren immer weiter verkürzte und sich schließlich auf einen klaren Zeitpunkt festlegte. Dieser sichtbare Fortschritt ist für die Moral des Teams unermesslich. Ich denke, das ist das Schöne daran.
Ich möchte betonen, dass die Machine-Learning-Arbeit nie aufgehört hat. Auch nach dem Start des Trainings läuft dieser Machine-Learning-Co-Design-Prozess noch weiter. Das Machine-Learning-Team hat nicht nur die Probleme, die als ‘nachträgliche Bearbeitung’ gekennzeichnet wurden, aktiv weiterverfolgt, sondern auch weiterhin Verbesserungen geliefert, die die Trainingszeit wirklich optimiert haben.
Dies verkörpert perfekt unseren Teamgeist - es gibt hier keine Arbeitsgrenze für das ‘Kehren des Schnees vor der eigenen Tür’, sondern eine wirklich nahtlose Zusammenarbeit. Dieser Zusammenhalt ist unser größter Vorteil.
Sorgfältige Planung und unerbittliches Streben nach Anomalien im GPT-4.5-Pre-Training
Daniel Selsam: Die Außenwelt hat viel über die Herausforderungen und die Vorhersagegenauigkeit dieses Trainings selbst diskutiert. Aber tatsächlich basiert dies alles auf einer äußerst sorgfältigen Planung - können Sie mehr im Detail darüber sprechen?
Alex Paino: Dies ist definitiv der sorgfältigste Plan, den wir bisher gemacht haben. Wie gesagt, wir haben ein Jahr vor dem offiziellen Start des Trainings mit der Vorbereitung auf dieses Projekt begonnen. Während dieser Zeit haben wir mehrere groß angelegte Risikokontrolltestläufe durchgeführt.
Wir achten besonders darauf, alle Verbesserungen schrittweise einzuführen: ausgehend von einer Basis Konfiguration mit hohem Vertrauen - die als ausgereifte Architektur ähnlich GPT-4 verstanden werden kann, haben wir diese Konfiguration auf der Machine-Learning-Ebene vollständig beherrscht - und dann neue Funktionen wie Bausteine schichtweise hinzugefügt.
Der Schlüssel liegt darin, die Skalierbarkeit jeder Verbesserung in verschiedenen Maßstäben streng zu überprüfen: nicht nur, um Leistungsverbesserungen zu sehen, sondern auch um sicherzustellen, dass diese Verbesserungen weiterhin wirksam sein können, wenn die Modellgröße zunimmt. Viele Verbesserungen schneiden in kleinen Maßstabtests gut ab, scheitern jedoch in groß angelegten Anwendungen.
Daher haben wir während des gesamten Prozesses ein hohes Maß an Wachsamkeit aufrechterhalten und unsere Skalierungsgesetzmethodik kontinuierlich iteriert und verbessert. Durch diese Risikokontrollpraxis haben wir viele wertvolle Erfahrungen gesammelt, die die Entwicklung zukünftiger GPT-Serienmodelle weiterhin leiten werden.
Amin Tootoonchian: Ich erinnere mich an einen besonders interessanten Moment, den ich sehr vermisse. Wissen Sie, wir stoßen fast unvermeidlich auf verschiedene Bugs, wenn wir eine Trainingsaufgabe starten, was alltäglich ist. Der Schlüssel ist jedoch sicherzustellen, dass der Fortschritt nicht behindert wird, und wir müssen immer bestätigen, ob der aktuelle Fortschritt tatsächlich auf dem richtigen Weg ist und ob diese Bugs einen fatalen Einfluss auf die Gesundheit des Trainings haben werden.
Obwohl wir uns anfangs sehr sicher waren, dass es große Mängel gibt, konnten wir durch das gesamte Überwachungssystem, das wir aufgebaut haben, die Ursache des Problems genau unterscheiden: Ist es ein Hardwarefehler? Welche Art von Hardwarefehler? Sind die Daten beschädigt? Oder ist es ein Bug im Machine-Learning-Modell selbst? Oder ist es eine Race Condition im Code?
Zu dieser Zeit hatten wir mehrere Problemdiskussionsbereiche gleichzeitig geöffnet, mit einer Vielzahl von Symptomen. Nach einer Reihe von Bugfixes gerieten wir in eine Sackgasse: Mehrere ungelöste Probleme türmten sich vor uns auf, und alle zerbrachen sich den Kopf - wurden diese durch verschiedene Bugs verursacht? Oder ist es ein Bug, der Ärger verursacht?
Später führten wir eine Abstimmung durch und baten die Teammitglieder, für die wahrscheinlichste Ursache zu stimmen. Infolgedessen traf die am wenigsten optimistische Option die Wahrheit: Es stellte sich heraus, dass es ein Problem mit der torch.sum-Funktion stromaufwärts von PyTorch gab, einer einfachen Summierungsoperation.
Dieser Bug ist sehr interessant. Sie wissen, dass wir hauptsächlich den Triton-Kernel verwenden, und nur in einigen unbedeutenden marginalen Szenarien werden wir auf Torch-Operationen zurückgreifen. Der torch.sum-Funktionsbug, der durch unseren spezifischen Codepfad ausgelöst wird, verursacht gelegentlich aufgrund der Datenverteilungseigenschaften einen illegalen Speicherzugriff - er hat einen Fehler bei der Berechnung des Speicher-Offsets gemacht.
Das Dramatischste ist, dass, als ein Ingenieur das Problem endlich lokalisierte und einen Fix einreichte, alle Fehler mit unterschiedlichen Symptomen verschwanden. Alle änderten aufgeregt den Slack-Kanal von der ‘Multi-Bug-Theorie’ zur ‘Single-Bug-Theorie’, und die Szene war sehr glücklich.
Wie lange hat dieser Bug gelauert? Er existiert seit den frühen Phasen des Trainings und wurde erst gefunden, als die Fortschrittsanzeige etwa 40 % überschritten hatte. Der Entdeckungsprozess war auch voller Drama: Zu dieser Zeit rief ein komplexer Kernel kontinuierlich eine Sequenz auf, und der zweite Aufruf löste einen illegalen Speicherzugriff aus.
Obwohl diese Absturzhäufigkeit extrem niedrig ist (sie tritt nur einmal alle paar Hundert oder sogar Tausend Trainingsschritte auf), ist es leicht, sie als gelegentlichen Fehler zu ignorieren, aber unser Teamprinzip lautet: Geben Sie niemals eine Anomalie auf. Das Beste an dieser Geschichte liegt in dieser Beharrlichkeit, nicht leicht aufzugeben.
Die Suche nach idealen Systemen: Ein ferner Horizont
Sam Altman: Was müssen Sie nach dem Start des GPT-4.5-Pre-Trainings noch tun?
Alex Paino: Wir alle müssen die Verlustkurve häufigbeobachten. Darüber hinaus müssen wir das System kontinuierlich optimieren und das Co-Design verbessern, das vor dem Start des Trainings nicht abgeschlossen wurde. Wir überwachen verschiedene statistische Indikatoren während des Trainingsprozesses genau, um sicherzustellen, dass es keine unerwarteten abnormalen Trends gibt. Gleichzeitig untersuchen wir mögliche Verbesserungspläne aus der Perspektive des maschinellen Lernens. Obwohl die datenbezogene Arbeit nach dem Start des Pre-Trainings vorübergehend reduziert wird, gibt es noch eine große Anzahl von Aufgaben zu erledigen.
Amin Tootoonchian: Ich denke, Machine Learning hängt weitgehend von der Richtigkeit des Urteils ab. Nach dem Start des Pre-Trainings müssen wir angesichts einer großen Anzahl von Rauschsignalen wie Wahrsager Teeblätter interpretieren, und wir müssen beurteilen, ob das System gesund ist. Das ist unsere Verantwortung.
Sam Altman: Was hindert uns auf Systemebene daran, Modelltraining durchzuführen? Sind es Chips, Prozessoren, Speicher, Netzwerk oder Strom?
Amin Tootoonchian: Das Schöne am System ist, dass sich die Arbeitslast beim Co-Design an die Infrastruktur anpassen kann, die Sie aufbauen. Es gibt hier keine allgemeine Aussage, dass das Netzwerk der Engpass ist, oder die Speicherbandbreite ist der Engpass, und so weiter. Selbst für Modelle derselben Spezifikation können wir wählen, Ressourcenanforderungen zu übertragen, und wir können wählen, ein ausgewogeneres System zu schaffen, aber mehr Speicherbandbreite ist immer von Vorteil. Es ist schwierig, diese Frage ohne einschränkende Bedingungen zu beantworten.
Bei der Entwicklung von GPT-4.5 benötigen wir möglicherweise, dass das System eine Art Attribut hat, das unter menschlicher Anleitung erzeugt werden muss. Daher ist Co-Design sehr wichtig für die Gestaltung der Modellarchitektur und der architektonischen Elemente und verbindet bis zu einem gewissen Grad die System- und Machine-Learning-Aspekte. Wenn das System ein Attribut hat, das wir nicht sehr stark haben wollen, ist meine ideale Situation, dass alles entkoppelt werden sollte, um sich gegenseitig den maximalen Raum zu geben.
Manchmal sind die Dinge miteinander verbunden, und wir müssen die Anforderungen der Infrastruktur erfüllen, oder die Dinge sollten so sein. Die meiste Zeit brauchen wir ein ausgewogenes System und eine ausgewogene Kommunikation. Und die besten Anpassungsmittel, die wir haben, sind all diese Co-Designs.
Sam Altman: Wie weit sind wir von diesem idealen Systemziel entfernt?
Amin Tootoonchian: Es ist noch ein langer Weg zu diesem Ziel. Der Prozess des Aufbaus eines Systems ist immer so: Zuerst gibt es eine idealisierte Sichtweise, wie die Dinge funktionieren sollten, und dann werden diese Unterschiede mit den vorhandenen Ressourcen in Einklang gebracht.
Ich denke, wir machen es nicht für die Theorie für die Theorie, sondern nur um zu diskutieren, was wir wollen, dass es wird, um es zu realisieren und dem Ideal so nahe wie möglich zu kommen. Dies ist vielleicht der aufregendste Teil des Systembereichs. Die Leute sagten früher, dass dies ein elegantes Systemdesign ist, und letztendlich wird die Geschichte uns sagen, ob diese Wahl richtig oder falsch ist.
Sam Altman: Wenn Sie vor dem nächsten großen Training eine Antwort auf ein Machine-Learning-Problem erhalten könnten, was würden Sie am liebsten wissen?
Alex Paino: Ich würde gerne wissen, welche Algorithmen wir unter begrenzten Daten und in bestimmten Feldern verwenden sollten. Obwohl dies eine breit gefächerte Frage ist, ist sie in der Tat die wichtigste.
Sam Altman: Werden Sie in Zukunft ein synchrones Pre-Training mit 10 Millionen GPUs oder mehr durchführen?
Alex Paino: Ich denke, das wird es geben, aber es ist möglicherweise kein traditionelles Pre-Training-Modell. Seine Form kann sich sehr von der bestehenden Technologie unterscheiden, aber sie wird dennoch den Kern des unbeaufsichtigten Lernens beibehalten.
Amin Tootoonchian: Ich bevorzuge den semi-synchronen Modus. Aufgrund physikalischer Gesetze ist eine vollständige Synchronisation nicht realistisch.
Daniel Selsam: Ich denke, es ist wahrscheinlicher, dass es dezentralisiert ist. Es wird definitiv 10 Millionen GPUs geben, die in einem KI-System zusammenarbeiten, um zu lernen und Aufgaben auszuführen, aber wie die verschiedenen Teile des Gehirns müssen sie möglicherweise nicht unbedingt miteinander kommunizieren.
Die synergetische Kraft algorithmischer Verbesserungen und Dateneffizienz
Sam Altman: Wie groß ist die Lücke zwischen den fortschrittlichsten Algorithmen und der Dateneffizienz des Menschen? Können wir hoffen, in Zukunft aufzuholen?
Daniel Selsam: Es ist schwierig, die beiden direkt zu vergleichen. Die Lücke beim Sprachenlernen ist definitiv riesig. Der Schlüssel liegt darin, wie die Informationsmenge definiert wird, die von menschlichen Sehbahnen empfangen wird. Ich denke, Algorithmen sind im Allgemeinen viel weniger dateneffizient als Menschen.
Seit Jahrzehnten konzentriert sich Deep Learning auf die Rechenleistungseffizienz. Neben dem Wachstum von Daten und Rechenleistung ist die synergistische Wirkung, die durch algorithmische Verbesserungen erzielt wird, wirklich überraschend. Jede Verbesserung der Algorithmusleistung um 10 % oder 20 % hat einen erheblichen Effekt, wenn sie der Dateneffizienz überlagert wird. Bisher gab es keine Mobilisierung in Bezug auf die Dateneffizienz, da dieser Ansatz nicht lohnenswert ist, wenn Daten nicht im Umlauf sind und die Rechenleistung begrenzt ist.
Jetzt treten wir in eine neue Phase der KI-Forschung ein, und wir werden anfangen, Siege in der Dateneffizienz zu erringen. Ich denke, es ist etwas töricht, jetzt vorherzusagen, dass wir auf unüberwindliche Hindernisse stoßen werden. Die Art und Weise, wie das menschliche Gehirn funktioniert, unterscheidet sich sicherlich von unseren Algorithmusverbesserungen, und wir sollten diesbezüglich vorsichtig sein. Aber ich denke, wir sollten optimistisch in die zukünftige Entwicklung von Algorithmen blicken.
Sam Altman: Wie ist die Korrelation zwischen groß angelegtem Pre-Training und den stärkeren Lern- und Denkfähigkeiten des Modells?
Alex Paino: Was wir beobachtet haben, ist, dass besseres Pre-Training und unbeaufsichtigtes Lernen oft die Gesamtintelligenz des Modells verbessern und bei der Verallgemeinerung sehr hilfreich sind. Dies ergänzt die Denkfähigkeit, während das Denken möglicherweise träger ist, die Intelligenz zu verbessern. Ich denke, sie ergänzen sich.
Sam Altman: Pre-Training scheint in vielen Dingen allgemein zu sein, während das Training eines Modells es nur in einer Art von Dingen gut machen kann, ist das richtig?
Alex Paino: Das ist sehr interessant, aber Sie werden von dieser Situation nicht überrascht sein, wenn Sie die Daten sehen, die sie trainieren. Der Pre-Training-Datensatzbereich ist sehr groß, und was wir verfolgen, ist Breite und Vielfalt. Wenn es um das Reinforcement Learning des Modells geht und es eindeutig gute Belohnungssignale und eine gute Trainingsumgebung erhält, denke ich, dass es schwierig ist, die Breite des Datensatzes auszugleichen.
Daniel Selsam: Ich stimme zu, aber ich denke, es gibt noch einen weiteren Faktor. Pre-Training komprimiert im Wesentlichen Daten und entdeckt dadurch die Verbindungen zwischen verschiedenen Dingen. Es geht um Analogien und abstrakter. Denken ist eine Fähigkeit, die sorgfältiges Nachdenken über ein bestimmtes Problem erfordert und auch Lösungen für viele Arten von Problemen erhalten kann. Beim Pre-Training kann jedoch mehr abstraktes Wissen gelernt werden, wenn Daten über verschiedene Bereiche hinweg komprimiert werden.
Das Wesen der Intelligenz: Kompression und der Long-Tail-Effekt
Sam Altman: Warum ist unbeaufsichtigtes Lernen effektiv?
Daniel Selsam: Der Schlüssel ist die Kompression. Die ideale Form der Intelligenz ist die Solomonoff-Induktion. Im Allgemeinen wird Machine Learning alle Möglichkeiten in Betracht ziehen, testet aber in der Regel zuerst mit einfacheren Programmen.
Das Wesen des aktuellen Pre-Trainings ist ein Komprimierungsprozess, der eine ungefähre Darstellung erreicht, indem das einfachste Programm gefunden wird, um alle Daten zu erklären, die Menschen bisher produziert haben.
Sam Altman: Wie hilft die nächste Token-Vorhersage, Kompression zu erreichen?
Daniel Selsam: Es gibt ein Paradoxon in der Statistik - warum können tiefe Netzwerke eine Verallgemeinerung erreichen, obwohl sie scheinbar nicht komprimieren können? Normalerweise müssen diese Modelle bei vielen Daten und einigen kleinen Modellen eine Komprimierung durchlaufen, um etwas zu lernen.
Beim Pre-Training sind der Umfang der Daten und Modelle sehr groß. Einige Leute denken, dass dieses Training nur Gedächtnis und Interpolationslernen ist. Tatsächlich ignorieren sie eine andere Verständnisperspektive der Komprimierung - die Pre-quential-Komprimierung. Sie ist wie ein Kompressor. Selbst wenn das Datengewicht sehr groß ist, muss das Binär diese Informationen nicht speichern. Das Ergebnis der nächsten Token-Vorhersage kann schnell nützliche Informationen abrufen und die Komprimierungseffizienz verbessern.
Sam Altman: Der Prozess des Trainings von GPT-4.5 hat viel Arbeitskraft, Zeit und Geld gekostet, was tatsächlich als Experiment zur Überprüfung des Skalierungsgesetzes angesehen werden kann, und die Ergebnisse beweisen, dass es effektiv ist und noch lange andauern wird. Warum kann das Skalierungsgesetz als Gesetz des Universums bezeichnet werden?
Daniel Selsam: Je höher der Komprimierungsgrad, desto stärker die Intelligenz. Dies hat tiefgreifende philosophische Konnotationen. Warum dauert das Training größerer Modelle länger und