Enthüllung des GPT-4.5-Trainings von OpenAI: Ein tiefer Einblick in rechnerische Herausforderungen und Durchbrüche
Die Entwicklung von GPT-4.5, einem vor zwei Jahren initiierten Projekt, stellt das bisher ehrgeizigste Unterfangen von OpenAI dar. Dieses massive Projekt erforderte die Zusammenarbeit von Hunderten von Personen, wobei Sam Altman, CEO von OpenAI, feststellte, dass das Projekt nahezu das gesamte organisatorische Engagement erforderte.
Überwindung ‘Katastrophaler Probleme’ beim groß angelegten Training
Der Weg zur Erstellung von GPT-4.5 war nicht ohne Hürden. Das Team stieß während der Forschungs- und Entwicklungsphase auf zahlreiche ‘katastrophale Probleme’. Die Verwendung eines Clusters von 100.000 GPUs deckte zuvor ungesehene, unwahrscheinliche, aber tiefgreifende Infrastrukturfehler auf. Um Zweckmäßigkeit mit optimaler Leistung in Einklang zu bringen, war das Systemteam von OpenAI gezwungen, einen ‘Fix-as-we-go’-Ansatz zu wählen. Ein besonders schwer fassbarer Fehler plagte den Cluster mit häufigen Fehlern, die erst entdeckt wurden, nachdem etwa 40 % des Trainingsprozesses verstrichen waren.
Trotz dieser Herausforderungen katalysierte das GPT-4.5-Projekt die Entwicklung eines robusteren Technologie-Stacks. Heute kann ein schlankes Team von nur 5-10 Personen ein großes Modell wie GPT-4 replizieren. Die Leistungssteigerungen von GPT-4 zu GPT-4.5 waren etwa zehnfach und führten zu einer ‘Intelligenz, die schwer zu quantifizieren, aber in allen Aspekten verbessert ist’, ein Ergebnis, das selbst das eigene Personal von OpenAI überraschte.
Verlagerung des Fokus: Von Rechenleistung zu Dateneffizienz
OpenAI hat erkannt, dass das Erreichen des nächsten zehn- oder hundertfachen Leistungssprungs nicht von roher Rechenleistung abhängt, sondern von Dateneffizienz – insbesondere von der Fähigkeit, mehr Wissen aus derselben Datenmenge zu extrahieren und gleichzeitig größere Rechenressourcen zu nutzen.
Die Architektur entwickelt sich auch von einem Einzelcluster- zu einem Multicluster-Paradigma. Zukünftige Trainingsiterationen können kollaboratives Lernen über bis zu 10 Millionen GPUs beinhalten, was eine höhere Fehlertoleranz erfordert.
Sam Altmans Dialog mit dem GPT-4.5-Team
Das Folgende ist eine bearbeitete Zusammenstellung einer Diskussion zwischen Sam Altman und dem OpenAI GPT-4.5-Team:
Sam Altman: Was ist erforderlich, um ein so großes Modell wie GPT-4.5 zu erstellen?
Alex Paino: Wir haben dieses Projekt vor etwa zwei Jahren gestartet. Zu diesem Zeitpunkt war OpenAI kurz davor, einen neuen großen Computercluster zu starten, und unser Team sah dies als Gelegenheit, eine Reihe von Operationen durchzuführen, um die Funktionen zu bestimmen, die das Modell enthalten musste, und führte eine große Anzahl von Risikominderungsoperationstests durch.
Wir haben einen langen Plan dafür entwickelt, der den gesamten Technologie-Stack vom System bis zum maschinellen Lernen umfasst. Das Reduzieren von Risiken und die Vorbereitung auf das Training ist ein langer Ausführungsprozess, und das Training selbst ist ein sehr großesProjekt.
Amin Tootoonchian: Ich denke, dieser Prozess erfordert von Anfang an eine enge Zusammenarbeit zwischen dem Machine-Learning-Team und dem Systemteam, bis wir klären, welches Modell wir trainieren wollen, und dann mit dem Training beginnen.
Wir haben Vorhersagen sowohl in Bezug auf maschinelles Lernen als auch auf Systemaspekte getroffen und versucht, die Lücke zwischen Erwartung und Realität so weit wie möglich zu schließen. Da unser Arbeitsrhythmus jedoch schnell ist und wir die neuesten Rechenressourcen nutzen müssen, ist das Modelltraining zu etwas geworden, das im Voraus nur schwer perfekt geplant werden kann.
Wir beginnen fast immer mit vielen ungelösten Problemen mit dem Training und versuchen, Herausforderungen zu überwinden und während des Betriebs Fortschritte zu erzielen. Die Hauptlösung besteht darin, mehr Rechenressourcen hinzuzufügen.
Die Endphase ist die Ausführung, die von vielen Menschen erfordert, über einen langen Zeitraum viel Energie und Motivation zu investieren, um den Trainingsprozess abzuschließen.
Sam Altman: Wie groß ist Ihrer Meinung nach die Lücke zwischen unseren Erwartungen und der Realität?
Amin Tootoonchian: In Bezug auf das System sind wir am Anfang normalerweise weit vom erwarteten Zustand entfernt. Wir stehen immer vor der Wahl: den Start verschieben und warten, bis das Problem gelöst ist, oder frühzeitig starten und das Problem im Laufe des Prozesses lösen. Dies erfordert immer einen Kompromiss, um unzumutbare Verzögerungen im Prozess zu vermeiden.
Es gibt jedoch fast immer einige unerwartete Probleme, und was wir tun müssen, ist, diese Knoten so weit wie möglich zu behandeln, mit den unbekannten Faktoren umzugehen und einen Plan für das Modelltraining zu erstellen.
Alex Paino: In diesem Projekt ist es unser Ziel, GPT-4.5 zu erstellen, was bedeutet, dass seine Fähigkeiten 10-mal intelligenter sein sollten als GPT-4. Dies ist das ursprüngliche Ziel, das wir vor etwa 2 Jahren festgelegt haben.
Während dieses Prozesses ist viel passiert. Wir haben darüber nachgedacht, ob wir es besser machen könnten oder ob es schlimmer wäre als erwartet? Dies ist ein sehr komplizierter Prozess, aber am Ende haben wir in Bezug auf die effektiven Berechnungen, die wir investiert haben, ein Modell erhalten, von dem wir glauben, dass es 10-mal intelligenter ist als GPT-4.
Amin Tootoonchian: In Bezug auf die Ausführung ist die für das GPT-4.5-Projekt aufgewendete Zeit weit von dem entfernt, was wir ursprünglich erwartet hatten.
Sam Altman: Warum sind Sie auf so viele Probleme gestoßen, als der Cluster von 10.000 Karten auf 100.000 Karten erweitert wurde?
Amin Tootoonchian: Ich denke, wenn Systementwickler sensibel genug sind, können die meisten Probleme in der kleinen Phase beobachtet werden.
Einige Probleme sind nicht spezifisch für die groß angelegte Trainingsphase, sind aber schon oft aufgetreten, werden aber zu katastrophalen Problemen, nachdem die Größenordnung erhöht wurde, insbesondere wenn das Team nicht erwartet hat, dass sich diese Probleme so weit verschlimmern.
Sam Altman: Welche Dinge haben katastrophale Folgen verursacht?
Amin Tootoonchian: Ich denke, Infrastrukturprobleme sind bekannt, egal ob die Ausfallrate, die Art des Ausfalls oder die Gesamtzahl der Ausfälle sehr hoch ist. Der 100.000-Karten-Cluster ist ein großer Stichprobenpool, daher haben wir auch Probleme entdeckt, die der Rechenleistungsanbieter nicht beobachtet hat.
Das Netzwerk ist eines davon, und auch einzelne Beschleuniger können Probleme haben. Dies ist aber auch die Schönheit dieses Systems - fast alle Komponenten müssen wie erwartet funktionieren, um die erwarteten Ergebnisse zu erzielen. Unsere Aufgabe ist es, dieses Problem so weit wie möglich zu minimieren.
Sam Altman: Es ist in der Tat schwierig, ander Grenze der Clustergröße zu arbeiten, aber ich habe auch festgestellt, dass es viel einfacher geworden ist, Dinge zu tun, die nicht mehr an der Spitze der Technologie stehen. Das Training von GPT-4.5 erfordert Hunderte von Personen, und OpenAI hat fast alle an Bord.
Wenn Sie heute das kleinste Team von OpenAI auswählen und GPT-4 mit all dem Wissen und der Systemarbeit, die wir kennen, von Grund auf neu trainieren würden, wie viele Personen wären dann erforderlich?
Alex Paino: Ich denke, es kann jetzt etwa 5 bis 10 Personen dauern, um ein Modell auf GPT-4-Niveau zu erstellen. Der Technologie-Stack wurde im Laufe der Fertigstellung von GPT-4.5 erheblich verbessert.
Tatsächlich haben wir im Rahmen des Trainings von GPT-4.5 ähnliche Dinge getan - wir haben GPT-4o trainiert, ein Modell auf GPT-4-Niveau, und es unter Verwendung vieler derselben Inhalte aus dem GPT-4.5-Forschungsprojekt neu trainiert. Für dieses Training wurden weniger Personen eingesetzt.
Sam Altman: Aus Ihrer Sicht, Dan? Warum ist es schwierig, große Modelle zu trainieren?
Daniel Selsam: Ich denke, es ist schwer, etwas Neues zu machen. Ich denke, selbst wenn man nur entdeckt, dass jemand anderes etwas getan hat, macht es das viel einfacher, denn das Schwierigste ist, überhaupt den Glauben zu haben, etwas zu tun. Ich denke, nur zu wissen, dass etwas machbar ist, ist ein super Cheat-Code, der die Dinge viel einfacher macht.
Alex Paino: Wir erweitern den GPT-Pre-Training-Lauf auf das 10-fache seiner vorherigen Größe und finden immer wieder interessante neue Dinge, die man nicht unbedingt vorhersagen kann.
Sam Altman: Was ist erforderlich, um das nächste 10- oder 100-fache Wachstum der Pre-Training-Skala zu erreichen?
Daniel Selsam: Dateneffizienz. Die Transformer-Architektur (d. h. GPT) ist sehr effizient bei der Nutzung von Daten. Es kann Informationen gut aufnehmen und komprimieren und eine Verallgemeinerung erreichen. Sein größtes Merkmal ist, dass es Informationen mit Rechenressourcen effizient aufnehmen kann.
Die Tiefe des Wissens, das es aus Daten gewinnt, ist jedoch begrenzt. Wenn die Rechenleistung schnell wächst und die Daten relativ langsam wachsen, werden die Daten zu einem Engpass für dieses Standardmodell. Dies erfordert algorithmische Innovationen, um Methoden zu entwickeln, die mehr Rechenleistung nutzen können, um mehr Wissen aus der gleichen Datenmenge zu lernen.
Sam Altman: Was brauchen wir Ihrer Meinung nach noch, um die Expansion aufrechtzuerhalten?
Amin Tootoonchian: Meine Antwort bezieht sich auf das System. Ich denke, die enorme Menge an Arbeit, die für GPT-4.5 erforderlich ist, ist im Wesentlichen das unvermeidliche Ergebnis der Modellspezifikationen. Wir können GPT-4.5 nicht mit der genau gleichen technischen Architektur wie GPT-4 trainieren.
In Bezug auf das Zustandsmanagement müssen wir, da die erforderlichen Rechenressourcen die Kapazität eines einzelnen Clusters überschritten haben, auf eine Multicluster-Trainingsarchitektur umsteigen. Um dieses Ziel zu erreichen, müssen wir mehrere verschiedene Workflows in kurzer Zeit integrieren.
Obwohl uns dies in der Tat geholfen hat, Etappendurchbrüche zu erzielen, müssen wir, um die nächste Größenordnung der Leistungsverbesserung zu erzielen, noch einige bekannte, aber vorübergehend aufgeschobene technische Probleme lösen - diese Probleme können nicht vermieden werden. Es ist diese Art von technischem Kompromiss, der den F & E-Zyklus des perfekten Systems ständig verlängert, und wir treffen ständig strategische Kompromisse bei der Verfolgung des optimalen Implementierungsplans.
Es muss klar sein, dass das System selbst nicht das ultimative Ziel ist, und sein tatsächlicher Ausgabewert ist die Kernüberlegung. Für die nächste 10-fache Leistungsverbesserung halte ich den Durchbruch bei der Fehlertoleranz für entscheidend. Wir müssen einen fehlertoleranten Mechanismus aufbauen, der tief mit der Workload synergetisch ist, um die Betriebs- und Wartungsangst erheblich zu reduzieren. Die Betriebs- und Wartungskomplexität aktueller ultragroßer Systeme unterscheidet sich grundlegend von früheren Systemen.
Sam Altman: Wissen Sie, welcher Prozentsatz der Ausfälle während des GPT-4.5-Trainings durch bestimmte Komponenten verursacht wurde?
Amin Tootoonchian: Ich habe keine konkreten Zahlen, die ich mitteilen kann, aber im Allgemeinen steht der Systembetrieb in den frühen Phasen der Bereitstellung einer neuen Hardwaregeneration oft vor vielen technischen Herausforderungen, die nicht vollständig verstanden werden. Wir haben das Projekt vorangetrieben, bevor das Problem vollständig definiert war, was zu einer hohen anfänglichen Ausfallrate führte.
Die Erfahrung hat jedoch gezeigt, dass die Ausfallrate deutlich sinkt, sobald die Ursache identifiziert und behoben ist. Dieses Phänomen spiegelt im Wesentlichen unser vertieftes Verständnis der Infrastruktur wider - einige Leute nennen es die Bereinigung der Infrastruktur oder das Verständnis der grundlegenden Probleme der Infrastruktur.
Die frühen Phasen der Ausführung sind fast immer ziemlich schmerzhaft. Während wir das Projekt vorantreiben, entdecken und lösen wir auch kontinuierlich neue Ausfallmodi, aber die Ausfallrate wird allmählich sinken und die normale Betriebszeit wird länger.
Dies ist im Wesentlichen eine Frage von Prioritätskompromissen: In den frühen Phasen des Infrastrukturlebenszyklus ist das Ausfallrisiko oft schwer genau abzuschätzen; und wenn wir übermäßig den ultimativen Idealzustand (das Original ist ‘City Estate’, der ideale Stadtstaatentwurf) verfolgen, kann dies dazu führen, dass die Systemverfügbarkeitsleistung in den frühen Phasen äußerst schlecht ist.
Sam Altman: Obwohl das Reasoning-Modell eine Schlüsselkomponente unseres zukünftigen Technologie-Stacks ist, konzentrieren wir uns vorübergehend auf die Entwicklungsgrenze des traditionellen Pre-Training-Modells. Angenommen, wir haben unbegrenzte GPU-Rechenleistung, unbegrenzte Netzwerkbandbreite und unbegrenzte Stromversorgung, sind aber immer noch durch bestehende technische Engpässe begrenzt - einschließlich Systemzuverlässigkeitsproblemen, dem Mangel an fehlertoleranten Trainingsmethoden und den Einschränkungen bestehender Datensätze.
Welches Niveau kann die Entwicklung des Pre-Training-Modells nach unserem Evolutionsgesetz, das eine 100-fache Skalenerhöhung in jeder wichtigen GPT-Versionsnummer erreicht, basierend auf den aktuellen technischen Grenzen erreichen? Speziell für die Modelle der GPT-Serie: Welche Art von Modell können wir mit unserem vorhandenen Wissenssystem theoretisch trainieren? Kann GPT-5.5 erstellt werden?
Alex Paino: Aus Sicht des maschinellen Lernens und der Algorithmusentwicklung haben wir noch keine klare theoretische Obergrenze erreicht. Tatsächlich fangen wir gerade erst an, Algorithmen mit höherer Dateneffizienz zu erforschen und wie bestehende Datenressourcen besser genutzt werden können. Diese Situation ist sehr interessant - selbst Modelle wie GPT-4 werden größtenteils unter den Zwängen begrenzter Rechenressourcen entwickelt, was auch die Richtung der meisten früheren Forschungen bestimmt.
Aber die Situation ist jetzt völlig anders. Seit GPT-4.5 werden in einigen Schlüsseldimensionen Daten und nicht Rechenleistung zur Haupteinschränkung. Diese Verlagerung macht die zugehörige Forschung weniger aufregend.
Sam Altman: Aber dies ist in der Tat ein erstaunlicher Fortschritt, und die Welt erkennt möglicherweise nicht vollständig, dass Rechenressourcen nicht mehr der Haupteffekt bei dem besten Modell sind, das wir bauen können. Diese Veränderung ist tiefgreifend, schließlich leben wir schon zu lange in einer rechenbeschränkten Umgebung.
Sam Altman: Was ist die interessanteste Machine-Learning-Erfahrung, die wir im Rahmen des Trainings von GPT-4.5 gelernt haben? Sprechen Sie einfach über das, was Sie teilen möchten.
Amin Tootoonchian: Im Allgemeinen sind die Situationen, die von unseren Vorhersagen abweichen, am meisten zum Nachdenken anregen - insbesondere wenn wir versuchen zu verstehen, warum die tatsächliche Leistung von der erwarteten Kurve abweicht.
Alex Paino: Eine der überraschendsten Erkenntnisse für uns ist, dass die Skalierbarkeit verschiedener Machine-Learning-Komponenten sehr unterschiedlich ist. Einige Teile können gut skaliert werden, während andere nicht skaliert werden können. Das haben wir im eigentlichen Trainingsprozess wirklich erkannt. Diese Erfahrung hat uns viel Inspiration gegeben.
Daniel Selsam: Ich denke, die beiden Kernmerkmale des GPT-Paradigmas sind: Erstens kann der Testverlust (eine Metrik, um zu messen, wie gut das Modell bei ungesehenen Testdaten abschneidet) genau vorhergesagt werden; Zweitens zeigt die Modellleistung mit der Erweiterung des Umfangs eine vorhersehbare Verbesserung. Noch magischer ist, dass die Reduzierung des Testverlusts sich in ein rundum verbessertes Maß an Intelligenz in verschiedenen, schwer zu quantifizierenden, aber erstaunlichen Weisen verwandelt.
Sam Altman: Sind Sie diesbezüglich absolut optimistisch? Stimmen Sie dieser Ansicht voll und ganz zu?
Daniel Selsam: Was ich eigentlich sagen wollte, ist, dass wir im GPT-4.5-Test besonders interessante Phänomene gefunden haben - nach erneuten Tests zeigte das Modell viele subtile Fähigkeiten, die die Erwartungen aller völlig übertrafen.
Wir sind sicher, dass es in verschiedener Hinsicht intelligenter wird, die nicht im Voraus definiert werden können, und nach der tatsächlichen Bereitstellung können wir diese subtilen Verbesserungsebenen anhand der Benutzerzufriedenheit beobachten: stärkere Common-Sense-Reserven, genauere kontextbezogene Verständnisfähigkeiten und ein feineres semantisches Verständnis - dies ist genau die Magie, die diese zusätzlichen Testverluste mit sich bringen. Meiner Meinung nach wurde Scaling Law in dieser Dimension perfekt verifiziert.
Sam Altman: Was war der positivste Moment während des gesamten Trainingsprozesses? Was ist Ihre Lieblingserinnerung? Es gibt offensichtlich viel Schmerz, aber ich hoffe, dass diese Schmerzen gelindert wurden.
Alex Paino: Ich habe so einen Moment. Wir haben während des Trainings viel Machine-Learning-Arbeit geleistet. Ich denke, einige der Änderungen, die wir während des Betriebs vorgenommen haben, hatten einen ziemlich guten Einfluss, möglicherweise besser als erwartet, was für uns ein sehr aufregender Moment war.
Amin Tootoonchian: Für mich bauen wir gleichzeitig mit dem Training auch die Infrastruktur auf. Wir sind fest davon überzeugt, dass wir diese Leistungsklippe überwinden können, und wir haben einen Plan, und alle setzen ihn um, aber es dauert lange. Das ist harte Arbeit und definitiv schwieriger als ich gedacht hatte. Meine Vorhersage war falsch, und ich habe die Zeit unterschätzt, die benötigt würde, um diese Probleme zu lösen.
Der Moment, in dem das Team schließlich diese Schlüsselprobleme überwunden hatte und die Leistung deutlich verbessert wurde, ist mir noch in guter Erinnerung. Man kann deutlich die Energieumwandlung des gesamten Teams spüren - alle sind plötzlich voller Energie und stürzen sich mit neuer Motivation auf das endgültige Ziel.
Das Magischste ist, dass sich die geschätzte Fertigstellungszeit, die auf unserem Status-Tracker angezeigt wurde, von den anfänglichen zwei Jahren immer weiter verkürzte und sich schließlich auf einen klaren Zeitpunkt festlegte. Dieser sichtbare Fortschritt hat einen unermesslichen Schub für die Team Moral. Ich denke, das ist die Schönheit daran.
Ich möchte betonen, dass die Machine-Learning-Arbeit nie aufgehört hat. Auch nach Trainingsbeginn wird dieser Co-Design-Prozess für maschinelles Lernen fortgesetzt. Das Machine-Learning-Team verfolgt nicht nur aktiv die Probleme, die als ‘nachfolgende Verarbeitung’ gekennzeichnet wurden, sondern liefert auch weiterhin Verbesserungen, die die Trainingszeit wirklich optimieren.
Dies spiegelt perfekt unseren Teamgeist wider - es gibt hier keine Arbeitsgrenze, bei der ‘jeder den Schnee vor seiner eigenen Tür kehrt’, sondern eine wirklich nahtlose Zusammenarbeit, und dieser Zusammenhalt ist unsere größte Stärke.
Sam Altman: Die Außenwelt hat viel über die Herausforderungen und die Vorhersagegenauigkeit dieses Trainings selbst diskutiert. All dies basiert jedoch auf einer äußerst gründlichen Planung - können Sie dies genauer erläutern?
Alex Paino: Dies ist definitiv unser bisher gründlichster Plan. Wie gesagt, wir haben ein Jahr vor dem offiziellen Trainingsbeginn mit den Vorbereitungen für dieses Projekt begonnen. In diesem Zeitraum haben wir mehrere groß angelegte Risikokontrolltests durchgeführt.
Wir achten besonders darauf, alle Verbesserungen schrittweise einzuführen: Ausgehend von einer Basiskonfiguration mit hoher Sicherheit - die als ausgereifte Architektur ähnlich GPT-4 verstanden werden kann, haben wir diese Konfiguration auf Machine-Learning-Ebene vollständig gemeistert - und dann neue Funktionen Schicht für Schicht wie Bausteine hinzufügen.
Der Schlüssel liegt darin, die Skalierbarkeit jeder Verbesserung in verschiedenen Maßstäben streng zu überprüfen: nicht nur um Leistungsverbesserungen zu sehen, sondern auch um sicherzustellen, dass diese Verbesserungen weiterhin wirksam sind, wenn die Modellgröße zunimmt. Viele Verbesserungen schneiden in kleinen Tests gut ab, scheitern jedoch in großflächigen Anwendungen.
Daher haben wir während des gesamten Prozesses ein hohes Maß an Wachsamkeit aufrechterhalten und unsere Methodik zur Erweiterung der Gesetze kontinuierlich iteriert und verbessert. Durch diese Risikokontrollpraxis haben wir viele wertvolle Erfahrungen gesammelt, die die Entwicklung zukünftiger Modelle der GPT-Serie weiterhin leiten werden.
Amin Tootoonchian: Ich erinnere mich an einen besonders interessanten Moment, den ich sehr vermisse. Wissen Sie, wir stoßen fast immer auf verschiedene Bugs, wenn wir eine Trainingsaufgabe starten. Das ist schon alltäglich. Der Schlüssel liegt jedoch darin, sicherzustellen, dass der Fortschritt nicht blockiert wird, und immer zu bestätigen, dass der aktuelle Fortschritt tatsächlich auf dem richtigen Weg ist und ob diese Bugs eine fatale Auswirkung auf die Gesundheit des Trainings haben werden.
Obwohl wir zunächst sehr zuversichtlich waren, dass es größere Mängel gab, konnten wir mithilfe des gesamten Überwachungssystems, das wir aufgebaut haben, die Ursache des Problems genau unterscheiden: Ist es ein Hardwarefehler? Welche Art von Hardwarefehler? Sind die Daten beschädigt? Oder ist es ein Bug im Machine-Learning-Modell selbst? Oder ist es ein Race Condition im Code?
Damals hatten wir mehrere Problem Diskussionsbereiche gleichzeitig geöffnet, mit verschiedenen Symptomen. Nach einer Reihe von Bugfixes steckten wir fest: Es gab mehrere ungelöste Probleme vor uns, und alle zerbrachen sich den Kopf - wurden diese durch verschiedene Bugs verursacht? Oder ist es ein Bug bei der Arbeit?
Später haben wir eine Abstimmung abgehalten, um Teammitgliedern die Möglichkeit zu geben, für die wahrscheinlichste Ursache zu stimmen. Die am wenigsten vielversprechende Option traf die Wahrheit: Es stellte sich heraus, dass es ein Problem mit der torch.sum-Funktion stromaufwärts von PyTorch gab, einereinfachen Summationsoperation.
Dieser Bug ist besonders interessant. Sie wissen, dass wir hauptsächlich den Triton-Kernel verwenden und nur in einigen unwichtigen Edge-Szenarien auf Torch-Operationen zurückgreifen. Und der durch unseren spezifischen Codepfad ausgelöste torch.sum-Funktionsfehler verursacht versehentlich einen illegalen Speicherzugriff aufgrund der Datenverteilungseigenschaften - er machte einen Fehler bei der Berechnung des Speicher-Offsets.
Das Dramatischste ist, dass, als ein Ingenieur das Problem schließlich lokalisierte und einen Fix einreichte, alle Fehlerberichte mit unterschiedlichen Symptomen verschwanden. Alle haben aufgeregt den Slack-Kanal von der ‘Multi-Bug-Theorie’ zur ‘Single-Bug-Theorie’ geändert, und die Szene war sehr glücklich.
Wie lange hat dieser Bug schon gelauert? Er existiert seit den frühen Phasen des Trainings und wurde erst identifiziert, als die Fortschrittsanzeige etwa 40 % überschritten hatte. Der Entdeckungsprozess war auch voller Dramatik: Damals rief ein komplexer Kernel sequenziell Sequenzen auf, und der zweite Aufruf löste einen illegalen Speicherzugriff aus.
Obwohl diese Absturzhäufigkeit extrem niedrig ist (sie tritt nur einmal alle paar hundert oder sogar tausend Trainingsschritte auf), wird sie leicht als gelegentlicher Fehler ignoriert, aber die Richtlinie unseres Teams lautet: Lassen Sie niemals Anomalien los. Das Beste an dieser Geschichte ist diese Hartnäckigkeit, nicht so leicht aufzugeben.
Sam Altman: Was müssen Sie noch tun, nachdem das GPT-4.5-Pre-Training gestartet wurde?
Alex Paino: Wir alle müssen häufig die Verlustkurve beobachten. Darüber hinaus müssen wir das System weiter optimieren und das Co-Design verbessern, das vor dem Trainingsstart nicht abgeschlossen wurde. Wir überwachen während des Trainingsprozesses verschiedene Statistiken genau, um sicherzustellen, dass es keine unerwarteten Trends gibt. Gleichzeitig untersuchen wir mögliche Verbesserungspläne aus Sicht des maschinellen Lernens. Obwohl die Arbeit auf Datenebene nach dem Start des Pre-Trainings vorübergehend reduziert wird, gibt es noch viele Aufgaben zu erledigen.
Amin Tootoonchian: Ich denke, Machine Learning hängt weitgehend von der Korrektheitsbeurteilung ab. Nach dem Start des Pre-Trainings stehen wir einer großen Menge an Rauschsignalen gegenüber, wir sind wie Wahrsager, die Teerückstände interpretieren, und wir müssen beurteilen, ob das System gesund ist. Dies ist unsere Verantwortung.
Sam Altman: Was wird uns auf Systemebene daran hindern, das Modelltraining durchzuführen? Ist es Chip, Prozessor, Speicher, Netzwerk oder Stromversorgung?
Amin Tootoonchian: Das Schöne an dem System ist, dass sich die Workload beim kollaborativen Design an die von Ihnen aufgebaute Infrastruktur anpassen kann. Es gibt keine universelle Aussage, dass das Netzwerk der Engpass ist oder die Speicherbandbreite der Engpass ist usw. Selbst für Modelle mit der gleichen Spezifikation können wir wählen, Ressourcenanforderungen zu übertragen. Wir können wählen, ein ausgewogeneres System zu schaffen, aber eine höhere Speicherbandbreite ist immer von Vorteil. Es ist schwierig, diese Frage ohne einschränkende Bedingungen zu beantworten.
Bei der Entwicklung von GPT-4.5 müssen wir möglicherweise ein bestimmtes Attribut im System haben, das durch menschliche Anleitung generiert werden muss. Daher ist das kollaborative Design sehr wichtig für die Bildung der Modellarchitektur und der architektonischen Elemente und verbindet in gewissem Maße die System- und Machine-Learning-Aspekte. Wenn das System ein Attribut hat, das wir nicht sehr stark haben wollen. Meine ideale Situation ist, dass alles entkoppelt werden sollte, um einander den größten Raum zu geben.
Manchmal sind die Dinge miteinander verbunden, und wir müssen die Anforderungen der Infrastruktur erfüllen, oder die Dinge sollten so sein. Die meiste Zeit brauchen wir ein ausgewogenes System, eine ausgewogene Kommunikation. Und das beste Mittel der Regulierung, das wir haben, sind all diese kollaborativen Designs.
Sam Altman: Wie weit sind wir von einem solchen idealen Systemziel entfernt?
Amin Tootoonchian: Wir sind weit von diesem Ziel entfernt. Der Prozess des Aufbaus eines Systems ist immer so: Zuerst gibt es eine idealisierte Vorstellung davon, wie die Dinge funktionieren sollen, und dann werden diese Unterschiede mit den vorhandenen Ressourcen in Einklang gebracht.
Ich glaube nicht, dass wir es für die Theorie um der Theorie willen tun, sondern nur um zu diskutieren, was wir daraus machen wollen, um es zu verwirklichen und dem Ideal so nahe wie möglich zu kommen. Dies ist vielleicht der aufregendste Teil des Systembereichs. Die Leute sagten früher, dass dies ein elegantes Systemdesign ist, und die Geschichte wird uns schließlich sagen, ob diese Wahl richtig oder falsch ist.
Sam Altman: Wenn Sie vor dem nächsten großen Training eine Antwort auf eine Frage zum maschinellen Lernen erhalten könnten, was würden Sie am liebsten wissen?
Alex Paino: Ich möchte wissen, welche Algorithmen wir unter begrenzten Daten und bestimmten Feldern verwenden sollten. Obwohl dies eine allgemeine Frage ist, ist sie in der Tat die kritischste.
Sam Altman: Werden Sie in Zukunft ein synchrones Pre-Training mit 10 Millionen GPUs oder mehr durchführen?
Alex Paino: Ich denke, es wird welche geben, aber es ist möglicherweise nicht das traditionelle Pre-Training-Modell. Seine Form kann sich sehr von bestehenden Technologien unterscheiden, aber er wird dennoch den Kern des unbeaufsichtigten Lernens beibehalten.
Amin Tootoonchian: Ich bevorzuge ein semisynghrones Modell. Aufgrund physikalischer Gesetze ist eine vollständige Synchronisation nicht sehr realistisch.
Daniel Selsam: Ich denke, es ist wahrscheinlicher, dass es dezentralisiert wird. Es wird definitiv 10 Millionen GPUs geben, die in einem KI-System zusammenarbeiten, das lernt und Aufgaben ausführt, aber wie die verschiedenen Teile des Gehirns kommunizieren sie möglicherweise nicht unbedingt miteinander.
Sam Altman: Wie groß ist der Unterschied zwischen den derzeit fortschrittlichsten Algorithmen und der Dateneffizienz des Menschen? Ist es möglich, dies in Zukunft aufzuholen?
Daniel Selsam: Die beiden sind schwer direkt zu vergleichen. Die Lücke beim Sprachenlernen ist definitiv riesig. Der Schlüssel liegt darin, wie die Menge an Informationen definiert wird, die von menschlichen Sehnerven empfangen wird. Ich denke, die gesamte Dateneffizienz von Algorithmen ist viel geringer als die von Menschen.
Seit Jahrzehnten konzentriert sich Deep Learning auf die Recheneffizienz. Zusätzlich zum Wachstum von Daten und Rechenleistung ist das wirklich Überraschende der überlagerte Effekt, der durch Algorithmusverbesserungen erzeugt wird. Jedes Mal, wenn die Algorithmusleistung um 10 % oder 20 % verbessert wird, hat dies einen erheblichen Effekt, wenn sie der Dateneffizienz überlagert wird. Bisher gab es keine solche Mobilisierung in Bezug auf die Dateneffizienz, da sie sich nicht lohnt, wenn die Daten nicht fließen und die Rechenleistung begrenzt ist.
Jetzt treten wir in eine neue Phase der KI-Forschung ein, und wir werden beginnen, Dateneffizienz Siege zu sammeln. Ich denke, es ist etwas töricht, jetzt vorherzusagen, dass wir auf unüberwindliche Hindernisse stoßen werden. Die Funktionsweise des menschlichen Gehirns unterscheidet sich definitiv von unseren Algorithmusverbesserungen, und wir sollten diesbezüglich vorsichtig sein. Aber ich denke, wir sollten hinsichtlich der zukünftigen Entwicklung von Algorithmen optimistisch bleiben.
Sam Altman: Welche Korrelation besteht zwischen einem größeren Pre-Training und den stärkeren Lern- und Reasoning-Fähigkeiten des Modells?
Alex Paino: Was wir beobachtet haben, ist, dass besseres Pre-Training und unbeaufsichtigtes Lernen tendenziell die Gesamtintelligenz des Modells verbessern und die Verallgemeinerung erheblich unterstützen, was die Reasoning-Fähigkeit ergänzt, während Reasoning bei der Verbesserung der Intelligenz etwas stumpfer sein kann. Ich denke, sie ergänzen sich.
Sam Altman: Pre-Training scheint in vielen Dingen universell zu sein, während das Training eines Modells es nur dazu bringen kann, eine Art von Sache gut zu machen, richtig?
Alex Paino: Das ist sehr interessant, aber wenn Sie die Daten sehen, die sie trainieren, werden Sie von dieser Situation nicht überrascht sein. Der Bereich der Pre-Training-Datensatz ist sehr groß, und was wir anstreben, ist Breite und Vielfalt. Wenn es um die Verstärkung des Modells geht und es eindeutig gute Belohnungssignale und eine gute Trainingsumgebung erhält, denke ich, dass es schwierig ist, die Breite des Datensatzes zu berücksichtigen.
Daniel Selsam: Ich stimme zu, aber ich denke, es gibt noch einen anderen Faktor. Pre-Training ist im Wesentlichen das Komprimieren von Daten, wodurch die Verbindungen zwischen verschiedenen Dingen entdeckt werden. Es geht um Analogie und abstrakter. Reasoning ist eine Fähigkeit, die sorgfältiges Denken zu einem bestimmten Thema erfordert und auch Lösungen für viele Arten von Problemen erhalten kann. Aber im Pre-Training-Prozess kann abstrakteres Wissen gelernt werden, wenn Daten über verschiedene Bereiche komprimiert werden.
Sam Altman: Warum ist unbeaufsichtigtes Lernen effektiv?
Daniel Selsam: Der Schlüssel ist die Kompression. Die ideale Form der Intelligenz ist die Solomonov-Induktion. Im Allgemeinen wird Machine Learning alle Möglichkeiten berücksichtigen, neigt aber dazu, mit einfacheren Programmen zum Testen zu beginnen.
Das Wesen des aktuellen Pre-Trainings ist ein Komprimierungsprozess, der eine ungefähre Darstellung erreicht, indem das einfachste Programm gefunden wird, um alle Daten zu erklären, die Menschen bisher produziert haben.
Sam Altman: Wie hilft die nächste Token-Vorhersage, Kompression zu erreichen?
Daniel Selsam: Es gibt ein Paradoxon in der Statistik - warum scheinen tiefe Netzwerke nicht komprimieren zu können, können aber eine Verallgemeinerung erreichen? Normalerweise gesprochen, wenn Sie viele Daten und einige kleine Modelle haben, müssen diese Modelle eine Komprimierung durchlaufen, um etwas zu lernen.
Im Pre-Training ist der Umfang sowohl der Daten als auch der Modelle sehr groß. Einige Leute denken, dass dieses Training nur Speicher- und Interpolationslernen ist. Tatsächlich ignorieren sie eine andere Perspektive, um Komprimierung zu verstehen - Pre-quential Compression. Es ist wie ein Kompressor. Selbst wenn das Datengewicht sehr groß ist, muss das Binär diese Informationen nicht speichern. Das Ergebnis der nächsten Token-Vorhersage kann nützliche Informationen schnell abrufen und die Kompressionseffizienz verbessern.
Sam Altman: Der Prozess des Trainings von GPT-4.5 kostete viel Arbeitskraft, Zeit und Geld, was tatsächlich als Experiment angesehen werden kann, um Scaling Law zu überprüfen, und die Ergebnisse beweisen, dass es effektiv ist und noch lange andauern wird. Warum kann Scaling Law als das Gesetz des Universums bezeichnet werden?
Daniel Selsam: Je höher der Komprimierungsgrad, desto mächtiger die Intelligenz, was tiefgreifende philosophische Implikationen hat. Warum dauert es länger, größere Modelle zu trainieren, und die Komprimierungsrate ist höher? Dies beinhaltet viele Theorien, unter denen mir Sparse Representations gefällt.
Die Schlüsselkonzepte in der Realität folgen einer Potenzgesetzverteilung. Zum Beispiel kann das 100. wichtigste Konzept nur einmal in 100 Dokumenten vorkommen, und es gibt einen offensichtlichen Long-Tail-Effekt. Dieses Verteilungsmerkmal bedeutet, dass umfangreiche Daten und Rechenleistung erforderlich sind, um alle Schlüsselkonzepte effektiv zu erfassen, und bestimmt auch, dass Scaling Law lange wirksam sein wird.