Trening GPT-4.5: 100K GPU i 'katastrofy' | pl

OpenAI podzieliło się szczegółami na temat rozwoju swojego najambitniejszego modelu, GPT-4.5. Ta relacja pojawiła się ponad miesiąc po premierze modelu, w szczerej, 45-minutowej rozmowie z udziałem współzałożyciela i dyrektora generalnego OpenAI, Sama Altmana, oraz trzech kluczowych postaci technicznych z projektu GPT-4.5. Dyskusja ujawniła szereg wcześniej nieznanych wyzwań, w tym znaczne przekroczenia harmonogramu, częste awarie w klastrze obliczeniowym i nieprzewidywalne ścieżki do poprawy wydajności.

Geneza GPT-4.5: Dwuletnia Odyseja

Inicjatywa GPT-4.5, zapoczątkowana dwa lata przed jej uruchomieniem, stanowiła najbardziej skrupulatnie zaplanowane przedsięwzięcie OpenAI. Wymagała ona skoordynowanego wysiłku setek osób, a Altman zauważył, że projekt zaangażował “prawie wszystkich” w OpenAI. To powszechne zaangażowanie podkreśla strategiczne znaczenie GPT-4.5 w szerszej misji organizacji.

Podczas fazy rozwoju zespół OpenAI napotkał to, co nazwał “katastrofalnymi problemami”. Wdrożenie klastra 100 000 GPU ujawniło ukryte podatności infrastruktury, które objawiały się jako rzadkie, ale głębokie awarie. Aby zachować równowagę między szybkością a optymalną wydajnością, inżynierowie systemu przyjęli podejście iteracyjne, zasadniczo “budując i naprawiając” jednocześnie. Jeden szczególnie trudny do wykrycia błąd nękał klaster nawracającymi błędami, pozostając niewykrytym, dopóki proces uczenia nie osiągnął około 40% ukończenia.

Paradoksalnie, te próby przyczyniły się do wzmocnienia fundamentów technicznych OpenAI. Zdobyte doświadczenie pozwala teraz niewielkiemu zespołowi liczącemu zaledwie 5-10 osób na replikację modelu o wielkości GPT-4. Skok wydajnościowy z GPT-4 do GPT-4.5, szacowany na około dziesięciokrotny, charakteryzował się “trudną do ilościowego określenia, ale kompleksowo wzmocnioną inteligencją”, zaskakując nawet osoby wewnątrz OpenAI. Ten jakościowy skok sugeruje postępy wykraczające poza zwykłe skalowanie, wskazując na fundamentalne ulepszenia w zdolności modelu do rozumowania i rozumienia.

Patrząc w przyszłość, OpenAI zdaje sobie sprawę, że osiągnięcie kolejnego rzędu wielkości w wydajności zależy nie tylko od mocy obliczeniowej, ale raczej od efektywności danych. Nacisk przesuwa się w kierunku opracowywania algorytmów, które mogą wydobyć więcej wiedzy z istniejących zbiorów danych, maksymalizując w ten sposób użyteczność dostępnych zasobów obliczeniowych.

Ponadto architektura ewoluuje z pojedynczego klastra do projektu wieloklastrowego, przewidując przyszłe scenariusze uczenia się oparte na współpracy nawet 10 milionów GPU. To przejście wymaga znacznych ulepszeń w zakresie odporności na błędy, aby zapewnić stabilność i niezawodność tak dużych systemów rozproszonych.

Rozmowa zagłębiła się również w relację między “długim ogonem” danych a prawami skalowania, zalety bliskiej współpracy między zespołami uczenia maszynowego i zespołami systemowymi (współprojektowanie), esencję uczenia się bez nadzoru oraz kulturę skrupulatnego rozwiązywania problemów.

Kluczowi Gracze Za GPT-4.5

Oprócz Altmana, w rozmowie wzięli udział także trzej pozostali członkowie zespołu OpenAI:

Alex Paino: Odpowiedzialny za algorytmy uczenia maszynowego pre-treningu GPT-4.5.
Amin Tootoonchian: Główny architekt systemu OpenAI.
Daniel Selsam: Zajmuje się badaniami nad efektywnością danych i algorytmami.

Początki i Ewolucja GPT-4.5

Sam Altman: Co tak naprawdę potrzeba, aby zbudować model tak duży jak GPT-4.5?

Alex Paino: Rozpoczęliśmy ten projekt około dwa lata temu. W tym czasie OpenAI miało uruchomić nowy duży klaster obliczeniowy, a nasz zespół dostrzegł tę możliwość i wykonał serię zadań, aby określić funkcje, które model musi zawierać, oraz przeprowadził dużą liczbę testów operacji redukcji ryzyka.

Opracowaliśmy długi plan, obejmujący cały stos technologiczny od systemu do uczenia maszynowego. Redukcja ryzyka i przygotowanie do treningu to długi proces realizacji, a sam trening to również bardzo duży projekt.

Amin Tootoonchian: Myślę, że ten proces wymaga ścisłej współpracy między zespołem uczenia maszynowego a zespołem systemowym od samego początku, aż do momentu, gdy jasno wiemy, jaki model chcemy wytrenować, a następnie rozpoczynamy trening.

Dokonaliśmy prognoz w zakresie uczenia maszynowego i systemów, starając się zminimalizować lukę między oczekiwaniami a rzeczywistością. Jednakże, ponieważ nasz rytm pracy jest bardzo szybki i musimy korzystać z najnowszych zasobów obliczeniowych, trening modelu stał się czymś, co trudno idealnie zaplanować z góry.

Prawie zawsze zaczynamy trening z wieloma nierozwiązanymi problemami i staramy się pokonywać wyzwania i robić postępy w trakcie procesu. Głównym rozwiązaniem jest zwiększenie zasobów obliczeniowych.

Ostatnim etapem jest realizacja, która wymaga od wielu osób zainwestowania dużo energii i motywacji przez długi czas, aby ukończyć proces treningowy.

Sam Altman: Jak duża jest, twoim zdaniem, luka między naszymi oczekiwaniami a rzeczywistością?

Amin Tootoonchian: Jeśli chodzi o system, na początku zazwyczaj jesteśmy daleko od oczekiwanego stanu. Zawsze stoimy przed wyborem: czy odłożyć uruchomienie i poczekać, aż problem zostanie rozwiązany, czy też zacząć wcześniej i rozwiązać problem w trakcie procesu. Zawsze wymaga to kompromisów, aby uniknąć nieuzasadnionych opóźnień w procesie.

Ale prawie zawsze pojawiają się nieoczekiwane problemy, a to, co musimy zrobić, to w jak największym stopniu poradzić sobie z tymi węzłami, poradzić sobie z nieznanymi czynnikami i sformułować plan treningu modelu.

Alex Paino: W tym projekcie naszym celem jest stworzenie GPT-4.5, co oznacza, że jego możliwości powinny być 10 razy inteligentniejsze niż GPT-4. To jest cel początkowy, który postawiliśmy sobie około 2 lata temu.

W tym procesie wydarzyło się wiele rzeczy. Zastanawialiśmy się, czy możemy wypaść lepiej, czy gorzej niż oczekiwano? To bardzo skomplikowany proces, ale ostatecznie, pod względem efektywnych obliczeń, które włożyliśmy, otrzymaliśmy model, który naszym zdaniem jest 10 razy inteligentniejszy niż GPT-4.

Amin Tootoonchian: Jeśli chodzi o wykonanie, czas spędzony na projekcie GPT-4.5 jest daleki od tego, czego początkowo oczekiwaliśmy.

Rewolucja Szczupłego Zespołu: Trenowanie GPT-4 Przy Minimalnych Zasobach

Sam Altman: Kiedy klaster rozszerzył się z 10 000 kart do 100 000 kart, dlaczego napotkaliście tak wiele problemów?

Amin Tootoonchian: Myślę, że jeśli twórcy systemu są wystarczająco wrażliwi, większość problemów można zaobserwować na etapie małej skali.

Istnieją również pewne problemy, które nie są unikalne dla etapu treningu na dużą skalę, ale występowały pierwotnie często, ale po zwiększeniu skali staną się katastrofalnymi problemami, zwłaszcza gdy zespół nie przewidział z góry, że te problemy pogorszą się do takiego stopnia.

Sam Altman: Jakie rzeczy spowodowały katastrofalne konsekwencje?

Amin Tootoonchian: Myślę, że problemy z infrastrukturą są dobrze znane. Współczynnik awaryjności, rodzaj awarii i całkowita liczba awarii są bardzo wysokie. Klaster 100 000 kart to próbka na dużą skalę, więc odkryliśmy również problemy, których dostawca mocy obliczeniowej nie zaobserwował.

Sieć to jedna część, a poszczególne akceleratory również mogą mieć problemy. Ale to jest również piękno tego systemu - prawie wszystkie komponenty muszą działać zgodnie z oczekiwaniami, aby uzyskać oczekiwane wyniki. Naszym zadaniem jest zminimalizowanie tego problemu w jak największym stopniu.

Sam Altman: Rzeczywiście trudno jest pracować na granicy skali klastra, ale zauważyłem również, że robienie rzeczy, które nie są już w czołówce technologii, stało się znacznie łatwiejsze. Trenowanie GPT-4.5 wymaga setek osób i angażuje prawie wszystkich w OpenAI.

Ale dzisiaj, jeśli pozwolisz wybrać najmniejszy zespół z OpenAI i przeszkolić GPT-4 od zera z całą wiedzą, którą znamy i całą pracą systemową, ile osób by to zajęło?

Alex Paino: Myślę, że wykonanie modelu na poziomie GPT-4 może zająć teraz około 5 do 10 osób. Stos technologiczny został znacznie ulepszony w procesie ukończenia GPT-4.5.

W rzeczywistości zrobiliśmy podobne rzeczy w procesie treningu GPT-4.5 - wytrenowaliśmy GPT-4o, który jest modelem na poziomie GPT-4, i przeszkoliliśmy go ponownie, używając wielu tych samych treści z projektu badawczego GPT-4.5. Do tego treningu użyto mniej osób.

Efektywność Danych: Klucz Do Odblokowania Następnej Generacji Modeli

Sam Altman: Z twojej perspektywy, Dan? Dlaczego trudno jest trenować duże modele?

Daniel Selsam: Myślę, że trudno jest zrobić coś nowego. Myślę, że nawet samo odkrycie, że ktoś inny coś zrobił, znacznie to ułatwia, ponieważ najtrudniejszą częścią jest wiara, że możesz coś zrobić w pierwszej kolejności. Myślę, że sama wiedza, że coś jest wykonalne, to super kod, który znacznie ułatwia sprawę.

Alex Paino: Rozszerzamy operację pre-treningu GPT 10 razy bardziej niż wcześniej i zawsze znajdziemy kilka interesujących nowych rzeczy, których niekoniecznie można przewidzieć.

Sam Altman: Co jest potrzebne, aby osiągnąć kolejny 10-krotny lub 100-krotny wzrost skali pre-treningu?

Daniel Selsam: Efektywność danych. Architektura Transformer (która jest GPT) jest bardzo wydajna w używaniu danych. Może dobrze absorbować i kompresować informacje oraz osiągać generalizację. Jej największą cechą jest to, że może wydajnie absorbować informacje za pomocą zasobów obliczeniowych.

Jednak głębia wglądu, jaką uzyskuje z danych, jest ograniczona. Kiedy moc obliczeniowa rośnie szybko, podczas gdy dane rosną stosunkowo wolno, dane stają się wąskim gardłem w tym standardowym modelu. Wymaga to innowacji algorytmicznych, opracowania metod, które mogą wykorzystać więcej mocy obliczeniowej, aby nauczyć się więcej wiedzy z tej samej ilości danych.

Sam Altman: Co jeszcze, twoim zdaniem, musimy utrzymać ekspansję oprócz tego?

Amin Tootoonchian: Moja odpowiedź dotyczy systemu. Myślę, że ogromna ilość pracy wymaganej dla GPT-4.5 jest zasadniczo nieuniknionym wynikiem specyfikacji modelu. Nie możemy trenować GPT-4.5 z dokładnie tą samą architekturą techniczną co GPT-4.

Jeśli chodzi o zarządzanie stanem, ponieważ wymagane zasoby obliczeniowe przekroczyły możliwości nośne pojedynczego klastra, musimy przejść na architekturę treningu wieloklastrowego. Aby osiągnąć ten cel, musimy zintegrować wiele różnych przepływów pracy w krótkim czasie.

Chociaż pomogło nam to osiągnąć etapowy przełom, aby osiągnąć kolejny rząd wielkości poprawy wydajności, nadal musimy rozwiązać kilka znanych, ale tymczasowo odłożonych na półkę problemów technicznych - tych problemów nie można uniknąć. To tego rodzaju kompromis techniczny stale przedłuża cykl rozwoju idealnego systemu. Zawsze dokonujemy strategicznych kompromisów w procesie dążenia do optymalnego planu wdrożenia.

Należy jasno powiedzieć, że sam system nie jest celem ostatecznym. Jego rzeczywista wartość wyjściowa jest głównym czynnikiem. W przypadku kolejnej 10-krotnej poprawy wydajności, myślę, że przełom w odporności na błędy jest kluczowy. Musimy zbudować mechanizm odporny na błędy, który ściśle współpracuje z obciążeniem roboczym, aby znacznie zmniejszyć niepokój związany z obsługą i konserwacją. Złożoność obsługi i konserwacji obecnego super-dużego systemu różni się zasadniczo od złożoności poprzednich systemów.

Sam Altman: Czy wiesz, jaki procent awarii został spowodowany przez określone komponenty podczas treningu GPT-4.5?

Amin Tootoonchian: Nie mam konkretnych danych do udostępnienia, ale ogólnie rzecz biorąc, początkowe wdrożenie nowej generacji sprzętu często wiąże się z wieloma wyzwaniami technicznymi, które nie zostały w pełni zrozumiane. Zdecydowaliśmy się na przyspieszenie projektu, zanim problem został w pełni wyjaśniony, co doprowadziło do wysokiego początkowego współczynnika awaryjności.

Ale doświadczenie pokazuje, że po zidentyfikowaniu i rozwiązaniu pierwotnej przyczyny, współczynnik awaryjności zostanie znacznie zmniejszony. Zjawisko to zasadniczo odzwierciedla nasze pogłębiające się zrozumienie infrastruktury - niektórzy nazywają to czyszczeniem infrastruktury lub rozumieniem podstawowych problemów infrastruktury.

Wczesne etapy realizacji są prawie zawsze dość bolesne. Podczas gdy rozwijamy projekt, nieustannie odkrywamy i rozwiązujemy nowe tryby awarii, ale ostatecznie współczynnik awaryjności będzie stopniowo maleć, a normalny czas pracy wzrośnie.

Jest to zasadniczo kwestia kompromisów w zakresie priorytetów: we wczesnych stadiach cyklu życia infrastruktury ryzyko jej awarii jest często trudne do dokładnego oszacowania; a jeśli nadmiernie dążymy do ostatecznego idealnego stanu (oryginał to “City Estate”, idealny projekt miasta-państwa), może to doprowadzić do sytuacji, w której system Początkowa wydajność dostępności jest wyjątkowo słaba.

Poza Obliczeniami: Innowacje Algorytmiczne i Niewykorzystany Potencjał Danych

Sam Altman: Chociaż model wnioskowania jest kluczowym elementem naszego przyszłego stosu technologicznego, skupmy się tymczasowo na granicach rozwoju tradycyjnych modeli pre-treningowych. Zakładając, że mamy nieograniczoną moc obliczeniową GPU, nieograniczoną przepustowość sieci i nieograniczony zasilacz, ale nadal jesteśmy ograniczeni istniejącymi wąskimi gardłami technicznymi - w tym problemami z niezawodnością systemu, brakiem metod treningu odpornych na błędy i ograniczeniami istniejących zbiorów danych.

Zgodnie z naszą zasadą ewolucji polegającą na osiągnięciu 100-krotnego wzrostu skali dla każdej głównej wersji GPT, na podstawie obecnych granic technicznych, jaki poziom może osiągnąć rozwój modeli pre-treningowych? Konkretnie, w przypadku modeli z serii GPT, na podstawie naszej istniejącej bazy wiedzy, jaki rodzaj modelu można teoretycznie wytrenować? Czy możemy zrobić GPT-5.5?

Alex Paino: Z perspektywy uczenia maszynowego i rozwoju algorytmów, nie osiągnęliśmy jeszcze wyraźnej granicy teoretycznej. W rzeczywistości dopiero zaczęliśmy badać algorytmy o wyższej efektywności danych i jak pełniej wykorzystać istniejące zasoby danych. Sytuacja ta jest bardzo interesująca - nawet modele takie jak GPT-4 są w dużej mierze rozwijane w warunkach ograniczonych zasobów obliczeniowych, co zdeterminowało kierunek większości dotychczasowych badań.

Ale sytuacja jest teraz zupełnie inna. Od czasu GPT-4.5 w niektórych kluczowych wymiarach dane, a nie obliczenia, stają się głównym ograniczeniem. Ta zmiana sprawia, że związane z tym badania są mniej ekscytujące.

Sam Altman: Ale to rzeczywiście niesamowity postęp, a świat może nie w pełni zdawać sobie sprawy, że zasoby obliczeniowe nie są już głównym wąskim gardłem najlepszego modelu, jaki możemy zbudować. Ta zmiana jest bardzo znacząca, w końcu zbyt długo żyliśmy w środowisku ograniczonym obliczeniowo.

Odsłanianie Niespodzianek: Przewidywalność vs. Nieprzewidziana Inteligencja

Sam Altman: Jakie jest najciekawsze doświadczenie uczenia maszynowego, którego nauczyliśmy się podczas treningu GPT-4.5? Po prostu powiedz, czym chcesz się podzielić.

Amin Tootoonchian: Ogólnie rzecz biorąc, najbardziej prowokujące do myślenia są rzeczy, które odbiegają od naszych przewidywań - zwłaszcza gdy próbujemy zrozumieć, dlaczego rzeczywista wydajność odbiega od oczekiwanej krzywej.

Alex Paino: Jednym z najbardziej zaskakujących odkryć dla nas jest to, że różne komponenty uczenia maszynowego mają bardzo różne wydajności skalowalności. Niektóre części można rozszerzyć bardzo dobrze, a inne nie. To jest to, co naprawdę zdaliśmy sobie sprawę podczas rzeczywistego procesu treningowego. To doświadczenie dało nam wiele inspiracji.

Daniel Selsam: Myślę, że dwiema podstawowymi cechami paradygmatu GPT są: po pierwsze, strata testowa (metryka, która mierzy, jak dobrze model działa na niewidzianych danych testowych) może być dokładnie przewidziana; po drugie, wydajność modelu wykazuje przewidywalną poprawę wraz ze wzrostem skali. Co jeszcze bardziej niesamowite, redukcja straty testowej zostanie przekształcona w wszechstronnie wzmocniony poziom inteligencji w różnych trudnych do ilościowego określenia, ale niesamowitych i tajemniczych sposobach.

Sam Altman: Czy jesteś absolutnie optymistyczny co do tego? Czy w pełni zgadzasz się z tym punktem widzenia?

Daniel Selsam: Właściwie to, co chcę powiedzieć, to że znaleźliśmy szczególnie interesujące zjawisko w teście GPT-4.5 - po ponownym teście wiele wyrafinowanych możliwości zaprezentowanych przez model całkowicie przerosło oczekiwania wszystkich.

Jesteśmy pewni, że stanie się on inteligentniejszy na różne sposoby, które trudno zdefiniować z góry, a te subtelne ulepszenia można zaobserwować na podstawie zadowolenia użytkowników po rzeczywistym wdrożeniu: silniejsze rezerwy zdrowego rozsądku, dokładniejsza zdolność rozumienia kontekstowego i subtelniejsze uchwycenie semantyczne - to magia wniesiona przez te dodatkowe straty testowe. Moim zdaniem prawo skalowania zostało doskonale zweryfikowane w tym wymiarze.

Siła Współpracy: Zespoły Uczenia Maszynowego i Systemowe Pracujące w Harmonii

Sam Altman: Jaki był najbardziej pozytywny moment podczas całego procesu treningowego? Jakie jest twoje ulubione wspomnienie? Oczywiście było dużo bólu, ale mam nadzieję, że ten ból został złagodzony.

Alex Paino: Ja mam taki moment. Wykonaliśmy dużo pracy związanej z uczeniem maszynowym podczas treningu i myślę, że niektóre zmiany, które wprowadziliśmy w trakcie procesu, miały całkiem dobry wpływ, może nawet lepszy niż oczekiwano, co było dla nas bardzo ekscytującym momentem.

Amin Tootoonchian: Dla mnie, jednocześnie z treningiem, budujemy również infrastrukturę. Mocno wierzymy, że możemy przekroczyć ten klif wydajności i mamy plan, a wszyscy go realizują, ale zajmuje to dużo czasu. To ciężka praca i na pewno trudniejsza niż myślałem. Moja prognoza była błędna i nie doceniłem czasu, jaki zajmie rozwiązanie tych problemów.

Moment, w którym zespół w końcu pokonał te kluczowe problemy, a wydajność została znacznie poprawiona, jest nadal świeży w mojej pamięci. Można wyraźnie poczuć zmianę energii w całym zespole - wszyscy nagle są pełni energii i pędzą do celu z nową motywacją.

Najbardziej niesamowite jest to, że szacowany czas ukończenia wyświetlany na naszym monitorze stanu nadal skracał się z początkowych dwóch lat i ostatecznie zablokował się w wyraźnym węźle czasowym. Ten widoczny postęp jest niezmierzony dla morale zespołu. Myślę, że to jest w tym piękne.

Chciałbym podkreślić, że praca nad uczeniem maszynowym nigdy się nie zatrzymała. Nawet po rozpoczęciu treningu ten proces współprojektowania uczenia maszynowego jest nadal w toku. Zespół uczenia maszynowego nie tylko aktywnie śledził problemy, które zostały oznaczone jako “dalsze przetwarzanie”, ale także nadal dostarczał ulepszenia, które naprawdę zoptymalizowały czas treningu.

Doskonale uosabia to ducha naszego zespołu - nie ma tutaj “zamiatania śniegu przed własnymi drzwiami” granicy pracy, ale prawdziwa bezproblemowa współpraca. Ta spójność jest naszą największą zaletą.

Skrupulatne Planowanie i Nieustępliwe Poszukiwanie Anomalii w Pre-Treningu GPT-4.5

Daniel Selsam: Świat zewnętrzny dużo dyskutował o wyzwaniach i dokładności predykcyjnej samego tego treningu. Ale w rzeczywistości wszystko to jest zbudowane na niezwykle skrupulatnym planowaniu - czy możesz o tym więcej opowiedzieć?

Alex Paino: To zdecydowanie najbardziej skrupulatny plan, jaki do tej pory zrobiliśmy. Jak powiedziałem, zaczęliśmy przygotowywać się do tego projektu rok przed oficjalnym uruchomieniem treningu. W tym okresie przeprowadziliśmy wiele testowych uruchomień kontroli ryzyka na dużą skalę.

Zwracamy szczególną uwagę na stopniowe wprowadzanie wszystkich ulepszeń: zaczynając od podstawowej konfiguracji o wysokim poziomie zaufania - którą można rozumieć jako dojrzałą architekturę podobną do GPT-4, w pełni opanowaliśmy tę konfigurację na poziomie uczenia maszynowego - a następnie warstwowanie nowych funkcji jak klocki.

Kluczem jest ścisła weryfikacja skalowalności każdego ulepszenia w różnych skalach: nie tylko sprawdzanie poprawy wydajności, ale także zapewnienie, że te ulepszenia mogą nadal być skuteczne wraz ze wzrostem rozmiaru modelu. Wiele ulepszeń działa dobrze w testach na małą skalę, ale zawiedzie w aplikacjach na dużą skalę.

Dlatego przez cały proces utrzymywaliśmy wysoki stopień czujności i nadal iteracyjnie ulepszaliśmy naszą metodologię prawa skalowania. Dzięki tej praktyce kontroli ryzyka zgromadziliśmy wiele cennego doświadczenia, które będzie nadal kierować rozwojem przyszłych modeli z serii GPT.

Amin Tootoonchian: Pamiętam szczególnie interesujący moment, za którym bardzo tęsknię. Wiecie, prawie nieuniknione jest, że za każdym razem, gdy zaczynamy zadanie treningowe, napotykamy różne błędy, co jest powszechne. Ale kluczem jest zapewnienie, że postęp nie jest utrudniony i musimy zawsze potwierdzać, czy obecny postęp rzeczywiście jest na właściwej drodze i czy te błędy będą miały śmiertelny wpływ na zdrowie treningu.

Chociaż na początku byliśmy bardzo pewni, że istnieją poważne wady, dzięki całemu systemowi monitoringu, który zbudowaliśmy, byliśmy w stanie dokładnie odróżnić pierwotną przyczynę problemu: Czy to awaria sprzętu? Jaki rodzaj awarii sprzętu? Czy to uszkodzenie danych? A może to błąd w samym modelu uczenia maszynowego? A może to warunek wyścigu w kodzie?

W tym czasie mieliśmy otwartych wiele obszarów dyskusji nad problemami jednocześnie, z szeroką gamą objawów. Po serii poprawek błędów wpadliśmy w impas: przed nami piętrzyły się liczne nierozwiązane problemy i wszyscy łamali sobie głowy - czy zostały one spowodowane przez różne błędy? A może to jeden błąd, który powoduje kłopoty?

Później przeprowadziliśmy głosowanie i poprosiliśmy członków zespołu o głosowanie na najbardziej prawdopodobną pierwotną przyczynę. W rezultacie najmniej optymistyczna opcja trafiła w sedno: okazało się, że wystąpił problem z funkcją torch.sum upstream od PyTorch, prostą operacją sumowania.

Ten błąd jest bardzo interesujący. Wiecie, że używamy głównie jądra Triton i tylko w niektórych nieistotnych scenariuszach brzegowych wrócimy do operacji torch. Błąd funkcji torch.sum wywołany przez naszą konkretną ścieżkę kodu czasami powoduje nielegalny dostęp do pamięci ze względu na charakterystykę dystrybucji danych - popełnił błąd podczas obliczania przesunięcia pamięci.

Najbardziej dramatyczne jest to, że gdy inżynier w końcu zlokalizował problem i przesłał poprawkę, wszystkie błędy z różnymi objawami zniknęły. Wszyscy z podekscytowaniem zmienili kanał Slack z “teorii wielu błędów” na “teorię jednego błędu”, a scena była bardzo szczęśliwa.

Jak długo czaił się ten błąd? Istniał od wczesnych etapów treningu i nie został znaleziony, dopóki pasek postępu nie przekroczył około 40%. Proces odkrywania był również pełen dramatu: W tym czasie złożone jądro w sposób ciągły wywoływało sekwencję, a drugie wywołanie wywołało nielegalny dostęp do pamięci.

Chociaż częstotliwość awarii jest niezwykle niska (występuje tylko raz na kilkaset lub nawet tysiące kroków treningowych), łatwo ją zignorować jako sporadyczną awarię, ale nasza zasada zespołu brzmi: nigdy nie odpuszczaj żadnej anomalii. Najlepsza część tej historii polega na tej wytrwałości, aby się nie poddawać.

Dążenie do Idealnych Systemów: Odległy Horyzont

Sam Altman: Po rozpoczęciu pre-treningu GPT-4.5, co jeszcze musisz zrobić?

Alex Paino: Wszyscy musimy często obserwować krzywą straty. Ponadto musimy stale optymalizować system i ulepszać współprojektowanie, które nie zostało ukończone przed rozpoczęciem treningu. Ściśle monitorujemy różne wskaźniki statystyczne podczas procesu treningowego, aby upewnić się, że nie ma nieoczekiwanych anomalnych trendów. Jednocześnie badamy możliwe plany ulepszeń z perspektywy uczenia maszynowego. Chociaż praca na poziomie danych zostanie tymczasowo zmniejszona po rozpoczęciu pre-treningu, nadal istnieje duża liczba zadań do przetworzenia.

Amin Tootoonchian: Myślę, że uczenie maszynowe w dużej mierze zależy od poprawności osądu. Po rozpoczęciu pre-treningu, w obliczu dużej liczby sygnałów zakłócających, jesteśmy jak wróżki interpretujące liście herbaty i musimy ocenić, czy system jest zdrowy. To jest nasza odpowiedzialność.

Sam Altman: Na poziomie systemu, co ogranicza nas przed przeprowadzeniem treningu modelu? Czy to chipy, procesory, pamięć, sieć czy zasilanie?

Amin Tootoonchian: Piękno systemu polega na tym, że podczas współprojektowania obciążenie robocze może dostosować się do zbudowanej przez Ciebie infrastruktury. Nie ma tutaj ogólnego stwierdzenia, że sieć jest wąskim gardłem, przepustowość pamięci jest wąskim gardłem i tak dalej. Nawet w przypadku modeli o tej samej specyfikacji możemy wybrać przeniesienie wymagań dotyczących zasobów i możemy wybrać stworzenie bardziej zrównoważonego systemu, ale posiadanie większej przepustowości pamięci jest zawsze korzystne. Trudno jest odpowiedzieć na to pytanie bez ograniczeń.

Projektując GPT-4.5, możemy potrzebować, aby system miał pewien rodzaj atrybutu, który musi być generowany pod ludzkim przewodnictwem. Dlatego współprojektowanie jest bardzo ważne dla tworzenia architektury modelu i elementów architektonicznych oraz do pewnego stopnia łączy aspekty systemowe i uczenia maszynowego. Jeśli system ma atrybut, którego bardzo nie chcemy mieć, moją idealną sytuacją jest, aby wszystko było odłączone, aby dać sobie nawzajem maksymalną przestrzeń.

Czasami rzeczy są połączone i musimy spełnić wymagania infrastruktury, lub rzeczy powinny być takie. Przez większość czasu potrzebujemy zrównoważonego systemu i zrównoważonej komunikacji. A najlepsze środki dostosowania, jakie mamy, to wszystkie te współprojekty.

Sam Altman: Jak daleko jesteśmy od tego idealnego celu systemowego?

Amin Tootoonchian: Do tego celu jeszcze daleka droga. Proces budowy systemu zawsze wygląda tak: najpierw pojawia się idealistyczny pogląd na to, jak rzeczy powinny działać, a następnie godzenie tych różnic z istniejącymi zasobami.

Myślę, że nie robimy tego dla teorii dla teorii, ale tylko po to, aby omówić, czym chcemy, żeby się stał, zrealizować to i zbliżyć się jak najbardziej do tego ideału. To może być najbardziej ekscytująca część dziedziny systemów. Ludzie mówili kiedyś, że to elegancki projekt systemu i ostatecznie historia powie nam, czy ten wybór jest właściwy czy błędny.

Sam Altman: Jeśli mógłbyś uzyskać odpowiedź na problem uczenia maszynowego przed następnym dużym treningiem, co chciałbyś wiedzieć najbardziej?

Alex Paino: Chciałbym wiedzieć, jakich algorytmów powinniśmy używać przy ograniczonych danych i określonych dziedzinach. Chociaż jest to szerokie pytanie, jest to rzeczywiście najważniejsze pytanie.

Sam Altman: Czy w przyszłości przeprowadzisz synchroniczny pre-trening z 10 milionami GPU lub więcej?

Alex Paino: Myślę, że tak będzie, ale może to nie być tradycyjny model pre-treningowy. Jego forma może być bardzo różna od istniejącej technologii, ale nadal zachowa rdzeń uczenia się bez nadzoru.

Amin Tootoonchian: Wolę tryb półsynchroniczny. Ze względu na prawa fizyki pełna synchronizacja nie jest realistyczna.

Daniel Selsam: Myślę, że bardziej prawdopodobne jest, że będzie to zdecentralizowane. Z pewnością będzie 10 milionów GPU pracujących razem w systemie AI do uczenia się i wykonywania zadań, ale podobnie jak różne części mózgu, niekoniecznie muszą się ze sobą komunikować.

Synergiczna Moc Ulepszeń Algorytmicznych i Efektywności Danych

Sam Altman: Jak duża jest luka między najbardziej zaawansowanymi algorytmami a efektywnością danych człowieka? Czy możemy mieć nadzieję, że dogonimy w przyszłości?

Daniel Selsam: Trudno jest bezpośrednio porównać te dwie rzeczy. Luka w nauce języków jest zdecydowanie ogromna. Kluczem jest to, jak zdefiniować ilość informacji otrzymywanych przez ludzkie nerwy wzrokowe. Myślę, że algorytmy są ogólnie znacznie mniej wydajne pod względem danych niż ludzie.

Od dziesięcioleci głębokie uczenie skupia się na efektywności mocy obliczeniowej. Oprócz wzrostu danych i mocy obliczeniowej naprawdę zaskakujący jest efekt synergiczny wytwarzany przez ulepszenia algorytmiczne. Za każdym razem, gdy wydajność algorytmu poprawia się o 10% lub 20%, będzie to miało znaczący wpływ po nałożeniu na efektywność danych. Do tej pory nie było mobilizacji wokół efektywności danych, ponieważ podejście to nie jest warte wysiłku, gdy dane nie są w obiegu, a moc obliczeniowa jest ograniczona.

Teraz wchodzimy w nowy etap badań nad AI i zaczniemy gromadzić zwycięstwa w efektywności danych. Myślę, że przewidywanie teraz, że napotkamy nieprzezwyciężone przeszkody, jest trochę głupie. Sposób działania ludzkiego mózgu z pewnością różni się od naszych ulepszeń algorytmicznych i powinniśmy być w tym względzie ostrożni. Ale myślę, że powinniśmy pozostać optymistami co do przyszłego rozwoju algorytmów.

Sam Altman: Jaki jest związek między pre-treningiem na większą skalę a silniejszymi zdolnościami uczenia się i rozumowania modelu?

Alex Paino: Zaobserwowaliśmy, że lepszy pre-trening i uczenie się bez nadzoru często poprawiają ogólną inteligencję modelu i są

zaktualizowano 2025-04-15

# OpenAI # GPT # AGI