GPT-4.5: Wyzwania obliczeniowe i przełomy

Pokonywanie “Katastrofalnych Problemów” w Szkoleniu na Dużą Skalę

Rozwój GPT-4.5, projekt rozpoczęty dwa lata wcześniej, reprezentuje najbardziej ambitne przedsięwzięcie OpenAI do tej pory. To ogromne zadanie obejmowało współpracę setek osób, a Sam Altman, dyrektor generalny OpenAI, zauważył, że projekt wymagał niemal całkowitego zaangażowania organizacyjnego.

Droga do stworzenia GPT-4.5 nie była wolna od przeszkód. Zespół napotkał liczne ‘katastrofalne problemy’ podczas fazy badań i rozwoju. Wykorzystanie klastra 100 000 GPU ujawniło wcześniej niewidoczne, mało prawdopodobne, ale głębokie awarie infrastruktury. Aby zrównoważyć szybkość z optymalną wydajnością, zespół systemowy OpenAI został zmuszony do przyjęcia podejścia ‘naprawiaj w trakcie’. Jeden szczególnie nieuchwytny błąd nękał klaster częstymi błędami, pozostając niewykrytym do momentu, gdy około 40% procesu treningowego dobiegło końca.

Pomimo tych wyzwań, projekt GPT-4.5 przyspieszył rozwój bardziej solidnego stosu technologicznego. Dziś skromny zespół liczący zaledwie 5-10 osób może replikować duży model podobny do GPT-4. Wzrost wydajności od GPT-4 do GPT-4.5 był około dziesięciokrotny, dając ‘inteligencję, którą trudno zmierzyć, ale ulepszoną we wszystkich aspektach’, wynik, który zaskoczył nawet sam personel OpenAI.

Zmiana Fokusu: Od Mocy Obliczeniowej do Efektywności Danych

OpenAI zdało sobie sprawę, że osiągnięcie kolejnego dziesięciokrotnego lub stukrotnego skoku wydajności zależy nie od surowej mocy obliczeniowej, ale od efektywności danych – konkretnie od zdolności do wydobywania większej wiedzy z tej samej ilości danych przy jednoczesnym wykorzystaniu większych zasobów obliczeniowych.

Architektura również ewoluuje od pojedynczego klastra do paradygmatu wieloklastrowego. Przyszłe iteracje treningowe mogą obejmować wspólną naukę na nawet 10 milionach GPU, co wymaga zwiększonej odporności na błędy.

Dialog Sama Altmana z Zespołem GPT-4.5

Poniżej znajduje się zredagowana kompilacja dyskusji między Samem Altmanem a zespołem OpenAI GPT-4.5:

Sam Altman: Co trzeba zrobić, aby zbudować tak duży model jak GPT-4.5?

Alex Paino: Rozpoczęliśmy ten projekt około dwa lata temu. W tym czasie OpenAI miał uruchomić nowy duży klaster obliczeniowy, a nasz zespół postrzegał to jako okazję do przeprowadzenia serii operacji w celu określenia funkcji, które model musi uwzględniać, oraz przeprowadził dużą liczbę testów operacji redukcji ryzyka.

Opracowaliśmy długi plan na to, obejmujący cały stos technologiczny od systemu po uczenie maszynowe. Redukcja ryzyka i przygotowanie do treningu to długi proces realizacji, a sam trening jest bardzo dużym projektem.

Amin Tootoonchian: Myślę, że ten proces wymaga bliskiej współpracy między zespołem uczenia maszynowego a zespołem systemowym od samego początku, aż do wyjaśnienia, jaki model chcemy wytrenować, a następnie rozpoczęcia treningu.

Dokonaliśmy przewidywań zarówno w aspektach uczenia maszynowego, jak i systemowych, starając się jak najbardziej zawęzić lukę między oczekiwaniami a rzeczywistością. Ale ponieważ nasz rytm pracy jest szybki i musimy korzystać z najnowszych zasobów obliczeniowych, trening modelu stał się czymś, co trudno idealnie zaplanować z wyprzedzeniem.

Prawie zawsze rozpoczynamy trening z wieloma nierozwiązanymi problemami i staramy się pokonywać wyzwania i robić postępy podczas operacji. Głównym rozwiązaniem jest dodanie większej ilości zasobów obliczeniowych.

Ostatni etap to realizacja, która wymaga od wielu osób zainwestowania dużo energii i motywacji przez długi czas, aby zakończyć proces treningowy.

Sam Altman: Jak duża, Państwa zdaniem, jest luka między naszymi oczekiwaniami a rzeczywistością?

Amin Tootoonchian: Jeśli chodzi o system, zazwyczaj jesteśmy daleko od oczekiwanego stanu na początku. Zawsze stoimy przed wyborem: czy odłożyć start i poczekać na rozwiązanie problemu, czy zacząć wcześniej i rozwiązać problem w procesie. To zawsze wymaga kompromisu, aby uniknąć nierozsądnych opóźnień w procesie.

Ale prawie zawsze pojawiają się jakieś nieoczekiwane problemy, a to, co musimy zrobić, to radzić sobie z tymi węzłami w jak największym stopniu, radzić sobie z nieznanymi czynnikami i opracować plan treningu modelu.

Alex Paino: W tym projekcie naszym celem jest stworzenie GPT-4.5, co oznacza, że jego możliwości powinny być 10 razy sprytniejsze niż GPT-4. To jest cel, który postawiliśmy sobie około 2 lata temu.

Wiele się wydarzyło podczas tego procesu. Zastanawialiśmy się, czy możemy zrobić lepiej, czy będzie gorzej niż oczekiwano? To bardzo skomplikowany proces, ale ostatecznie, pod względem efektywnych obliczeń, które zainwestowaliśmy, otrzymaliśmy model, który naszym zdaniem osiągnął 10 razy sprytniejszy niż GPT-4.

Amin Tootoonchian: Jeśli chodzi o realizację, czas spędzony na projekcie GPT-4.5 jest daleki od tego, czego początkowo oczekiwaliśmy.

Sam Altman: Dlaczego napotkali Państwo tak wiele problemów, gdy klaster rozszerzył się z 10 000 kart do 100 000 kart?

Amin Tootoonchian: Myślę, że jeśli programiści systemów są wystarczająco wrażliwi, większość problemów można zaobserwować na etapie małej skali.

Niektóre problemy nie są unikalne dla etapu treningu na dużą skalę, ale często zdarzały się wcześniej, ale staną się katastrofalnymi problemami po zwiększeniu skali, zwłaszcza gdy zespół nie przewidział, że problemy te pogorszą się do takiego stopnia.

Sam Altman: Jakie rzeczy spowodowały katastrofalne konsekwencje?

Amin Tootoonchian: Myślę, że problemy z infrastrukturą są dobrze znane, niezależnie od tego, czy wskaźnik awaryjności, typ awarii, czy całkowita liczba awarii jest bardzo wysoka. Klaster 100 000 kart to próbka na dużą skalę, więc odkryliśmy również problemy, których dostawca mocy obliczeniowej nie zaobserwował.

Sieć jest jedną z nich, a poszczególne akceleratory również mogą mieć problemy. Ale to jest również piękno tego systemu - prawie wszystkie komponenty muszą działać zgodnie z oczekiwaniami, aby dać oczekiwane rezultaty. Naszym zadaniem jest zminimalizowanie tego problemu w jak największym stopniu.

Sam Altman: Rzeczywiście trudno jest pracować na granicy wielkości klastra, ale zauważyłem również, że stało się znacznie łatwiej robić rzeczy, które nie są już w czołówce technologii. Trening GPT-4.5 wymaga setek osób, a OpenAI ma na pokładzie prawie wszystkich.

Ale dzisiaj, gdybyś miał wybrać najmniejszy zespół z OpenAI i przeszkolić GPT-4 od zera z całą wiedzą i pracą systemową, którą znamy, ilu ludzi by to zajęło?

Alex Paino: Myślę, że stworzenie modelu na poziomie GPT-4 może zająć teraz około 5 do 10 osób. Stos technologiczny został znacznie ulepszony w procesie ukończenia GPT-4.5.

W rzeczywistości zrobiliśmy podobne rzeczy w procesie treningu GPT-4.5 - wytrenowaliśmy GPT-4o, który jest modelem na poziomie GPT-4, i przeszkoliliśmy go ponownie, używając wielu tych samych treści z projektu badawczego GPT-4.5. Do tego treningu wykorzystano mniej osób.

Sam Altman: Z Pańskiej perspektywy, Dan? Dlaczego trudno jest trenować duże modele?

Daniel Selsam: Myślę, że trudno jest zrobić cokolwiek nowego. Myślę, że nawet samo odkrycie, że ktoś inny coś zrobił, bardzo to ułatwia, ponieważ najtrudniejszą rzeczą jest wiara w zrobienie czegoś na początku. Myślę, że sama świadomość, że coś jest wykonalne, to super kod, który bardzo ułatwia rzeczy.

Alex Paino: Rozszerzamy przebieg wstępnego treningu GPT 10 razy w stosunku do poprzedniej wielkości i zawsze znajdujemy interesujące nowe rzeczy, których niekoniecznie można przewidzieć.

Sam Altman: Co jest potrzebne, aby osiągnąć kolejny 10-krotny lub 100-krotny wzrost skali wstępnego treningu?

Daniel Selsam: Efektywność danych. Architektura Transformer (tj. GPT) jest bardzo wydajna w wykorzystywaniu danych. Dobrze absorbuje i kompresuje informacje oraz osiąga generalizację. Jego największą cechą jest to, że może skutecznie absorbować informacje za pomocą zasobów obliczeniowych.

Jednak głębia wglądu, jaki uzyskuje z danych, jest ograniczona. Gdy moc obliczeniowa rośnie szybko, a dane rosną stosunkowo wolno, dane stają się wąskim gardłem dla tego standardowego modelu. Wymaga to innowacji algorytmicznych w celu opracowania metod, które mogą wykorzystywać więcej mocy obliczeniowej do uczenia się większej wiedzy z tej samej ilości danych.

Sam Altman: Co jeszcze, Państwa zdaniem, musimy utrzymać ekspansję?

Amin Tootoonchian: Moja odpowiedź dotyczy systemu. Myślę, że ogromna ilość pracy wymagana dla GPT-4.5 jest zasadniczo nieuniknionym wynikiem specyfikacji modelu. Nie możemy wytrenować GPT-4.5 z dokładnie tą samą architekturą techniczną co GPT-4.

Pod względem zarządzania stanem, ponieważ wymagane zasoby obliczeniowe przekroczyły pojemność pojedynczego klastra, musimy przejść na architekturę treningu wieloklastrowego. Aby osiągnąć ten cel, musimy zintegrować wiele różnych przepływów pracy w krótkim czasie.

Chociaż rzeczywiście pomogło nam to osiągnąć przełomy etapowe, aby osiągnąć kolejny rząd wielkości poprawy wydajności, nadal musimy rozwiązać kilka znanych, ale tymczasowo odłożonych na półkę problemów technicznych - tych problemów nie można uniknąć. To ten rodzaj kompromisu technicznego stale wydłuża cykl badawczo-rozwojowy idealnego systemu i zawsze dokonujemy strategicznych kompromisów w procesie dążenia do optymalnego planu wdrożeniowego.

Należy jasno powiedzieć, że sam system nie jest celem ostatecznym, a jego rzeczywista wartość wyjściowa jest głównym czynnikiem branym pod uwagę. W przypadku kolejnej 10-krotnej poprawy wydajności uważam, że przełom w odporności na błędy jest kluczowy. Musimy zbudować mechanizm odporny na błędy, który jest głęboko synergiczny z obciążeniem, aby znacznie zmniejszyć niepokój związany z eksploatacją i konserwacją. Złożoność eksploatacji i konserwacji obecnych systemów o bardzo dużej skali zasadniczo różni się od poprzednich systemów.

Sam Altman: Czy wiecie, jaki procent awarii był spowodowany przez niektóre komponenty podczas treningu GPT-4.5?

Amin Tootoonchian: Nie mam konkretnych liczb do udostępnienia, ale generalnie we wczesnych stadiach wdrażania nowej generacji sprzętu eksploatacja systemu często napotyka wiele wyzwań technicznych, które nie są w pełni zrozumiałe. Zdecydowaliśmy się przyspieszyć projekt, zanim problem został w pełni zdefiniowany, co doprowadziło do wysokiego początkowego wskaźnika awaryjności.

Ale doświadczenie pokazało, że po zidentyfikowaniu i rozwiązaniu pierwotnej przyczyny wskaźnik awaryjności znacznie się zmniejszy. Zjawisko to zasadniczo odzwierciedla nasze pogłębiające się zrozumienie infrastruktury - niektórzy nazywają to czyszczeniem infrastruktury lub zrozumieniem podstawowych problemów infrastruktury.

Wczesne etapy realizacji są prawie zawsze dość bolesne. Przyspieszając projekt, stale odkrywamy i rozwiązujemy nowe tryby awarii, ale wskaźnik awaryjności będzie stopniowo maleć, a normalny czas pracy będzie się wydłużać.

Jest to zasadniczo kwestia kompromisów dotyczących priorytetów: we wczesnych stadiach cyklu życia infrastruktury ryzyko jej awarii jest często trudne do dokładnego oszacowania; a jeśli nadmiernie dążymy do ostatecznego idealnego stanu (oryginał to ‘City Estate’, idealny projekt miasta-państwa), może to prowadzić do bardzo słabej wydajności dostępności systemu we wczesnych stadiach.

Sam Altman: Chociaż model rozumowania jest kluczowym elementem naszego przyszłego stosu technologicznego, skupmy się tymczasowo na granicy rozwoju tradycyjnego modelu wstępnego treningu. Załóżmy, że mamy nieograniczoną moc obliczeniową GPU, nieograniczoną przepustowość sieci i nieograniczone zasilanie, ale nadal jesteśmy ograniczeni istniejącymi wąskimi gardłami technicznymi - w tym problemami z niezawodnością systemu, brakiem metod treningu odpornych na błędy i ograniczeniami istniejących zbiorów danych.

Zgodnie z naszym prawem ewolucji polegającym na osiągnięciu 100-krotnego wzrostu skali w każdym głównym numerze wersji GPT, na podstawie obecnych granic technicznych, jaki poziom może osiągnąć rozwój modelu wstępnego treningu? Odnosząc się konkretnie do modeli z serii GPT, z naszą istniejącą wiedzą systemową, jaki rodzaj modelu możemy teoretycznie wytrenować? Czy można stworzyć GPT-5.5?

Alex Paino: Z perspektywy uczenia maszynowego i rozwoju algorytmów nie osiągnęliśmy jeszcze jasnej teoretycznej górnej granicy. W rzeczywistości dopiero zaczynamy badać algorytmy o wyższej efektywności danych i jak pełniej wykorzystać istniejące zasoby danych. Sytuacja jest bardzo interesująca - nawet modele takie jak GPT-4 są w dużej mierze rozwijane w warunkach ograniczonych zasobów obliczeniowych, co również determinuje kierunek większości dotychczasowych badań.

Ale sytuacja jest teraz zupełnie inna. Od GPT-4.5 w niektórych kluczowych wymiarach dane, a nie obliczenia, stają się głównym ograniczeniem. Ta zmiana sprawia, że powiązane badania są mniej ekscytujące.

Sam Altman: Ale to rzeczywiście niesamowity postęp, a świat może nie w pełni zdawać sobie sprawy, że zasoby obliczeniowe nie są już głównym wąskim gardłem w najlepszym modelu, jaki możemy zbudować. Ta zmiana jest głęboka, w końcu zbyt długo żyliśmy w środowisku ograniczonym obliczeniami.

Sam Altman: Jakie jest najciekawsze doświadczenie w uczeniu maszynowym, którego nauczyliśmy się w procesie treningu GPT-4.5? Porozmawiaj tylko o tym, czym chcesz się podzielić.

Amin Tootoonchian: Ogólnie rzecz biorąc, najbardziej skłaniające do myślenia są te sytuacje, które odbiegają od naszych przewidywań - zwłaszcza gdy próbujemy zrozumieć, dlaczego rzeczywista wydajność odbiega od oczekiwanej krzywej.

Alex Paino: Jednym z najbardziej zaskakujących dla nas odkryć jest to, że wydajność skalowalności różnych komponentów uczenia maszynowego znacznie się różni. Niektóre części można dobrze skalować, a inne nie. To właśnie zdaliśmy sobie sprawę w rzeczywistym procesie treningu. To doświadczenie dało nam wiele inspiracji.

Daniel Selsam: Myślę, że dwiema głównymi cechami paradygmatu GPT są: po pierwsze, testowa strata (metryka mierząca, jak dobrze model działa na niewidocznych danych testowych) może być dokładnie przewidziana; po drugie, wydajność modelu wykazuje przewidywalną poprawę wraz z rozszerzeniem skali. Co bardziej magiczne, redukcja testowej straty przekształci się w wszechstronny, ulepszony poziom inteligencji na różne sposoby, które trudno zmierzyć, ale są niesamowite.

Sam Altman: Czy jest Pan absolutnie optymistyczny w tej kwestii? Czy w pełni zgadza się Pan z tym poglądem?

Daniel Selsam: Właściwie to, co chcę powiedzieć, to to, że w teście GPT-4.5 znaleźliśmy szczególnie interesujące zjawiska - po ponownym przetestowaniu model wykazał wiele subtelnych umiejętności, które całkowicie przerosły oczekiwania wszystkich.

Jesteśmy pewni, że stanie się on inteligentniejszy na różne sposoby, których nie można zdefiniować z góry, a po rzeczywistym wdrożeniu możemy zaobserwować te subtelne poziomy poprawy na podstawie satysfakcji użytkowników: silniejsze rezerwy zdrowego rozsądku, dokładniejsze możliwości rozumienia kontekstowego i bardziej delikatne rozumienie semantyczne - to jest dokładnie magia, którą przynoszą te dodatkowe straty testowe. Moim zdaniem Prawo Skalowania zostało doskonale zweryfikowane w tym wymiarze.

Sam Altman: Jaki był najbardziej pozytywny moment podczas całego procesu treningowego? Jakie jest Państwa ulubione wspomnienie? Oczywiście było dużo bólu, ale mam nadzieję, że te bóle zostały złagodzone.

Alex Paino: Mam taki moment. Wykonaliśmy dużo pracy w zakresie uczenia maszynowego podczas treningu. Myślę, że niektóre zmiany, które wprowadziliśmy podczas operacji, miały dość dobry wpływ, prawdopodobnie lepszy niż oczekiwano, co było dla nas bardzo ekscytującym momentem.

Amin Tootoonchian: Dla mnie, jednocześnie z treningiem, budujemy również infrastrukturę. Mocno wierzymy, że możemy przekroczyć ten klif wydajności, mamy plan i wszyscy go realizują, ale to zajmuje dużo czasu. To ciężka praca i zdecydowanie trudniejsza niż myślałem. Moja prognoza była błędna i nie doceniłem czasu potrzebnego na rozwiązanie tych problemów.

Moment, w którym zespół ostatecznie pokonał te kluczowe problemy, a wydajność znacznie się poprawiła, wciąż jest świeży w mojej pamięci. Można wyraźnie poczuć transformację energii całego zespołu - wszyscy nagle są pełni energii i pędzą do celu końcowego z nową motywacją.

Najbardziej magiczne jest to, że szacowany czas ukończenia wyświetlany na naszym monitorze stanu nadal skracał się od początkowych dwóch lat i ostatecznie zablokował się na jasnym węźle czasowym. Ten widoczny postęp ma niezmierny wpływ na morale zespołu. Myślę, że to jest piękne w tym wszystkim.

Chciałbym podkreślić, że praca w zakresie uczenia maszynowego nigdy się nie zatrzymała. Nawet po rozpoczęciu treningu proces współprojektowania uczenia maszynowego jest kontynuowany. Zespół ds. uczenia maszynowego nie tylko aktywnie śledzi te kwestie, które zostały oznaczone jako ‘następne przetwarzanie’, ale także stale dostarcza ulepszenia, które naprawdę optymalizują czas treningu.

To doskonale odzwierciedla ducha naszego zespołu - nie ma tu ‘każda osoba zamiata śnieg przed swoimi drzwiami’, ale prawdziwa bezproblemowa współpraca, a ta spójność jest naszą największą siłą.

Sam Altman: Świat zewnętrzny dużo dyskutował o wyzwaniach i dokładności prognoz samego treningu. Ale w rzeczywistości wszystko to opiera się na niezwykle dokładnym planowaniu - czy może Pan powiedzieć o tym więcej szczegółów?

Alex Paino: To zdecydowanie nasz najdokładniejszy plan do tej pory. Jak powiedziałem, zaczęliśmy przygotowywać się do tego projektu rok przed oficjalnym rozpoczęciem treningu. W tym okresie przeprowadziliśmy wiele testów kontroli ryzyka na dużą skalę.

Zwracamy szczególną uwagę na stopniowe wprowadzanie wszystkich ulepszeń: zaczynając od podstawowej konfiguracji o wysokiej pewności - którą można rozumieć jako dojrzałą architekturę podobną do GPT-4, w pełni opanowaliśmy tę konfigurację na poziomie uczenia maszynowego - a następnie dodajemy nowe funkcje warstwa po warstwie, jak klocki.

Kluczem jest ścisłe zweryfikowanie skalowalności każdego ulepszenia w różnych skalach: nie tylko, aby zobaczyć poprawę wydajności, ale także, aby upewnić się, że ulepszenia te nadal będą skuteczne wraz z rozszerzaniem skali modelu. Wiele ulepszeń działa dobrze w testach na małą skalę, ale zawiedzie w zastosowaniach na dużą skalę.

Dlatego przez cały proces utrzymywaliśmy wysoki stopień czujności i nadal iterujemy i ulepszamy naszą metodologię prawa ekspansji. Dzięki tej praktyce kontroli ryzyka zgromadziliśmy wiele cennych doświadczeń, które będą nadal kierować rozwojem przyszłych modeli z serii GPT.

Amin Tootoonchian: Pamiętam szczególnie interesujący moment, za którym bardzo tęsknię. Wiesz, prawie zawsze napotykamy różne błędy za każdym razem, gdy rozpoczynamy zadanie treningowe. To już jest powszechne. Ale kluczem jest zapewnienie, że postęp nie zostanie zablokowany i zawsze potwierdzanie, że bieżący postęp jest rzeczywiście na właściwej drodze i czy te błędy będą miały śmiertelny wpływ na zdrowie treningu.

Chociaż początkowo byliśmy bardzo pewni, że istnieją poważne wady, dzięki całemu systemowi monitorowania, który zbudowaliśmy, byliśmy w stanie dokładnie odróżnić pierwotną przyczynę problemu: Czy jest to awaria sprzętu? Jaki typ awarii sprzętu? Czy dane są uszkodzone? Czy jest to błąd w samym modelu uczenia maszynowego? Czy jest to wyścig w kodzie?

W tym czasie mieliśmy otwarte jednocześnie wiele obszarów dyskusji na temat problemów, z różnymi objawami. Po serii poprawek błędów utknęliśmy: przed nami było wiele nierozwiązanych problemów i wszyscy łamali sobie głowy - czy zostały one spowodowane różnymi błędami? A może to błąd w pracy?

Później przeprowadziliśmy głosowanie, aby członkowie zespołu głosowali na najbardziej prawdopodobną przyczynę pierwotną. Najmniej obiecująca opcja trafiła w prawdę: okazało się, że wystąpił problem z funkcją torch.sum upstream PyTorch, prostą operacją sumowania.

Ten błąd jest szczególnie interesujący. Wiesz, używamy głównie jądra Triton i będziemy wracać do operacji torch tylko w niektórych nieważnych scenariuszach brzegowych. A błąd funkcji torch.sum wywołany przez naszą konkretną ścieżkę kodu przypadkowo spowoduje nielegalny dostęp do pamięci z powodu charakterystyki dystrybucji danych - popełnił błąd podczas obliczania przesunięcia pamięci.

Najbardziej dramatyczne jest to, że kiedy inżynier w końcu zlokalizował problem i przesłał poprawkę, wszystkie raporty o błędach z różnymi objawami zniknęły. Wszyscy podekscytowani zmienili kanał Slack z ‘teorii wielobłędu’ na ‘teorię pojedynczego błędu’, a scena była bardzo szczęśliwa.

Jak długo ten błąd czaił się? Istniał od wczesnych etapów treningu i został zidentyfikowany dopiero, gdy pasek postępu przekroczył około 40%. Proces odkrywania był również pełen dramatu: w tym czasie złożone jądro sekwencyjnie wywoływało sekwencje, a drugie wywołanie wywołało nielegalny dostęp do pamięci.

Chociaż ta częstotliwość awarii jest niezwykle niska (występuje tylko raz na kilkaset lub nawet tysiące kroków treningowych), łatwo ją zignorować jako sporadyczną awarię, ale wytyczne naszego zespołu brzmią: nigdy nie odpuszczaj żadnych anomalii. Najlepszą częścią tej historii jest ta wytrwałość, by się nie poddawać.

Sam Altman: Co jeszcze musisz zrobić po rozpoczęciu wstępnego treningu GPT-4.5?

Alex Paino: Wszyscy musimy często obserwować krzywą straty. Ponadto musimy nadal optymalizować system i ulepszać współprojektowanie, które nie zostało ukończone przed rozpoczęciem treningu. Ściśle monitorujemy różne statystyki podczas procesu treningowego, aby upewnić się, że nie ma żadnych nieoczekiwanych trendów. Jednocześnie badamy możliwe plany ulepszeń z perspektywy uczenia maszynowego. Chociaż praca na poziomie danych zostanie tymczasowo zmniejszona po rozpoczęciu wstępnego treningu, nadal jest wiele zadań do przetworzenia.

Amin Tootoonchian: Myślę, że uczenie maszynowe w dużej mierze zależy od oceny poprawności. Po rozpoczęciu wstępnego treningu, w obliczu dużej ilości sygnałów szumowych, jesteśmy jak wróżbici interpretujący fusy z herbaty i musimy ocenić, czy system jest zdrowy. To jest nasza odpowiedzialność.

Sam Altman: Na poziomie systemu, co uniemożliwi nam przeprowadzenie treningu modelu? Czy to chip, procesor, pamięć, sieć, czy zasilanie?

Amin Tootoonchian: Piękno systemu polega na tym, że podczas współprojektowania obciążenie może dostosować się do infrastruktury, którą budujesz. Nie ma uniwersalnego stwierdzenia, że sieć jest wąskim gardłem, lub że przepustowość pamięci jest wąskim gardłem itp. Nawet w przypadku modeli o tej samej specyfikacji możemy wybrać przeniesienie wymagań dotyczących zasobów. Możemy wybrać stworzenie bardziej zrównoważonego systemu, ale posiadanie większej przepustowości pamięci jest zawsze korzystne. Trudno odpowiedzieć na to pytanie bez ograniczenia warunków.

Projektując GPT-4.5, możemy potrzebować pewnego atrybutu w systemie, który należy wygenerować za pomocą ludzkiego przewodnictwa. Dlatego współprojektowanie jest bardzo ważne dla tworzenia architektury modelu i elementów architektonicznych oraz do pewnego stopnia łączy aspekty systemowe i uczenia maszynowego. Jeśli system ma atrybut, którego nie chcemy mieć zbyt wiele. Moja idealna sytuacja jest taka, że wszystko powinno być oddzielone, aby dać sobie nawzajem największą przestrzeń.

Czasami rzeczy są ze sobą połączone i musimy spełnić wymagania infrastruktury lub rzeczy powinny być takie. Przez większość czasu potrzebujemy zrównoważonego systemu, zrównoważonej komunikacji. A najlepszym środkiem regulacji, jakim dysponujemy, są wszystkie te wspólne projekty.

Sam Altman: Jak daleko jesteśmy od takiego idealnego celu systemowego?

Amin Tootoonchian: Jesteśmy daleko od tego celu. Proces budowania systemu zawsze wygląda tak: najpierw pojawia się wyidealizowany pogląd na to, jak rzeczy powinny działać, a następnie te różnice są godzone z istniejącymi zasobami.

Nie sądzę, że robimy to dla teorii dla samej teorii, ale tylko po to, aby omówić, czym chcemy, aby się stało, zrealizować to i zbliżyć się tak bardzo, jak to możliwe do tego ideału. To może być najbardziej ekscytująca część dziedziny systemów. Ludzie mówili kiedyś, że to elegancki projekt systemu, a ostatecznie historia pokaże nam, czy ten wybór jest słuszny, czy błędny.

Sam Altman: Jeśli mógłby Pan uzyskać odpowiedź na pytanie dotyczące uczenia maszynowego przed następnym dużym treningiem, co najbardziej chciałby Pan wiedzieć?

Alex Paino: Chcę wiedzieć, jakich algorytmów powinniśmy używać przy ograniczonych danych i określonych dziedzinach. Chociaż jest to szerokie pytanie, jest to rzeczywiście najważniejsze.

Sam Altman: Czy w przyszłości będziecie przeprowadzać synchroniczny wstępny trening z 10 milionami GPU lub więcej?

Alex Paino: Myślę, że tak będzie, ale może to nie być tradycyjny model wstępnego treningu. Jego forma może być bardzo różna od istniejących technologii, ale nadal zachowa rdzeń uczenia się bez nadzoru.

Amin Tootoonchian: Wolę model półsynchroniczny. Ze względu na prawa fizyki pełna synchronizacja nie jest zbyt realistyczna.

Daniel Selsam: Myślę, że bardziej prawdopodobne jest, że będzie zdecentralizowany. Z pewnością będzie 10 milionów GPU pracujących razem w systemie AI, który uczy się i wykonuje zadania, ale podobnie jak różne części mózgu, mogą niekoniecznie komunikować się ze sobą nawzajem.

Sam Altman: Jak duża jest różnica między obecnymi najbardziej zaawansowanymi algorytmami a ludzką efektywnością danych? Czy w przyszłości można to nadrobić?

Daniel Selsam: Te dwie rzeczy trudno bezpośrednio porównać. Luka w nauce języków jest zdecydowanie ogromna. Kluczem jest to, jak zdefiniować ilość informacji odbieranych przez ludzkie nerwy wzrokowe. Myślę, że ogólna efektywność algorytmów w zakresie danych jest znacznie niższa niż u ludzi.

Od dziesięcioleci głębokie uczenie skupia się na efektywności obliczeniowej. Oprócz wzrostu danych i mocy obliczeniowej, naprawdę zaskakujący jest efekt nałożony wywoływany przez ulepszenia algorytmów. Za każdym razem, gdy wydajność algorytmu poprawia się o 10% lub 20%, ma to znaczący wpływ, gdy nakłada się na efektywność danych. Do tej pory nie było takiej mobilizacji wokół efektywności danych, ponieważ nie jest to warte zachodu, gdy dane nie przepływają, a moc obliczeniowa jest ograniczona.

Teraz wkraczamy w nowy etap badań nad sztuczną inteligencją i zaczniemy gromadzić zwycięstwa w zakresie efektywności danych. Myślę, że przewidywanie teraz, że napotkamy nieprzezwyciężone przeszkody, jest trochę głupie. Sposób działania ludzkiego mózgu jest zdecydowanie inny niż nasze ulepszenia algorytmów i powinniśmy być ostrożni w tym względzie. Ale myślę, że powinniśmy pozostać optymistyczni co do przyszłego rozwoju algorytmów.

Sam Altman: Jaki jest związek między wstępnym treningiem na większą skalę a silniejszymi zdolnościami uczenia się i rozumowania modelu?

Alex Paino: Zaobserwowaliśmy, że lepszy wstępny trening i uczenie się bez nadzoru mają tendencję do poprawy ogólnej inteligencji modelu i znacznie pomagają w generalizacji, co jest komplementarne w stosunku do zdolności rozumowania, podczas gdy rozumowanie może być nieco mniej skuteczne w poprawie inteligencji. Myślę, że są komplementarne.

Sam Altman: Wstępny trening wydaje się być uniwersalny w wielu rzeczach, podczas gdy trening modelu może sprawić, że będzie on dobrze radził sobie tylko w jednym rodzaju rzeczy, czy to prawda?

Alex Paino: To bardzo interesujące, ale kiedy zobaczysz dane, które je trenują, nie będziesz zaskoczony tą sytuacją. Zakres zbioru danych wstępnego treningu jest bardzo duży, a to, do czego dążymy, to szerokość i różnorodność. Jeśli chodzi o wzmocnienie modelu uczenia się i sprawienie, by wyraźnie uzyskał dobre sygnały nagrody i dobre środowisko treningowe, myślę, że trudno jest wziąć pod uwagę szerokość zbioru danych.

Daniel Selsam: Zgadzam się, ale myślę, że jest jeszcze jeden czynnik. Wstępny trening to zasadniczo kompresja danych, a tym samym odkrywanie związków między różnymi rzeczami. Chodzi o analogię i bardziej abstrakcyjne. Rozumowanie to umiejętność, która wymaga uważnego myślenia nad konkretnym problemem i może również uzyskać rozwiązania dla wielu rodzajów problemów. Ale w procesie wstępnego treningu można nauczyć się bardziej abstrakcyjnej wiedzy podczas kompresowania danych w różnych dziedzinach.

Sam Altman: Dlaczego uczenie się bez nadzoru jest skuteczne?

Daniel Selsam: Kluczem jest kompresja. Idealną formą inteligencji jest indukcja Solomonowa. Ogólnie rzecz biorąc, uczenie maszynowe rozważy wszystkie możliwości, ale zazwyczaj zaczyna od prostszych programów do testowania.

Istotą obecnego wstępnego treningu jest proces kompresji, który osiąga przybliżone wyrażenie poprzez znalezienie najprostszego programu do wyjaśnienia wszystkich danych, które ludzie do tej pory wyprodukowali.

Sam Altman: Jak następna prognoza tokenów pomaga osiągnąć kompresję?

Daniel Selsam: W statystykach istnieje paradoks - dlaczego głębokie sieci wydają się niezdolne do kompresji, ale mogą osiągnąć generalizację? Normalnie, gdy masz dużo danych i kilka małych modeli, modele te muszą przejść przez kompresję, aby się czegoś nauczyć.

W wstępnym treningu skala zarówno danych, jak i modeli jest bardzo du