Tytuł

Początek ewolucji AI: 25-letnia podróż od PageRank do AGI

Dwóch luminarzy technologicznej odysei Google, Jeff Dean, obecny dyrektor naukowy, i Noam Shazeer, kluczowa postać stojąca za modelem Transformera, który ponownie dołączył do firmy, niedawno wzięli udział w pouczającym dialogu. Rozmowa, prowadzona przez znanego podcastera Dwarkesha Patela, rzuciła światło na ewolucję sztucznej inteligencji, od fundamentów MapReduce po transformacyjną erę architektury Transformer i MoE.

Ci doświadczeni weterani, z łącznym doświadczeniem dziesiątek lat w Google, nie tylko byli świadkami, ale aktywnie kształtowali definiujące technologie internetu i sztucznej inteligencji. Ironicznie, Shazeer wyznał, że jego początkową motywacją do dołączenia do Google była krótkoterminowa pogoń za finansami, plan, który został dramatycznie odwrócony przez jego późniejszy wkład w tę dziedzinę.

Obecny stan i przyszła trajektoria obliczeń AI

Podczas obszernej, dwugodzinnej wymiany zdań, Dean i Shazeer ujawnili spostrzeżenia na temat obecnego stanu obliczeń AI, ujawniając, że:

  • Skala operacji przekroczyła pojedyncze centra danych; szkolenie Gemini obejmuje teraz wiele centrów danych w różnych obszarach metropolitalnych, działających asynchronicznie.
  • Istnieje znaczny potencjał wzrostu w skalowaniu obliczeń wnioskowania, ponieważ interakcja z AI pozostaje znacznie bardziej opłacalna niż tradycyjne czytanie.
  • Przyszłe architektury modeli mają przewyższać elastyczność MoE, umożliwiając niezależny rozwój różnych komponentów modelu przez różne zespoły.

Spostrzeżenia z okopów: Programy Bug Bounty i przyszłe architektury

Rozmowa wzbudziła również zainteresowanie w mediach społecznościowych, a użytkownicy podkreślali intrygujące koncepcje, takie jak:

  • Potencjał przechowywania ogromnych modeli MoE w pamięci.
  • Nieoczekiwane korzyści z błędów w kodzie, które, wraz ze wzrostem skali, mogą nieumyślnie prowadzić do przełomowych odkryć.

Dean zakwestionował pogląd, że obliczenia AI są zbyt drogie. Porównując koszt obcowania z książką z interakcją z AI na temat tej samej książki, zilustrował przekonujący punkt:

Najbardziej zaawansowane modele językowe działają przy zadziwiająco niskim koszcie około 10^{-18} dolara za operację, co przekłada się na milion przetworzonych tokenów za jednego dolara. Natomiast zakup książki w miękkiej oprawie oferuje zaledwie 10 000 tokenów za dolara.

Ta wyraźna różnica — stukrotna przewaga kosztowa interakcji AI — podkreśla niewykorzystany potencjał zwiększenia inteligencji AI poprzez zwiększone zasoby obliczeniowe wnioskowania.

Z perspektywy infrastrukturalnej, rosnące znaczenie obliczeń w czasie wnioskowania może zmienić planowanie centrów danych. Może to wymagać sprzętu specjalnie dostosowanego do zadań wnioskowania, przypominającego TPU pierwszej generacji Google, pierwotnie zaprojektowane do wnioskowania, a później przystosowane do szkolenia.

Rozproszone i asynchroniczne obliczenia: Nowy paradygmat

Rosnący nacisk na wnioskowanie sugeruje, że ciągła komunikacja między centrami danych może stać się zbędna, co potencjalnie prowadzi do bardziej rozproszonego i asynchronicznego modelu obliczeniowego.

Gemini 1.5 już wyruszył tą ścieżką, wykorzystując zasoby obliczeniowe w kilku dużych miastach. Szybkie sieci synchronizują obliczenia z różnych centrów danych, osiągając bezprecedensowe skale szkoleniowe. W przypadku dużych modeli, gdzie każdy krok szkoleniowy może trwać kilka sekund, nawet opóźnienie sieciowe wynoszące 50 milisekund ma minimalny wpływ.

W sferze wnioskowania wrażliwość na opóźnienia staje się krytycznym czynnikiem. Podczas gdy natychmiastowe odpowiedzi wymagają zoptymalizowanej wydajności z niskimi opóźnieniami, zadania niepilne, takie jak złożona analiza kontekstowa, mogą tolerować dłuższe czasy przetwarzania.

Bardziej adaptacyjny i wydajny system mógłby asynchronicznie zarządzać wieloma zadaniami, zwiększając ogólną wydajność przy jednoczesnym zminimalizowaniu czasu oczekiwania użytkownika. Dodatkowo, postęp algorytmiczny, taki jak wykorzystanie mniejszych modeli szkicowych, może złagodzić wąskie gardła w procesie wnioskowania. Podejście to obejmuje mniejsze modele generujące potencjalne tokeny, które są następnie weryfikowane przez większe modele, co znacznie przyspiesza proces wnioskowania poprzez paralelizację.

Shazeer dodał, że podczas asynchronicznego szkolenia każda replika modelu działa niezależnie, wysyłając aktualizacje gradientu do centralnego systemu w celu asynchronicznego zastosowania. Pomimo teoretycznych implikacji drobnych wahań parametrów, metoda ta okazała się niezwykle skuteczna.

Natomiast synchroniczne szkolenie oferuje stabilność i powtarzalność, co jest preferowane przez wielu badaczy. Aby zapewnić powtarzalność w szkoleniu, Dean podkreślił praktykę rejestrowania operacji, w szczególności aktualizacji gradientu i synchronizacji partii danych. Odtwarzając te logi, nawet asynchroniczne szkolenie może dać powtarzalne wyniki, dzięki czemu debugowanie jest łatwiejsze i łagodzi niespójności spowodowane czynnikami środowiskowymi.

Przypadkowa rola błędów

Rozwijając ten temat, Shazeer wprowadził intrygującą perspektywę:

Podczas gdy modele szkoleniowe napotykają różne błędy, wrodzona tolerancja na szumy tych modeli pozwala na samodzielne dostosowanie, prowadząc do nieprzewidzianych rezultatów. Niektóre błędy dają nawet pozytywne efekty, stwarzając możliwości ulepszeń, gdy skala wzmacnia eksperymentalne anomalie.

Zapytany o praktyki debugowania, Shazeer opisał ich podejście do przeprowadzania licznych eksperymentów na małą skalę w celu szybkiej walidacji. Metoda ta upraszcza bazę kodu i skraca cykle eksperymentów do godzin zamiast tygodni, ułatwiając szybkie informacje zwrotne i korekty.

Dean zgodził się, zauważając, że wiele eksperymentów z początkowo niekorzystnymi wynikami może później dostarczyć kluczowych spostrzeżeń. Jednak badacze stają w obliczu wyzwania złożoności kodu; chociaż stopniowe ulepszenia są konieczne, wprowadzają również wyzwania związane z wydajnością i konserwacją, co wymaga równowagi między czystością systemu a innowacjami.

Organiczna struktura przyszłych modeli

Dean i Shazeer przewidują znaczącą zmianę w modelach AI z monolitycznych struktur na modułowe architektury.

Modele takie jak Gemini 1.5 Pro wykorzystują już architekturę Mixture of Experts (MoE), aktywując różne komponenty w zależności od zadania. Na przykład, problemy matematyczne angażują sekcję biegłą w matematyce, podczas gdy przetwarzanie obrazów aktywuje odpowiedni wyspecjalizowany moduł.

Jednak obecne struktury modeli pozostają nieco sztywne, a moduły eksperckie mają jednolity rozmiar i brak im elastyczności. Dean zaproponował bardziej przyszłościową wizję: przyszłe modele powinny przyjąć organiczną strukturę, umożliwiając różnym zespołom niezależne rozwijanie lub ulepszanie odrębnych części modelu.

Na przykład, zespół specjalizujący się w językach Azji Południowo-Wschodniej mógłby udoskonalić odpowiedni moduł, podczas gdy inny skupia się na poprawie rozumienia kodu. Takie modułowe podejście nie tylko zwiększa efektywność rozwoju, ale także umożliwia globalnym zespołom wnoszenie wkładu w postęp modelu.

Technicznie, modele mogą stale optymalizować poszczególne moduły poprzez destylację. Obejmuje to kondensowanie dużych, wysokowydajnych modułów w mniejsze, wydajne wersje, które następnie kontynuują zdobywanie nowej wiedzy.

Router może wybrać odpowiednią wersję modułu w oparciu o złożoność zadania, równoważąc wydajność i efektywność — koncepcja centralna dla architektury Pathway Google.

Ta nowa architektura wymaga solidnej infrastruktury, w tym potężnych klastrów TPU i dużej ilości pamięci o dużej przepustowości (HBM). Chociaż każde wywołanie może wykorzystywać tylko ułamek parametrów modelu, cały system musi przechowywać kompletny model w pamięci, aby obsługiwać jednoczesne żądania.

Obecne modele mogą rozłożyć zadanie na 10 podzadań z 80% wskaźnikiem sukcesu. Przyszłe modele mogłyby potencjalnie rozłożyć zadanie na 100 lub 1000 podzadań, osiągając 90% lub wyższe wskaźniki sukcesu.

Moment “O kurczę”: Dokładne rozpoznawanie kotów

Patrząc wstecz, rok 2007 był znaczącym kamieniem milowym dla dużych modeli językowych (LLM).

W tamtym czasie Google przeszkolił model N-gram przy użyciu 2 bilionów tokenów do tłumaczenia maszynowego. Jednak poleganie na pamięci dyskowej dla danych N-gram spowodowało wysokie opóźnienia z powodu rozległych operacji we/wy dysku (np. 100 000 wyszukiwań/słowo), co zajmowało 12 godzin na przetłumaczenie jednego zdania.

Aby temu zaradzić, opracowali kilka strategii, w tym kompresję pamięci, architekturę rozproszoną i optymalizację API przetwarzania wsadowego:

  • Kompresja pamięci: Załadowanie danych N-gram w całości do pamięci, aby uniknąć operacji we/wy dysku.
  • Architektura rozproszona: Rozproszenie danych na wielu maszynach (np. 200) dla zapytań równoległych.
  • Optymalizacja API przetwarzania wsadowego: Zmniejszenie narzutu na żądanie w celu poprawy przepustowości.

W tym okresie moc obliczeniowa zaczęła podążać za prawem Moore’a, prowadząc do wykładniczego wzrostu.

“Od końca 2008 roku, dzięki prawu Moore’a, sieci neuronowe naprawdę zaczęły działać.”

Zapytany o moment “O kurczę” — moment niedowierzania, że konkretny wysiłek badawczy rzeczywiście zadziałał — Jeff opowiedział o projekcie wczesnego zespołu Google, w którym wyszkolili model do uczenia się cech wysokiego poziomu (takich jak rozpoznawanie kotów i pieszych) z klatek wideo YouTube. Dzięki rozproszonemu szkoleniu (2000 maszyn, 16 000 rdzeni) osiągnęli uczenie nienadzorowane na dużą skalę.

Po nienadzorowanym wstępnym szkoleniu wydajność modelu w nadzorowanych zadaniach (ImageNet) poprawiła się o 60%, co wykazało potencjał szkolenia na dużą skalę i uczenia nienadzorowanego.

Odnosząc się do pytania, czy Google pozostaje przede wszystkim firmą zajmującą się wyszukiwaniem informacji, Jeff podkreślił:

“AI wypełnia pierwotną misję Google.”

W istocie AI nie tylko wyszukuje informacje, ale także rozumie i generuje złożone treści, z ogromnym przyszłym potencjałem. Co do przyszłego kierunku Google, “Nie wiem”.

Jednak można przewidzieć integrację Google i pewnego kodu open-source w kontekście każdego programisty. Innymi słowy, umożliwiając modelom obsługę większej liczby tokenów, wyszukiwanie w wyszukiwaniu jeszcze bardziej zwiększy możliwości i użyteczność modelu.

Ta koncepcja jest już eksperymentowana wewnętrznie w Google.

“W rzeczywistości przeprowadziliśmy już dalsze szkolenie na modelu Gemini dla wewnętrznych programistów na naszej wewnętrznej bazie kodu.”

Mówiąc dokładniej, Google wewnętrznie osiągnął cel, jakim jest 25% kodu napisanego przez AI.

Najszczęśliwsze czasy w Google

Co ciekawe, duet podzielił się również bardziej intrygującymi doświadczeniami związanymi z Google.

Dla Noama w 1999 roku dołączenie do dużej firmy takiej jak Google początkowo nie było atrakcyjne, ponieważ uważał, że jego umiejętności mogą być niedostatecznie wykorzystywane. Jednak po obejrzeniu wykresu dziennego indeksu wolumenu wyszukiwania Google szybko zmienił zdanie:

“Ci ludzie z pewnością odniosą sukces i wydaje się, że mają wiele interesujących problemów do rozwiązania.”

Dołączył z konkretnym “małym” zamiarem:

“Zarobić trochę pieniędzy, a następnie z radością realizować moje własne zainteresowania badawcze w dziedzinie AI.”

Po dołączeniu do Google poznał swojego mentora, Jeffa (nowi pracownicy otrzymywali mentorów), i współpracowali przy kilku projektach.

W tym momencie Jeff wtrącił się ze swoim własnym uznaniem dla Google:

“Podoba mi się szeroki mandat Google dla wizji RM (Responsive and Multimodal), nawet jeśli jest to jeden kierunek, możemy robić wiele małych projektów.”

To również zapewniło Noamowi swobodę, która sprawiła, że osoba, która początkowo planowała “uderzyć i uciec”, została na dłuższą metę.

Tymczasem, gdy temat przeszedł na Jeffa, jego praca licencjacka na temat równoległego propagowania wstecznego została ponownie omówiona.

Ta 8-stronicowa praca stała się najlepszą pracą licencjacką z 1990 roku i jest przechowywana w bibliotece Uniwersytetu w Minnesocie. Jeff zbadał w niej dwie metody równoległego szkolenia sieci neuronowych oparte na propagowaniu wstecznym:

  • Podejście z podziałem wzorców: Reprezentowanie całej sieci neuronowej na każdym procesorze i dzielenie wzorców wejściowych między dostępne procesory.
  • Podejście z podziałem sieci (podejście potokowe): Rozproszenie neuronów sieci neuronowej między dostępne procesory, tworząc pierścień komunikacyjny. Cechy przechodzą przez ten potok, przetwarzane przez neurony na każdym procesorze.

Przetestował te metody z sieciami neuronowymi o różnych rozmiarach i różnych danych wejściowych. Wyniki pokazały, że w przypadku podejścia z podziałem wzorców, większe sieci i więcej wzorców wejściowych dawały lepsze przyspieszenie.

Co najważniejsze, praca ujawnia, jak wyglądała “duża” sieć neuronowa w 1990 roku:

“3-warstwowa sieć neuronowa z 10, 21 i 10 neuronami na warstwę była uważana za bardzo dużą.”

Jeff przypomniał sobie, że do swoich testów użył do 32 procesorów.

(W tamtym czasie prawdopodobnie nie mógł sobie wyobrazić, że 12 lat później on, wraz z Andrew Ng, Quoc Le i innymi, użyje 16 000 rdzeni procesora do identyfikacji kotów z ogromnych danych).

Jednak Jeff przyznał, że aby te wyniki badań naprawdę były skuteczne, “potrzebowaliśmy około miliona razy więcej mocy obliczeniowej.”

Później omówili potencjalne ryzyko związane z AI, zwłaszcza problem pętli sprzężenia zwrotnego, gdy AI staje się niezwykle potężna. Innymi słowy, AI może wejść w niekontrolowaną pętlę przyspieszenia (tj. “eksplozja inteligencji”), pisząc kod lub ulepszając swoje algorytmy.

Może to doprowadzić do tego, że AI szybko wyprzedzi kontrolę człowieka, a nawet stworzy złośliwe wersje. Jak ujął to gospodarz, wyobraź sobie “milion najlepszych programistów, takich jak Jeff, ostatecznie zamieniających się w milion złych Jeffów”.

(Internauta): “Odblokowany nowy koszmar, haha!”

Wreszcie, wspominając najszczęśliwsze czasy w Google, obaj podzielili się swoimi wspomnieniami.

Dla Jeffa najbardziej radosnymi momentami w pierwszych latach Google było obserwowanie gwałtownego wzrostu ruchu w wyszukiwarce Google.

“Budowanie czegoś, z czego korzysta teraz 2 miliardy ludzi, jest niesamowite.”

Ostatnio jest zachwycony budowaniem rzeczy z zespołem Gemini, które ludzie nie uwierzyliby, że są możliwe jeszcze pięć lat temu, i przewiduje, że wpływ modelu będzie się dalej rozszerzał.

Noam powtórzył podobne doświadczenia i poczucie misji, a nawet z sentymentem wspomniał o “mikrokuchniach” Google.

Jest to specjalna przestrzeń z około 50 stolikami, oferująca kawę i przekąski, gdzie ludzie mogą swobodnie rozmawiać i wymieniać się pomysłami.

Na tę wzmiankę nawet Jeff ożywił się (doge).