Van Snelle Google-klus tot AI-revolutie: Noam Shazeer & Jeff Dean | nl

De opkomst van AI: Een reis van 25 jaar van PageRank naar AGI

Twee kopstukken van Google’s technologische reis, Jeff Dean, de huidige Chief Scientist, en Noam Shazeer, een sleutelfiguur achter het Transformer-model die recentelijk is teruggekeerd, voerden onlangs een verhelderend gesprek. Onder leiding van de bekende podcaster Dwarkesh Patel, bood hun dialoog een blik op de evolutie van AI, van de fundamentele dagen van MapReduce tot het transformerende tijdperk van Transformer- en MoE-architecturen.

Deze ervaren veteranen, met een gecombineerde ervaring van decennia bij Google, hebben niet alleen de bepalende technologieën van het internet en kunstmatige intelligentie meegemaakt, maar hebben deze ook actief vormgegeven. Ironisch genoeg bekende Shazeer dat zijn aanvankelijke motivatie om bij Google te komen een kortetermijn financieel doel was, een plan dat drastisch werd omvergeworpen door zijn daaropvolgende bijdragen aan het veld.

De huidige staat en toekomstige richting van AI Compute

In een uitgestrekte uitwisseling van twee uur onthulden Dean en Shazeer inzichten in de huidige status van AI-compute, waarbij ze onthulden dat:

De schaal van operaties individuele datacenters heeft overstegen; de training van Gemini omvat nu meerdere datacenters in verschillende grootstedelijke gebieden, die asynchroon werken.
Er is aanzienlijke ruimte voor groei in het opschalen van inference compute, aangezien interactie met AI aanzienlijk kosteneffectiever blijft dan traditioneel lezen.
Toekomstige modelarchitecturen worden gezien als flexibeler dan MoE, waardoor onafhankelijke ontwikkeling van verschillende modelcomponenten door verschillende teams mogelijk wordt.

Inzichten vanuit de loopgraven: Bug Bounties en toekomstige architecturen

Het gesprek wekte ook interesse op sociale media, waarbij gebruikers intrigerende concepten benadrukten, zoals:

Het potentieel van het opslaan van enorme MoE-modellen in het geheugen.
De onverwachte voordelen van bugs in code, die, naarmate de schaal toeneemt, onbedoeld kunnen leiden tot baanbrekende ontdekkingen.

Dean daagde het idee uit dat AI-compute onbetaalbaar duur is. Door de kosten van het lezen van een boek te vergelijken met de interactie met een AI over hetzelfde boek, illustreerde hij een overtuigend punt:

De meest geavanceerde taalmodellen werken tegen een verbazingwekkend lage kostprijs van ongeveer $10^{-18}$ per operatie, wat zich vertaalt naar een miljoen verwerkte tokens voor een enkele dollar. Daarentegen biedt het kopen van een paperback boek slechts 10.000 tokens per dollar.

Dit opvallende verschil - een honderdvoudig kostenvoordeel voor AI-interactie - onderstreept het onaangeboorde potentieel voor het verbeteren van AI-intelligentie door verhoogde inference compute.

Vanuit infrastructureel perspectief zou de toenemende betekenis van inference-time computation de planning van datacenters kunnen hervormen. Dit kan hardware vereisen die specifiek is afgestemd op inference-taken, die doet denken aan Google’s eerste generatie TPU’s, die aanvankelijk waren ontworpen voor inference en later werden aangepast voor training.

Gedistribueerde en asynchrone berekeningen: Een nieuw paradigma

De groeiende nadruk op inference suggereert dat continue communicatie tussen datacenters mogelijk niet langer nodig is, wat mogelijk leidt tot een meer gedistribueerd en asynchroon computationeel model.

Gemini 1.5 is al aan dit pad begonnen en maakt gebruik van computationele middelen in verschillende grote steden. Snelle netwerken synchroniseren berekeningen van verschillende datacenters, waardoor ongekende trainingsschalen worden bereikt. Voor grote modellen, waarbij elke trainingsstap enkele seconden kan duren, heeft zelfs een netwerklatentie van 50 milliseconden een minimale impact.

Op het gebied van inference wordt latentiegevoeligheid een cruciale overweging. Terwijl onmiddellijke reacties geoptimaliseerde prestaties met lage latentie vereisen, kunnen niet-urgente taken, zoals complexe contextuele analyses, langere verwerkingstijden tolereren.

Een meer aanpasbaar en efficiënt systeem zou meerdere taken asynchroon kunnen beheren, waardoor de algehele prestaties worden verbeterd en de wachttijden voor gebruikers worden geminimaliseerd. Bovendien kunnen algoritmische verbeteringen, zoals het gebruik van kleinere draft-modellen, knelpunten in het inference-proces verlichten. Deze aanpak omvat kleinere modellen die potentiële tokens genereren, die vervolgens worden geverifieerd door grotere modellen, waardoor het inference-proces aanzienlijk wordt versneld door middel van parallelisatie.

Shazeer voegde eraan toe dat tijdens asynchrone training elke modelreplica onafhankelijk werkt en gradiëntupdates naar een centraal systeem verzendt voor asynchrone toepassing. Ondanks de theoretische implicaties van kleine parameterfluctuaties, is deze methode opmerkelijk succesvol gebleken.

Daarentegen biedt synchrone training stabiliteit en reproduceerbaarheid, een voorkeur voor veel onderzoekers. Om replicatie in training te garanderen, benadrukte Dean de praktijk van het loggen van operaties, met name gradiëntupdates en gegevensbatchsynchronisatie. Door deze logs opnieuw af te spelen, kan zelfs asynchrone training reproduceerbare resultaten opleveren, waardoor debugging beheersbaarder wordt en inconsistenties als gevolg van omgevingsfactoren worden verminderd.

De toevallige rol van bugs

Shazeer ging hierop verder en introduceerde een intrigerend perspectief:

Hoewel trainingsmodellen verschillende bugs tegenkomen, maakt de inherente ruis tolerantie van deze modellen zelfaanpassing mogelijk, wat leidt tot onvoorziene resultaten. Sommige bugs hebben zelfs positieve effecten en bieden mogelijkheden voor verbetering naarmate de schaal experimentele anomalieën versterkt.

Toen hem werd gevraagd naar debugging-praktijken, beschreef Shazeer hun aanpak van het uitvoeren van talrijke kleinschalige experimenten voor snelle validatie. Deze methode vereenvoudigt de codebase en verkort de experimentcycli tot uren in plaats van weken, waardoor snelle feedback en aanpassingen mogelijk zijn.

Dean was het ermee eens en merkte op dat veel experimenten met aanvankelijk ongunstige resultaten later cruciale inzichten konden opleveren. Onderzoekers staan echter voor de uitdaging van codecomplexiteit; hoewel stapsgewijze verbeteringen noodzakelijk zijn, introduceren ze ook prestatie- en onderhoudsuitdagingen, waardoor een evenwicht nodig is tussen systeemzuiverheid en innovatie.

De organische structuur van toekomstige modellen

Dean en Shazeer voorzien een aanzienlijke verschuiving in AI-modellen van monolithische structuren naar modulaire architecturen.

Modellen zoals Gemini 1.5 Pro maken al gebruik van een Mixture of Experts (MoE)-architectuur, waarbij verschillende componenten worden geactiveerd op basis van de taak. Wiskundige problemen activeren bijvoorbeeld de wiskundig bekwame sectie, terwijl beeldverwerking de overeenkomstige gespecialiseerde module activeert.

De huidige modelstructuren blijven echter enigszins rigide, waarbij expertmodules uniform van grootte zijn en flexibiliteit ontbreekt. Dean stelde een meer vooruitstrevende visie voor: toekomstige modellen zouden een organische structuur moeten aannemen, waardoor verschillende teams onafhankelijk afzonderlijke delen van het model kunnen ontwikkelen of verbeteren.

Een team dat gespecialiseerd is in Zuidoost-Aziatische talen zou bijvoorbeeld de relevante module kunnen verfijnen, terwijl een ander zich richt op het verbeteren van codebegrip. Deze modulaire aanpak stimuleert niet alleen de ontwikkelingsefficiëntie, maar stelt ook wereldwijde teams in staat bij te dragen aan de vooruitgang van het model.

Technisch gezien kunnen modellen afzonderlijke modules continu optimaliseren door middel van distillatie. Dit omvat het condenseren van grote, krachtige modules in kleinere, efficiënte versies, die vervolgens nieuwe kennis blijven leren.

Een router kan de juiste moduleversie selecteren op basis van de taakcomplexiteit, waardoor prestaties en efficiëntie in evenwicht worden gebracht - een concept dat centraal staat in Google’s Pathway-architectuur.

Deze nieuwe architectuur vereist een robuuste infrastructuur, waaronder krachtige TPU-clusters en voldoende high-bandwidth memory (HBM). Hoewel elke oproep slechts een fractie van de parameters van het model kan gebruiken, moet het hele systeem het volledige model in het geheugen bewaren om gelijktijdige verzoeken te kunnen verwerken.

Huidige modellen kunnen een taak opsplitsen in 10 subtaken met een succespercentage van 80%. Toekomstige modellen zouden een taak mogelijk kunnen opsplitsen in 100 of 1.000 subtaken, waardoor succespercentages van 90% of hoger worden bereikt.

Het “Holy Shit” Moment: Nauwkeurige kattenherkenning

Terugkijkend was 2007 een belangrijke mijlpaal voor grote taalmodellen (LLM’s).

In die tijd trainde Google een N-gram model met behulp van 2 biljoen tokens voor machinevertaling. Afhankelijkheid van schijfopslag voor N-gram gegevens resulteerde echter in een hoge latentie als gevolg van uitgebreide schijf I/O (bijvoorbeeld 100.000 zoekopdrachten/woord), waardoor het 12 uur duurde om een enkele zin te vertalen.

Om dit aan te pakken, bedachten ze verschillende strategieën, waaronder geheugencompressie, gedistribueerde architectuur en batchverwerking API-optimalisatie:

Geheugencompressie: N-gram gegevens volledig in het geheugen laden om schijf I/O te vermijden.
Gedistribueerde architectuur: Gegevens verdelen over meerdere machines (bijvoorbeeld 200) voor parallelle queries.
Batchverwerking API-optimalisatie: Per-request overhead verminderen om de doorvoer te verbeteren.

Tijdens deze periode begon de rekenkracht de Wet van Moore te volgen, wat leidde tot exponentiële groei.

“Vanaf eind 2008, dankzij de Wet van Moore, begonnen neurale netwerken echt te werken.”

Toen hem werd gevraagd naar een “Holy shit” moment - een moment van ongeloof dat een bepaald onderzoek daadwerkelijk werkte - vertelde Jeff over een vroeg project van een Google-team waarbij ze een model trainden om high-level features (zoals het herkennen van katten en voetgangers) te leren van YouTube video frames. Door gedistribueerde training (2.000 machines, 16.000 cores) bereikten ze grootschalig unsupervised learning.

Na unsupervised pre-training verbeterde de prestatie van het model in supervised taken (ImageNet) met 60%, wat het potentieel van grootschalige training en unsupervised learning aantoont.

In antwoord op de vraag of Google primair een bedrijf voor informatie retrieval blijft, benadrukte Jeff:

“AI vervult Google’s oorspronkelijke missie.”

In wezen haalt AI niet alleen informatie op, maar begrijpt en genereert het ook complexe content, met een enorm toekomstig potentieel. Over de toekomstige richting van Google: “Ik weet het niet.”

Men kan echter anticiperen op het integreren van Google en een deel van de open-source code in de context van elke ontwikkelaar. Met andere woorden, door modellen in staat te stellen meer tokens te verwerken, zal zoeken binnen zoeken de modelcapaciteiten en het nut verder verbeteren.

Met dit concept wordt intern al geëxperimenteerd bij Google.

“In feite hebben we het Gemini model al verder getraind voor interne ontwikkelaars op onze interne codebase.”

Preciezer gezegd heeft Google intern het doel bereikt dat 25% van zijn code wordt geschreven door AI.

De gelukkigste tijden bij Google

Interessant is dat het duo ook meer intrigerende ervaringen met betrekking tot Google deelde.

Voor Noam in 1999 was het toetreden tot een groot bedrijf als Google aanvankelijk onaantrekkelijk, omdat hij het gevoel had dat zijn vaardigheden mogelijk niet volledig zouden worden benut. Nadat hij de dagelijkse zoekvolume index grafiek van Google had gezien, veranderde hij echter snel van gedachten:

“Deze mensen zullen zeker slagen, en het lijkt erop dat ze veel interessante problemen hebben op te lossen.”

Hij trad toe met een specifiek “klein” doel:

“Geld verdienen en vervolgens gelukkig mijn eigen AI-onderzoeksinteresses nastreven.”

Na toetreding tot Google ontmoette hij zijn mentor, Jeff (nieuwe werknemers kregen mentoren toegewezen), en ze werkten samen aan verschillende projecten.

Op dit punt onderbrak Jeff met zijn eigen waardering voor Google:

“Ik hou van Google’s brede mandaat voor de RM-visie (Responsive en Multimodaal), zelfs als het een richting is, kunnen we veel kleine projecten doen.”

Dit gaf Noam ook de vrijheid die de persoon die aanvankelijk van plan was om “hit and run” te doen ertoe bracht om lang te blijven.

Toen het onderwerp ter sprake kwam, werd Jeff’s scriptie over parallel backpropagation opnieuw bekeken.

Dit 8 pagina’s tellende paper werd de beste scriptie van 1990 en wordt bewaard in de bibliotheek van de Universiteit van Minnesota. Hierin onderzocht Jeff twee methoden voor parallelle training van neurale netwerken op basis van backpropagation:

Pattern-partitioned aanpak: Het volledige neurale netwerk op elke processor weergeven en invoerpatronen verdelen over beschikbare processors.
Network-partitioned aanpak (pipelined aanpak): Neuronen van het neurale netwerk verdelen over beschikbare processors, waardoor een communicerende ring ontstaat. Features passeren deze pijplijn en worden verwerkt door neuronen op elke processor.

Hij testte deze methoden met neurale netwerken van verschillende groottes en diverse invoergegevens. De resultaten toonden aan dat voor de pattern-partitioned aanpak grotere netwerken en meer invoerpatronen een betere versnelling opleverden.

Het meest opvallend is dat het paper onthult hoe een “groot” neuraal netwerk er in 1990 uitzag:

“Een 3-laags neuraal netwerk met 10, 21 en 10 neuronen per laag werd als zeer groot beschouwd.”

Jeff herinnerde zich dat hij maximaal 32 processors gebruikte voor zijn tests.

(Toen kon hij zich waarschijnlijk niet voorstellen dat hij 12 jaar later, samen met Andrew Ng, Quoc Le en anderen, 16.000 CPU cores zou gebruiken om katten te identificeren uit massale data.)

Jeff gaf echter toe dat voor deze onderzoeksresultaten om echt effectief te zijn, “we ongeveer een miljoen keer meer rekenkracht nodig hadden.”

Later bespraken ze de potentiële risico’s van AI, met name het feedback loop probleem wanneer AI extreem krachtig wordt. Met andere woorden, AI zou een oncontroleerbare acceleratie loop (d.w.z. “intelligence explosion”) kunnen ingaan door code te schrijven of zijn algoritmen te verbeteren.

Dit zou ertoe kunnen leiden dat AI de menselijke controle snel overtreft, zelfs kwaadaardige versies creëert. Zoals de host het verwoordde, stel je voor “een miljoen top programmeurs zoals Jeff, die uiteindelijk veranderen in een miljoen kwaadaardige Jeffs.”

(Netizen): “Nieuwe nachtmerrie ontgrendeld, haha!”

Ten slotte deelden ze reflecterend op hun gelukkigste tijden bij Google hun herinneringen.

Voor Jeff waren de meest vreugdevolle momenten in de vroege jaren van Google het getuige zijn van de explosieve groei van Google’s zoekverkeer.

“Iets bouwen dat nu door 2 miljard mensen wordt gebruikt is ongelooflijk.”

Recentelijk is hij enthousiast over het bouwen van dingen met het Gemini team die mensen zelfs vijf jaar geleden niet voor mogelijk hadden gehouden, en hij voorziet dat de impact van het model verder zal toenemen.

Noam herhaalde soortgelijke ervaringen en een gevoel van missie, en noemde zelfs liefkozend Google’s “micro-keuken gebieden.”

Dit is een speciale ruimte met ongeveer 50 tafels, die koffie en snacks aanbiedt, waar mensen vrij kunnen chatten en ideeën kunnen uitwisselen.

Bij deze vermelding werd zelfs Jeff geanimeerd (doge).

bijgewerkt op 2025-02-18

# Google # Gemini # AGI