Von schnellem Google-Job zur Neugestaltung der KI-Geschichte: Ein Gespräch mit Transformer-Autor Noam Shazeer und Jeff Dean

Der Beginn der KI-Evolution: Eine 25-jährige Reise von PageRank zu AGI

Zwei Koryphäen der technologischen Odyssee von Google, Jeff Dean, der derzeitige Chief Scientist, und Noam Shazeer, eine Schlüsselfigur hinter dem Transformer-Modell, der wieder zu Google zurückgekehrt ist, führten kürzlich einen aufschlussreichen Dialog. Das Gespräch, das vom renommierten Podcaster Dwarkesh Patel moderiert wurde, bot einen Einblick in die Entwicklung der KI, die von den Anfängen von MapReduce bis zur transformativen Ära der Transformer- und MoE-Architekturen reicht.

Diese erfahrenen Veteranen mit jahrzehntelanger Erfahrung bei Google haben nicht nur die bestimmenden Technologien des Internets und der künstlichen Intelligenz miterlebt, sondern sie auch aktiv mitgestaltet. Ironischerweise gestand Shazeer, dass seine ursprüngliche Motivation für den Beitritt zu Google ein kurzfristiges finanzielles Ziel war, ein Plan, der durch seine späteren Beiträge zum Feld dramatisch über den Haufen geworfen wurde.

Der aktuelle Stand und die zukünftige Entwicklung der KI-Berechnung

In einem weitläufigen zweistündigen Austausch enthüllten Dean und Shazeer Einblicke in den gegenwärtigen Status der KI-Berechnung und enthüllten Folgendes:

  • Der Umfang der Operationen hat einzelne Rechenzentren überschritten; Geminis Training erstreckt sich nun über mehrere Rechenzentren in verschiedenen Ballungsgebieten, die asynchron arbeiten.
  • Es gibt erheblichen Spielraum für Wachstum bei der Skalierung der Inferenzberechnung, da die Interaktion mit KI deutlich kostengünstiger ist als das traditionelle Lesen.
  • Zukünftige Modellarchitekturen sollen die Flexibilität von MoE übertreffen und die unabhängige Entwicklung verschiedener Modellkomponenten durch verschiedene Teams ermöglichen.

Einblicke aus den Schützengräben: Bug Bounties und zukünftige Architekturen

Das Gespräch stieß auch in den sozialen Medien auf Interesse, wobei Benutzer interessante Konzepte hervorhoben, wie zum Beispiel:

  • Das Potenzial, riesige MoE-Modelle im Speicher zu speichern.
  • Die unerwarteten Vorteile von Bugs im Code, die mit zunehmender Skalierung unbeabsichtigt zu bahnbrechenden Entdeckungen führen können.

Dean stellte die Vorstellung in Frage, dass KI-Berechnung unerschwinglich teuer ist. Indem er die Kosten für die Beschäftigung mit einem Buch mit der Interaktion mit einer KI über dasselbe Buch verglich, veranschaulichte er einen überzeugenden Punkt:

Die fortschrittlichsten Sprachmodelle arbeiten zu erstaunlich niedrigen Kosten von etwa $10^{-18}$ pro Operation, was der Verarbeitung von einer Million Token für einen einzigen Dollar entspricht. Im Gegensatz dazu bietet der Kauf eines Taschenbuchs nur 10.000 Token pro Dollar.

Dieser krasse Unterschied – ein hundertfacher Kostenvorteil für die KI-Interaktion – unterstreicht das ungenutzte Potenzial zur Steigerung der KI-Intelligenz durch erhöhte Inferenzberechnung.

Aus infrastruktureller Sicht könnte die eskalierende Bedeutung der Inferenzzeitberechnung die Planung von Rechenzentren verändern. Dies könnte Hardware erfordern, die speziell auf Inferenzaufgaben zugeschnitten ist, ähnlich wie Googles TPUs der ersten Generation, die ursprünglich für Inferenz entwickelt und später für das Training angepasst wurden.

Verteilte und asynchrone Berechnung: Ein neues Paradigma

Die wachsende Betonung der Inferenz legt nahe, dass eine kontinuierliche Kommunikation zwischen Rechenzentren möglicherweise unnötig wird, was potenziell zu einem verteilteren und asynchronen Berechnungsmodell führt.

Gemini 1.5 hat diesen Weg bereits eingeschlagen und nutzt Rechenressourcen in mehreren Großstädten. Hochgeschwindigkeitsnetzwerke synchronisieren Berechnungen aus verschiedenen Rechenzentren und erreichen so beispiellose Trainingsumfänge. Bei großen Modellen, bei denen jeder Trainingsschritt mehrere Sekunden dauern kann, hat selbst eine Netzwerklatenz von 50 Millisekunden nur minimale Auswirkungen.

Im Bereich der Inferenz wird die Latenzempfindlichkeit zu einer kritischen Überlegung. Während sofortige Antworten eine optimierte Low-Latency-Leistung erfordern, können nicht dringende Aufgaben, wie z. B. komplexe Kontextanalysen, längere Verarbeitungszeiten tolerieren.

Ein anpassungsfähigeres und effizienteres System könnte mehrere Aufgaben asynchron verwalten und so die Gesamtleistung verbessern und gleichzeitig die Wartezeiten für Benutzer minimieren. Darüber hinaus können algorithmische Fortschritte, wie z. B. der Einsatz kleinerer Entwurfsmodelle, Engpässe im Inferenzprozess verringern. Dieser Ansatz beinhaltet kleinere Modelle, die potenzielle Token generieren, die dann von größeren Modellen verifiziert werden, wodurch der Inferenzprozess durch Parallelisierung erheblich beschleunigt wird.

Shazeer fügte hinzu, dass während des asynchronen Trainings jede Modellreplik unabhängig arbeitet und Gradientenaktualisierungen an ein zentrales System zur asynchronen Anwendung sendet. Trotz der theoretischen Auswirkungen geringfügiger Parameterschwankungen hat sich diese Methode als bemerkenswert erfolgreich erwiesen.

Im Gegensatz dazu bietet das synchrone Training Stabilität und Reproduzierbarkeit, was von vielen Forschern bevorzugt wird. Um die Replizierbarkeit im Training sicherzustellen, hob Dean die Praxis der Protokollierung von Operationen, insbesondere Gradientenaktualisierungen und Datenbatchsynchronisierung, hervor. Durch das Wiedergeben dieser Protokolle kann selbst asynchrones Training reproduzierbare Ergebnisse liefern, wodurch das Debuggen einfacher wird und Inkonsistenzen, die durch Umweltfaktoren verursacht werden, gemildert werden.

Die zufällige Rolle von Bugs

Shazeer erweiterte dies und führte eine interessante Perspektive ein:

Während beim Training von Modellen verschiedene Bugs auftreten, ermöglicht die inhärente Rauschtoleranz dieser Modelle eine Selbstanpassung, die zu unvorhergesehenen Ergebnissen führt. Einige Bugs haben sogar positive Auswirkungen und bieten Verbesserungsmöglichkeiten, da die Skalierung experimentelle Anomalien verstärkt.

Auf die Frage nach Debugging-Praktiken beschrieb Shazeer ihren Ansatz, zahlreiche klein angelegte Experimente zur schnellen Validierung durchzuführen. Diese Methode vereinfacht die Codebasis und verkürzt die Experimentzyklen auf Stunden statt Wochen, was eine schnelle Rückmeldung und Anpassungen ermöglicht.

Dean stimmte zu und bemerkte, dass viele Experimente mit anfänglich ungünstigen Ergebnissen später entscheidende Erkenntnisse liefern könnten. Forscher stehen jedoch vor der Herausforderung der Codekomplexität; Während inkrementelle Verbesserungen notwendig sind, führen sie auch zu Leistungs- und Wartungsproblemen, was ein Gleichgewicht zwischen Systemsauberkeit und Innovation erfordert.

Die organische Struktur zukünftiger Modelle

Dean und Shazeer sehen eine signifikante Verlagerung bei KI-Modellen von monolithischen Strukturen zu modularen Architekturen.

Modelle wie Gemini 1.5 Pro verwenden bereits eine Mixture of Experts (MoE)-Architektur, die verschiedene Komponenten basierend auf der Aufgabe aktiviert. Beispielsweise aktivieren mathematische Probleme den mathematisch versierten Abschnitt, während die Bildverarbeitung das entsprechende spezialisierte Modul aktiviert.

Die aktuellen Modellstrukturen bleiben jedoch etwas starr, wobei die Expertenmodule eine einheitliche Größe haben und es an Flexibilität mangelt. Dean schlug eine zukunftsorientiertere Vision vor: Zukünftige Modelle sollten eine organische Struktur annehmen, die es verschiedenen Teams ermöglicht, unterschiedliche Teile des Modells unabhängig zu entwickeln oder zu verbessern.

Beispielsweise könnte ein Team, das sich auf südostasiatische Sprachen spezialisiert hat, das relevante Modul verfeinern, während sich ein anderes auf die Verbesserung des Codeverständnisses konzentriert. Dieser modulare Ansatz steigert nicht nur die Entwicklungseffizienz, sondern ermöglicht es auch globalen Teams, zur Weiterentwicklung des Modells beizutragen.

Technisch können Modelle einzelne Module durch Destillation kontinuierlich optimieren. Dies beinhaltet das Verdichten großer, leistungsstarker Module in kleinere, effiziente Versionen, die dann weiterhin neues Wissen lernen.

Ein Router kann die geeignete Modulversion basierend auf der Aufgabenkomplexität auswählen und so Leistung und Effizienz ausgleichen – ein Konzept, das für Googles Pathway-Architektur von zentraler Bedeutung ist.

Diese neue Architektur erfordert eine robuste Infrastruktur, einschließlich leistungsstarker TPU-Cluster und ausreichend High-Bandwidth-Memory (HBM). Obwohl jeder Aufruf möglicherweise nur einen Bruchteil der Modellparameter verwendet, muss das gesamte System das vollständige Modell im Speicher halten, um gleichzeitige Anforderungen zu bedienen.

Aktuelle Modelle können eine Aufgabe in 10 Teilaufgaben mit einer Erfolgsquote von 80 % zerlegen. Zukünftige Modelle könnten eine Aufgabe möglicherweise in 100 oder 1.000 Teilaufgaben zerlegen und Erfolgsquoten von 90 % oder höher erzielen.

Der “Holy Shit”-Moment: Genaue Katzenerkennung

Rückblickend war 2007 ein bedeutender Meilenstein für große Sprachmodelle (LLMs).

Zu dieser Zeit trainierte Google ein N-Gramm-Modell mit 2 Billionen Token für die maschinelle Übersetzung. Die Abhängigkeit von der Festplattenspeicherung für N-Gramm-Daten führte jedoch aufgrund umfangreicher Festplatten-E/A zu hohen Latenzzeiten (z. B. 100.000 Suchanfragen/Wort), wodurch die Übersetzung eines einzelnen Satzes 12 Stunden dauerte.

Um dies zu beheben, entwickelten sie mehrere Strategien, darunter Speicherkomprimierung, verteilte Architektur und Batch-Verarbeitungs-API-Optimierung:

  • Speicherkomprimierung: Laden von N-Gramm-Daten vollständig in den Speicher, um Festplatten-E/A zu vermeiden.
  • Verteilte Architektur: Verteilen von Daten auf mehrere Maschinen (z. B. 200) für parallele Abfragen.
  • Batch-Verarbeitungs-API-Optimierung: Reduzieren des Overheads pro Anfrage, um den Durchsatz zu verbessern.

In dieser Zeit begann die Rechenleistung dem Moore’schen Gesetz zu folgen, was zu einem exponentiellen Wachstum führte.

“Ab Ende 2008 begannen neuronale Netze dank des Moore’schen Gesetzes wirklich zu funktionieren.”

Auf die Frage nach einem “Holy Shit”-Moment – einem Moment des Unglaubens, dass eine bestimmte Forschungsanstrengung tatsächlich funktionierte – erzählte Jeff von einem frühen Projekt eines Google-Teams, bei dem sie ein Modell trainierten, um High-Level-Funktionen (wie das Erkennen von Katzen und Fußgängern) aus YouTube-Videobildern zu lernen. Durch verteiltes Training (2.000 Maschinen, 16.000 Kerne) erreichten sie groß angelegtes, unbeaufsichtigtes Lernen.

Nach dem unbeaufsichtigten Vortraining verbesserte sich die Leistung des Modells bei überwachten Aufgaben (ImageNet) um 60 %, was das Potenzial von groß angelegtem Training und unbeaufsichtigtem Lernen demonstrierte.

Auf die Frage, ob Google in erster Linie ein Unternehmen für die Wiederbeschaffung von Informationen bleibt, betonte Jeff:

“KI erfüllt die ursprüngliche Mission von Google.”

Im Wesentlichen ruft KI nicht nur Informationen ab, sondern versteht und generiert auch komplexe Inhalte mit großem zukünftigen Potenzial. Was die zukünftige Ausrichtung von Google betrifft, “Ich weiß es nicht.”

Es ist jedoch zu erwarten, dass Google und einiges Open-Source-Code in den Kontext jedes Entwicklers integriert werden. Mit anderen Worten, indem Modelle in die Lage versetzt werden, mehr Token zu verarbeiten, wird die Suche innerhalb der Suche die Modellfähigkeiten und den Nutzen weiter verbessern.

Dieses Konzept wird intern bei Google bereits experimentell erprobt.

“Tatsächlich haben wir das Gemini-Modell für interne Entwickler auf unserer internen Codebasis bereits weiter trainiert.”

Genauer gesagt hat Google intern das Ziel erreicht, dass 25 % seines Codes von KI geschrieben werden.

Die glücklichsten Zeiten bei Google

Interessanterweise teilte das Duo auch interessantere Erfahrungen im Zusammenhang mit Google.

Für Noam im Jahr 1999 war der Beitritt zu einem großen Unternehmen wie Google zunächst unattraktiv, da er befürchtete, dass seine Fähigkeiten möglicherweise nicht ausreichend genutzt würden. Nachdem er jedoch die tägliche Suchvolumenindex-Tabelle von Google gesehen hatte, änderte er schnell seine Meinung:

“Diese Leute werden mit Sicherheit Erfolg haben, und es scheint, dass sie viele interessante Probleme zu lösen haben.”

Er trat mit einer bestimmten “kleinen” Absicht bei:

“Etwas Geld verdienen und dann glücklich meinen eigenen KI-Forschungsinteressen nachgehen.”

Nach seinem Beitritt zu Google lernte er seinen Mentor Jeff kennen (neuen Mitarbeitern wurden Mentoren zugewiesen), und sie arbeiteten an mehreren Projekten zusammen.

An diesem Punkt warf Jeff seine eigene Wertschätzung für Google ein:

“Ich mag Googles breites Mandat für die RM-Vision (Responsive und Multimodal), selbst wenn es sich um eine Richtung handelt, können wir viele kleine Projekte durchführen.”

Dies gab Noam auch die Freiheit, die die Person, die ursprünglich geplant hatte, “reinzuhauen und abzuhauen”, dazu brachte, langfristig zu bleiben.

Als das Thema auf Jeff kam, wurde seine Bachelorarbeit zum parallelen Backpropagation wieder aufgegriffen.

Diese 8-seitige Arbeit wurde zur besten Bachelorarbeit von 1990 und wird in der Bibliothek der University of Minnesota aufbewahrt. Darin untersuchte Jeff zwei Methoden für das parallele Training neuronaler Netze auf der Grundlage von Backpropagation:

  • Musterpartitionierter Ansatz: Darstellen des gesamten neuronalen Netzes auf jedem Prozessor und Aufteilen von Eingabemustern auf die verfügbaren Prozessoren.
  • Netzwerkpartitionierter Ansatz (Pipelined-Ansatz): Verteilen von Neuronen des neuronalen Netzes auf die verfügbaren Prozessoren, wodurch ein kommunizierender Ring entsteht. Merkmale durchlaufen diese Pipeline und werden von Neuronen auf jedem Prozessor verarbeitet.

Er testete diese Methoden mit neuronalen Netzen unterschiedlicher Größe und verschiedenen Eingabedaten. Die Ergebnisse zeigten, dass für den musterpartitionierten Ansatz größere Netze und mehr Eingabemuster zu einer besseren Beschleunigung führten.

Bemerkenswerterweise zeigt die Arbeit, wie ein “großes” neuronales Netz im Jahr 1990 aussah:

“Ein 3-schichtiges neuronales Netz mit 10, 21 und 10 Neuronen pro Schicht wurde als sehr groß angesehen.”

Jeff erinnerte sich, dass er bis zu 32 Prozessoren für seine Tests verwendete.

(Zu diesem Zeitpunkt konnte er sich wahrscheinlich nicht vorstellen, dass er 12 Jahre später zusammen mit Andrew Ng, Quoc Le und anderen 16.000 CPU-Kerne verwenden würde, um Katzen aus riesigen Datenmengen zu identifizieren.)

Jeff räumte jedoch ein, dass diese Forschungsergebnisse wirklich effektiv sein könnten, “wir brauchten etwa eine Million Mal mehr Rechenleistung.”

Später diskutierten sie die potenziellen Risiken von KI, insbesondere das Feedbackschleifenproblem, wenn KI extrem mächtig wird. Mit anderen Worten, KI könnte in eine unkontrollierbare Beschleunigungsschleife (d. h. “Intelligenzexplosion”) eintreten, indem sie Code schreibt oder ihre Algorithmen verbessert.

Dies könnte dazu führen, dass KI die menschliche Kontrolle schnell übertrifft und sogar bösartige Versionen erstellt. Wie der Moderator es formulierte, stellen Sie sich “eine Million Top-Programmierer wie Jeff vor, die sich schließlich in eine Million böse Jeffs verwandeln”.

(Netzbürger): “Neuer Albtraum freigeschaltet, haha!”

Abschließend teilten sie ihre Erinnerungen und reflektierten über ihre glücklichsten Zeiten bei Google.

Für Jeff waren die freudigsten Momente in den frühen Jahren von Google das Erleben des explosiven Wachstums des Suchverkehrs von Google.

“Etwas zu bauen, das jetzt von 2 Milliarden Menschen genutzt wird, ist unglaublich.”

In letzter Zeit war er begeistert, mit dem Gemini-Team Dinge zu bauen, die die Leute noch vor fünf Jahren nicht für möglich gehalten hätten, und er sieht voraus, dass sich die Auswirkungen des Modells weiter ausdehnen werden.

Noam wiederholte ähnliche Erfahrungen und ein Gefühl der Mission und erwähnte sogar liebevoll die “Mikroküchenbereiche” von Google.

Dies ist ein besonderer Raum mit etwa 50 Tischen, der Kaffee und Snacks bietet, in dem sich die Leute frei unterhalten und Ideen austauschen können.

Bei dieser Erwähnung wurde sogar Jeff lebhaft (Doge).