War GPT-4.5 ein Misserfolg?

Der Umfang und die Reichweite von GPT-4.5

GPT-4.5 stellt OpenAIs bisher ehrgeizigstes Unterfangen in Bezug auf die schiere Größe dar. Obwohl genaue Details bezüglich seiner Architektur und Trainingsdaten rar bleiben, ist bekannt, dass der Trainingsprozess so rechenintensiv war, dass er über mehrere Rechenzentren verteilt werden musste. Dies allein deutet auf die monumentalen Ressourcen hin, die in seine Entwicklung geflossen sind.

Die Preisstruktur des Modells unterstreicht seine Positionierung als Premium-Angebot. Die Kosten sind erheblich höher als die seiner Vorgänger und übersteigen GPT-4o um den Faktor 15-30, o1 um den Faktor 3-5 und Claude 3.7 Sonnet um den Faktor 10-25. Der Zugriff ist derzeit auf ChatGPT Pro-Abonnenten (zu stolzen 200 US-Dollar pro Monat) und API-Kunden beschränkt, die bereit sind, pro Token zu zahlen.

Allerdings haben die Leistungssteigerungen, zumindest in einigen Bereichen, nicht ganz mit dem Preisschild Schritt gehalten. Erste Benchmarks zeigten nur bescheidene Verbesserungen gegenüber GPT-4o und zeigten sogar, dass GPT-4.5 bei Denkaufgaben hinter Modellen wie o1 und o3-mini zurückblieb.

Das Verständnis des beabsichtigten Zwecks von GPT-4.5

Es ist wichtig zu beachten, dass OpenAI GPT-4.5 nie explizit als sein Flaggschiff-Allzweckmodell vermarktet hat. Tatsächlich stellten frühe Versionen ihres Blogbeitrags klar, dass es nicht als ‘Grenzmodell’ gedacht war, das die absoluten Grenzen der Leistungsfähigkeit verschiebt. Darüber hinaus ist es nicht primär als Denkmodell konzipiert, was direkte Vergleiche mit Modellen, die für diesen Zweck optimiert sind (wie o3 und DeepSeek-R1), etwas irreführend macht.

OpenAI hat angedeutet, dass GPT-4.5 sein letztes Modell ohne Chain-of-Thought sein wird. Dies bedeutet, dass sich sein Training stark auf die Einbettung großer Mengen an Weltwissen und die Anpassung an Benutzerpräferenzen konzentrierte, anstatt auf die Entwicklung komplexer Denkfähigkeiten.

Wo GPT-4.5 glänzen könnte: Wissen und Nuancen

Der Hauptvorteil größerer Modelle liegt oft in ihrer erweiterten Kapazität zur Wissensaneignung. GPT-4.5 zeigt im Einklang mit diesem Prinzip eine geringere Neigung zum Halluzinieren im Vergleich zu seinen kleineren Gegenstücken. Dies macht es potenziell wertvoll in Szenarien, in denen die strikte Einhaltung von Fakten und Kontextinformationen von größter Bedeutung ist.

Darüber hinaus zeigt GPT-4.5 eine verbesserte Fähigkeit, Benutzeranweisungen und -präferenzen zu befolgen. Dies wurde in verschiedenen Demonstrationen von OpenAI gezeigt und durch Online-Erfahrungen von Benutzern bestätigt. Das Modell scheint die Nuancen der Benutzerabsicht effektiver zu erfassen, was zu maßgeschneiderten und relevanteren Ergebnissen führt.

Die Debatte über die Prosaqualität: Subjektivität und Potenzial

Es ist eine lebhafte Diskussion über die Fähigkeit von GPT-4.5 entstanden, überlegene Prosa zu generieren. Einige OpenAI-Führungskräfte haben die Ausgabequalität des Modells gelobt, wobei CEO Sam Altman sogar andeutete, dass die Interaktion damit einigen anspruchsvollen Testern einen Einblick in ‘AGI’ (Artificial General Intelligence) gab.

Die breitere Reaktion war jedoch ausgesprochen gemischt. OpenAI-Mitbegründer Andrej Karpathy erwartete Verbesserungen bei Aufgaben, die weniger auf reinem Denken beruhen, und betonte Bereiche wie ‘EQ’ (emotionale Intelligenz), Kreativität, Analogiebildung und Humor – Aspekte, die oft durch Weltwissen und allgemeines Verständnis eingeschränkt werden.

Interessanterweise ergab eine spätere Umfrage von Karpathy eine allgemeine Präferenz der Benutzer für die Antworten von GPT-4o gegenüber denen von GPT-4.5 in Bezug auf die Schreibqualität. Dies unterstreicht die inhärente Subjektivität bei der Bewertung von Prosa und legt nahe, dass geschicktes Prompt-Engineering eine vergleichbare Qualität von kleineren, effizienteren Modellen hervorrufen könnte.

Karpathy selbst räumte die Mehrdeutigkeit der Ergebnisse ein und schlug verschiedene mögliche Erklärungen vor: Die Tester mit ‘hohem Geschmack’ könnten subtile strukturelle Verbesserungen wahrnehmen, die anderen entgangen sind, die getesteten Beispiele könnten nicht ideal gewesen sein, oder die Unterschiede könnten einfach zu subtil sein, um sie in einer kleinen Stichprobengröße zu erkennen.

Die Grenzen der Skalierung und die Zukunft von LLMs

Die Veröffentlichung von GPT-4.5 unterstreicht in gewisser Weise die potenziellen Grenzen der einfachen Skalierung von Modellen, die auf riesigen Datensätzen trainiert wurden. Ilya Sutskever, ein weiterer OpenAI-Mitbegründer und ehemaliger Chefwissenschaftler, erklärte auf der NeurIPS 2024 bekanntlich, dass ‘das Vortraining, wie wir es kennen, zweifellos enden wird… Wir haben den Höhepunkt der Daten erreicht und es wird keine mehr geben. Wir müssen mit den Daten umgehen, die wir haben. Es gibt nur ein Internet.’

Die abnehmenden Erträge, die bei GPT-4.5 beobachtet wurden, sind ein Beweis für die Herausforderungen bei der Skalierung von Allzweckmodellen, die hauptsächlich auf Internetdaten trainiert und durch Reinforcement Learning from Human Feedback (RLHF) auf die Ausrichtung feinabgestimmt wurden.

Die nächste Grenze für große Sprachmodelle scheint das Test-Time-Scaling (oder Inference-Time-Scaling) zu sein. Dies beinhaltet das Trainieren von Modellen, um für eine längere Dauer zu ‘denken’, indem Chain-of-Thought (CoT)-Token generiert werden. Test-Time-Scaling verbessert die Fähigkeit eines Modells, komplexe Denkprobleme zu lösen, und war ein Schlüsselfaktor für den Erfolg von Modellen wie o1 und R1.

Kein Misserfolg, sondern ein Fundament

Obwohl GPT-4.5 möglicherweise nicht für jede Aufgabe die optimale Wahl ist, ist es wichtig, seine potenzielle Rolle als grundlegendes Element für zukünftige Fortschritte zu erkennen. Eine robuste Wissensbasis ist für die Entwicklung anspruchsvollerer Denkmodelle unerlässlich.

Selbst wenn GPT-4.5 selbst nicht zum Standardmodell für die meisten Anwendungen wird, kann es als entscheidender Baustein für nachfolgende Denkmodelle dienen. Es ist sogar plausibel, dass es bereits in Modellen wie o3 verwendet wird.

Wie Mark Chen, Chief Research Officer von OpenAI, erklärte: ‘Man braucht Wissen, um darauf aufbauend zu denken. Ein Modell kann nicht blind vorgehen und einfach das Denken von Grund auf lernen. Wir finden also, dass sich diese beiden Paradigmen ziemlich gut ergänzen, und wir glauben, dass sie Rückkopplungsschleifen zueinander haben.’

Die Entwicklung von GPT-4.5 stellt daher keine Sackgasse dar, sondern einen strategischen Schritt in der fortlaufenden Evolution großer Sprachmodelle. Es ist ein Beweis für die iterative Natur der KI-Forschung, bei der jeder Schritt, auch wenn er isoliert betrachtet unscheinbar erscheint, zum breiteren Fortschritt hin zu leistungsfähigeren und vielseitigeren KI-Systemen beiträgt. Der Fokus verlagert sich nun darauf, dieses starke Wissensfundament zu nutzen, um Modelle zu bauen, die nicht nur Informationen abrufen, sondern auch mit beispielloser Effektivität denken und Probleme lösen können. Die Reise zu wirklich intelligenter KI geht weiter, und GPT-4.5 spielt trotz seiner gemischten Aufnahme eine wichtige Rolle auf dieser Reise.
Der Fokus liegt jetzt nicht nur darauf, wie viel ein Modell weiß, sondern wie gut es dieses Wissen nutzen kann. Dies ist die zentrale Herausforderung, mit der sich die KI-Community auseinandersetzt, und GPT-4.5 bietet, obwohl es keine perfekte Lösung ist, wertvolle Einblicke und eine solide Grundlage für zukünftige Durchbrüche. Der Weg nach vorne beinhaltet eine Kombination von Ansätzen: Verfeinerung bestehender Techniken, Erforschung neuer Architekturen und Entwicklung ausgefeilterer Methoden für Training und Evaluierung. Das ultimative Ziel bleibt dasselbe: KI-Systeme zu schaffen, die nicht nur menschliche Sprache verstehen und generieren, sondern auch denken, lernen und sich anpassen können, und zwar auf eine Weise, die einst als ausschließliche Domäne menschlicher Intelligenz galt.