Warum Claude Pokémon noch nicht schlägt

Das Versprechen der AGI

Im aufstrebenden Feld der künstlichen Intelligenz ist das Konzept der “Artificial General Intelligence” (AGI) zu einer verlockenden Aussicht geworden. Branchenführer deuten zunehmend darauf hin, dass wir an der Schwelle zur Schaffung virtueller Agenten stehen, die in der Lage sind, menschliches Verständnis und Leistung in einer Vielzahl von kognitiven Aufgaben zu erreichen oder sogar zu übertreffen. Diese Erwartung hat einen Wettlauf zwischen Technologieunternehmen ausgelöst, die alle danach streben, als erste diesen bahnbrechenden Meilenstein zu erreichen.

OpenAI, ein wichtiger Akteur in der KI-Arena, deutet subtil die bevorstehende Ankunft eines KI-Agenten auf “PhD-Niveau” an. Dieser Agent, so wird suggeriert, könnte autonom arbeiten und auf dem Niveau eines “einkommensstarken Wissensarbeiters” agieren. Elon Musk, der stets ambitionierte Unternehmer, hat noch kühnere Vorhersagen getroffen und erklärt, dass wir wahrscheinlich bis Ende 2025 eine KI haben werden, die “intelligenter als jeder Mensch” ist. Dario Amodei, CEO von Anthropic, einem anderen prominenten KI-Unternehmen, bietet einen etwas konservativeren Zeitrahmen, teilt aber eine ähnliche Vision und deutet an, dass KI bis Ende 2027 “in fast allem besser als Menschen” sein könnte.

Anthropics ‘Claude Plays Pokémon’-Experiment

Vor dem Hintergrund dieser ehrgeizigen Vorhersagen stellte Anthropic letzten Monat sein Experiment ‘Claude Plays Pokémon’ vor. Dieses Projekt, das als Schritt in Richtung der vorhergesagten AGI-Zukunft präsentiert wurde, wurde als Demonstration von “Schimmern von KI-Systemen, die Herausforderungen mit zunehmender Kompetenz angehen, nicht nur durch Training, sondern auch durch generalisiertes Denken” beschrieben. Anthropic erregte große Aufmerksamkeit, indem es hervorhob, wie Claude 3.7 Sonnets “verbesserte Denkfähigkeiten” es dem neuesten Modell des Unternehmens ermöglichten, Fortschritte im klassischen Game Boy RPG, Pokémon, zu machen, und zwar auf eine Weise, die “ältere Modelle kaum erreichen konnten”.

Das Unternehmen betonte, dass Claude 3.7 Sonnets “erweitertes Denken” es dem neuen Modell ermöglichte, “vorauszuplanen, sich an seine Ziele zu erinnern und sich anzupassen, wenn anfängliche Strategien scheitern”. Dies, so argumentierte Anthropic, seien “entscheidende Fähigkeiten für den Kampf gegen pixelige Arenaleiter. Und, so unsere These, auch für die Lösung realer Probleme”. Die Implikation war klar: Claudes Fortschritte in Pokémon waren nicht nur ein Spiel; es war eine Demonstration der aufkeimenden Fähigkeit der KI, komplexe, reale Herausforderungen zu bewältigen.

Die Realitätsprüfung: Claudes Schwierigkeiten

Die anfängliche Begeisterung über Claudes Pokémon-Leistung wurde jedoch durch eine Dosis Realität gedämpft. Während Claude 3.7 Sonnet seine Vorgänger zweifellos übertraf, hat es das Spiel nicht gemeistert. Tausende von Zuschauern auf Twitch haben Claudes anhaltende Kämpfe miterlebt und seine häufigen Fehltritte und Ineffizienzen beobachtet.

Trotz längerer “Denkpausen” zwischen den Zügen – während derer die Zuschauer den simulierten Denkprozess des Systems beobachten können – findet sich Claude oft in folgenden Situationen wieder:

  • Wiederholter Besuch abgeschlossener Städte: Die KI kehrt häufig zu Gebieten zurück, die sie bereits erkundet hat, scheinbar ohne Zweck.
  • Feststecken in blinden Ecken: Claude verfängt sich oft für längere Zeit in Ecken der Karte und ist nicht in der Lage, sich herauszunavigieren.
  • Wiederholte Interaktion mit nicht hilfreichen NPCs: Es wurde beobachtet, dass die KI immer wieder fruchtlose Gespräche mit denselben Nicht-Spieler-Charakteren führt.

Diese Beispiele für deutlich unterdurchschnittliche In-Game-Leistungen zeichnen ein Bild, das weit entfernt von der Superintelligenz ist, die sich einige vorstellen. Wenn man Claude dabei zusieht, wie er mit einem Spiel kämpft, das für Kinder entwickelt wurde, fällt es schwer, sich vorzustellen, dass wir den Beginn einer neuen Ära der Computerintelligenz erleben.

Lehren aus unterdurchschnittlicher Leistung

Trotz seiner Unzulänglichkeiten bietet Claudes aktuelles Niveau der Pokémon-Leistung wertvolle Einblicke in das anhaltende Streben nach generalisierter, menschenähnlicher künstlicher Intelligenz. Selbst seine Schwierigkeiten bergen wichtige Lehren, die zukünftige Entwicklungsbemühungen beeinflussen könnten.

In gewisser Weise ist es bemerkenswert, dass Claude überhaupt Pokémon spielen kann. Bei der Entwicklung von KI-Systemen für Spiele wie Go und Dota 2 geben Ingenieure ihren Algorithmen in der Regel umfangreiches Wissen über die Regeln und Strategien des Spiels sowie eine Belohnungsfunktion, um ihr Lernen zu steuern. Im Gegensatz dazu begann David Hershey, der Entwickler hinter dem Projekt ‘Claude Plays Pokémon’, mit einem unveränderten, generalisierten Claude-Modell, das nicht speziell für das Spielen von Pokémon-Spielen trainiert oder optimiert worden war.

Hershey erklärte gegenüber Ars: “Dies sind rein die verschiedenen anderen Dinge, die [Claude] über die Welt versteht und die verwendet werden, um auf Videospiele zu zeigen.” Er fügte hinzu: “Es hat also ein Gefühl für ein Pokémon. Wenn Sie zu claude.ai gehen und nach Pokémon fragen, weiß es, was Pokémon ist, basierend auf dem, was es gelesen hat… Wenn Sie fragen, wird es Ihnen sagen, dass es acht Arenaorden gibt, es wird Ihnen sagen, dass der erste Brock ist… es kennt die grobe Struktur.”

Die Herausforderungen der visuellen Interpretation

Zusätzlich zur Überwachung wichtiger Game Boy RAM-Adressen für Informationen zum Spielstatus interpretiert Claude die visuelle Ausgabe des Spiels ähnlich wie ein menschlicher Spieler. Trotz der jüngsten Fortschritte in der KI-Bildverarbeitung hat Claude jedoch immer noch Schwierigkeiten, die niedrig aufgelöste, pixelige Welt eines Game Boy-Screenshots mit der gleichen Genauigkeit wie ein Mensch zu interpretieren.

“Claude ist immer noch nicht besonders gut darin, zu verstehen, was überhaupt auf dem Bildschirm zu sehen ist”, räumte Hershey ein. “Man wird sehen, dass es ständig versucht, in Wände zu laufen.”

Hershey vermutet, dass Claudes Trainingsdaten wahrscheinlich keine detaillierten Textbeschreibungen von Bildern enthalten, die Game Boy-Bildschirmen ähneln. Dies bedeutet, dass Claude, etwas kontraintuitiv, mit realistischeren Bildern tatsächlich besser abschneiden könnte.

“Es ist eines dieser lustigen Dinge an Menschen, dass wir diese acht mal acht Pixel großen Kleckse von Menschen anstarren und sagen können: ‘Das ist ein Mädchen mit blauen Haaren’”, bemerkte Hershey. “Ich denke, Menschen haben die Fähigkeit, von unserer realen Welt aus zu verstehen und das irgendwie zu begreifen… also bin ich ehrlich gesagt ziemlich überrascht, dass Claude so gut darin ist, zu erkennen, dass sich eine Person auf dem Bildschirm befindet.”

Unterschiedliche Stärken, unterschiedliche Schwächen

Selbst bei perfekter visueller Interpretation glaubt Hershey, dass Claude immer noch mit 2D-Navigationsherausforderungen zu kämpfen hätte, die für Menschen trivial sind. “Es ist ziemlich einfach für mich zu verstehen, dass [ein Gebäude im Spiel] ein Gebäude ist und dass ich nicht durch ein Gebäude gehen kann”, sagte er. “Und das ist [etwas], das für Claude ziemlich schwer zu verstehen ist… Es ist lustig, weil es einfach auf unterschiedliche Weise intelligent ist, wissen Sie?”

Wo Claude sich auszeichnet, so Hershey, sind die eher textbasierten Aspekte des Spiels. Während der Kämpfe bemerkt Claude sofort, wenn das Spiel anzeigt, dass der Angriff eines Pokémon vom Typ Elektro “nicht sehr effektiv” gegen einen Gegner vom Typ Gestein ist. Es speichert diese Informationen dann in seiner umfangreichen schriftlichen Wissensdatenbank für zukünftige Referenzen. Claude kann auch mehrere Wissensstücke in ausgeklügelte Kampfstrategien integrieren und diese Strategien sogar auf langfristige Pläne zum Fangen und Verwalten von Pokémon-Teams ausweiten.

Claude zeigt sogar überraschende “Intelligenz”, wenn der Text des Spiels absichtlich irreführend oder unvollständig ist. Hershey nannte eine Aufgabe zu Beginn des Spiels, bei der der Spieler Professor Eich nebenan finden soll, nur um festzustellen, dass er nicht da ist. “Als 5-Jähriger war das sehr verwirrend für mich”, sagte Hershey. “Aber Claude durchläuft tatsächlich typischerweise die gleiche Reihe von Bewegungen, bei denen es mit der Mutter spricht, zum Labor geht, [Eich] nicht findet und sagt: ‘Ich muss etwas herausfinden’… Es ist raffiniert genug, um die Bewegungen so zu durchlaufen, wie [Menschen] es eigentlich lernen sollen.”

Diese gegensätzlichen Stärken und Schwächen im Vergleich zum Spiel auf menschlichem Niveau spiegeln den allgemeinen Stand der KI-Forschung und -Fähigkeiten wider, erklärte Hershey. “Ich denke, es ist einfach eine Art universelle Sache bei diesen Modellen… Wir haben zuerst die Textseite davon gebaut, und die Textseite ist definitiv… mächtiger. Wie diese Modelle über Bilder nachdenken können, wird besser, aber ich denke, es ist ein gutes Stück dahinter.”

Die Grenzen des Gedächtnisses

Neben den Herausforderungen bei der visuellen und textuellen Interpretation räumte Hershey ein, dass Claude Schwierigkeiten hat, sich an das zu “erinnern”, was es gelernt hat. Das aktuelle Modell hat ein “Kontextfenster” von 200.000 Token, was die Menge an relationalen Informationen begrenzt, die es zu einem bestimmten Zeitpunkt in seinem “Gedächtnis” speichern kann. Wenn die wachsende Wissensdatenbank des Systems dieses Fenster füllt, durchläuft Claude einen aufwändigen Zusammenfassungsprozess, bei dem detaillierte Notizen zu kürzeren Zusammenfassungen verdichtet werden, die unweigerlich einige feinkörnige Details verlieren.

Dies kann dazu führen, dass Claude “Schwierigkeiten hat, Dinge sehr lange im Auge zu behalten und wirklich ein gutes Gefühl dafür zu haben, was es bisher versucht hat”, sagte Hershey. “Sie werden definitiv sehen, dass es gelegentlich etwas löscht, was es nicht hätte tun sollen. Alles, was nicht in Ihrer Wissensdatenbank oder nicht in Ihrer Zusammenfassung enthalten ist, ist weg, also müssen Sie darüber nachdenken, was Sie dort ablegen möchten.”

Die Gefahren falscher Informationen

Problematischer als das Vergessen wichtiger Informationen ist Claudes Tendenz, versehentlich falsche Informationen in seine Wissensdatenbank einzufügen. Wie ein Verschwörungstheoretiker, der ein Weltbild auf einer fehlerhaften Prämisse aufbaut, kann Claude bemerkenswert langsam erkennen, wenn ein Fehler in seiner selbst verfassten Wissensdatenbank sein Pokémon-Spiel in die Irre führt.

“Die Dinge, die in der Vergangenheit aufgeschrieben wurden, vertraut es ziemlich blind”, sagte Hershey. “Ich habe gesehen, dass es sehr überzeugt davon war, dass es den Ausgang zum [Ort im Spiel] Viridian Forest an bestimmten Koordinaten gefunden hat, und dann verbringt es Stunden und Stunden damit, ein kleines kleines Quadrat um diese Koordinaten herum zu erkunden, die falsch sind, anstatt etwas anderes zu tun. Es dauert sehr lange, bis es entscheidet, dass das ein ‘Fehlschlag’ war.”

Trotz dieser Herausforderungen stellte Hershey fest, dass Claude 3.7 Sonnet deutlich besser als frühere Modelle darin ist, “seine Annahmen zu hinterfragen, neue Strategien auszuprobieren und über lange Zeiträume hinweg verschiedene Strategien zu verfolgen, um [zu sehen], ob sie funktionieren oder nicht”. Während das neue Modell immer noch “für wirklich lange Zeiträume” damit kämpft, die gleichen Aktionen zu wiederholen, tendiert es letztendlich dazu, “ein Gefühl dafür zu bekommen, was vor sich geht und was es zuvor versucht hat, und es stolpert oft in tatsächlichen Fortschritt daraus”, sagte Hershey.

Der Weg nach vorn

Einer der faszinierendsten Aspekte der Beobachtung von ‘Claude Plays Pokémon‘ über mehrere Iterationen hinweg, so Hershey, sei zu sehen, wie der Fortschritt und die Strategie des Systems zwischen den Läufen erheblich variieren können. Manchmal demonstriert Claude seine “Fähigkeit, tatsächlich eine ziemlich kohärente Strategie zu entwickeln”, indem es “detaillierte Notizen über die verschiedenen zu versuchenden Pfade führt”, erklärte er. Aber “die meiste Zeit tut es das nicht… die meiste Zeit wandert es in die Wand, weil es zuversichtlich ist, dass es den Ausgang sieht.”

Eine der größten Einschränkungen der aktuellen Version von Claude ist laut Hershey, dass “wenn es diese gute Strategie ableitet, ich nicht glaube, dass es unbedingt das Selbstbewusstsein hat, zu wissen, dass eine Strategie, die es sich ausgedacht hat, besser ist als eine andere”. Und das, räumte er ein, sei kein triviales Problem, das es zu lösen gelte.

Dennoch sieht Hershey “niedrig hängende Früchte”, um Claudes Pokémon-Spiel zu verbessern, indem das Verständnis des Modells für Game Boy-Screenshots verbessert wird. “Ich denke, es besteht die Chance, dass es das Spiel schlagen könnte, wenn es ein perfektes Gefühl dafür hätte, was auf dem Bildschirm zu sehen ist”, sagte er und deutete an, dass ein solches Modell wahrscheinlich “ein wenig hinter dem Menschen” abschneiden würde.

Das Erweitern des Kontextfensters für zukünftige Claude-Modelle wird es ihnen wahrscheinlich auch ermöglichen, “über längere Zeiträume hinweg zu denken und Dinge über einen langen Zeitraum hinweg kohärenter zu handhaben”, fügte Hershey hinzu. Zukünftige Modelle werden sich verbessern, indem sie “ein wenig besser darin werden, sich zu erinnern und einen kohärenten Satz dessen zu verfolgen, was es versuchen muss, um Fortschritte zu erzielen”, sagte er.

Während die Aussicht auf bevorstehende Verbesserungen bei KI-Modellen unbestreitbar ist, deutet Claudes aktuelle Pokémon-Leistung nicht darauf hin, dass es kurz davor steht, eine Ära menschenähnlicher, vollständig generalisierbarer künstlicher Intelligenz einzuleiten. Hershey räumte ein, dass es, wenn man Claude 3.7 Sonnet 80 Stunden lang auf dem Mt. Moon festsitzen sieht, “wie ein Modell aussehen kann, das nicht weiß, was es tut”.

Hershey ist jedoch weiterhin beeindruckt von den gelegentlichen Schimmern von Bewusstsein, die Claudes neues Denkmodell zeigt, und bemerkt, dass es manchmal “irgendwie sagen wird, dass es nicht weiß, was es tut, und weiß, dass es etwas anderes tun muss. Und der Unterschied zwischen ‘kann es überhaupt nicht’ und ‘kann es irgendwie’ ist für mich ein ziemlich großer für diese KI-Dinge”, fuhr er fort. “Wissen Sie, wenn etwas etwas irgendwie kann, bedeutet das normalerweise, dass wir ziemlich nah dran sind, es dazu zu bringen, etwas wirklich, wirklich gut zu können.”