De Belofte van AGI
In het snelgroeiende veld van kunstmatige intelligentie is het concept van “artificial general intelligence” (AGI) een aanlokkelijk vooruitzicht geworden. Industrieleiders suggereren steeds vaker dat we op de drempel staan van het creëren van virtuele agenten die in staat zijn om menselijk begrip en prestaties te evenaren, of zelfs te overtreffen, over een breed scala aan cognitieve taken. Deze anticipatie heeft een race tussen technologiebedrijven aangewakkerd, die elk ernaar streven de eerste te zijn die deze baanbrekende mijlpaal bereikt.
OpenAI, een belangrijke speler in de AI-arena, hint subtiel naar de aanstaande komst van een “PhD-niveau” AI-agent. Deze agent, zo suggereren ze, zou autonoom kunnen opereren, presterend op het niveau van een “kenniswerker met een hoog inkomen”. Elon Musk, de immer ambitieuze ondernemer, heeft nog stoutmoedigere voorspellingen gedaan, stellende dat we waarschijnlijk AI zullen hebben die “slimmer is dan welk mens dan ook” tegen het einde van 2025. Dario Amodei, CEO van Anthropic, een ander prominent AI-bedrijf, biedt een iets conservatievere tijdlijn, maar deelt een vergelijkbare visie, suggererend dat AI tegen het einde van 2027 “beter dan mensen in bijna alles” zou kunnen zijn.
Anthropic’s ‘Claude Plays Pokémon’ Experiment
Tegen deze achtergrond van ambitieuze voorspellingen introduceerde Anthropic vorige maand zijn “Claude Plays Pokémon”-experiment. Dit project, gepresenteerd als een stap in de richting van de voorspelde AGI-toekomst, werd beschreven als het tonen van “glimpen van AI-systemen die uitdagingen met toenemende competentie aanpakken, niet alleen door training, maar met gegeneraliseerd redeneren”. Anthropic trok veel aandacht door te benadrukken hoe Claude 3.7 Sonnet’s “verbeterde redeneercapaciteiten” het nieuwste model van het bedrijf in staat stelden vooruitgang te boeken in de klassieke Game Boy RPG, Pokémon, op manieren die “oudere modellen weinig hoop hadden te bereiken”.
Het bedrijf benadrukte dat Claude 3.7 Sonnet’s “uitgebreide denken” het nieuwe model in staat stelde om “vooruit te plannen, zijn doelstellingen te onthouden en zich aan te passen wanneer initiële strategieën falen”. Dit zijn, zo betoogde Anthropic, “kritieke vaardigheden voor het bestrijden van gepixelde gymleiders. En, zo stellen wij, ook voor het oplossen van problemen in de echte wereld”. De implicatie was duidelijk: Claude’s vooruitgang in Pokémon was niet zomaar een spel; het was een demonstratie van het ontluikende vermogen van de AI om complexe, real-world uitdagingen aan te pakken.
De Reality Check: Claude’s Worstelingen
De initiële opwinding rond Claude’s Pokémon-prestaties is echter getemperd door een dosis realiteit. Hoewel Claude 3.7 Sonnet ongetwijfeld beter presteerde dan zijn voorgangers, heeft het geen meesterschap over het spel bereikt. Duizenden kijkers op Twitch zijn getuige geweest van Claude’s voortdurende worstelingen, waarbij ze zijn frequente misstappen en inefficiënties observeerden.
Ondanks de verlengde “denk”-pauzes tussen zetten – waarin kijkers het gesimuleerde redeneerproces van het systeem kunnen observeren – bevindt Claude zich vaak in de volgende situaties:
- Opnieuw bezoeken van voltooide steden: De AI keert regelmatig terug naar gebieden die het al heeft verkend, schijnbaar zonder doel.
- Vastzitten in blinde hoeken: Claude raakt vaak voor langere tijd vast in hoeken van de kaart, niet in staat om eruit te navigeren.
- Herhaaldelijk interageren met niet-behulpzame NPC’s: De AI is waargenomen terwijl het keer op keer vruchteloze gesprekken voert met dezelfde niet-speler personages.
Deze voorbeelden van duidelijk sub-menselijke in-game prestaties schetsen een beeld dat ver verwijderd is van de superintelligentie die sommigen voor ogen hebben. Kijkend naar Claude die worstelt met een spel dat is ontworpen voor kinderen, wordt het moeilijk voor te stellen dat we getuige zijn van de dageraad van een nieuw tijdperk van computerintelligentie.
Lessen uit Sub-Menselijke Prestaties
Ondanks zijn tekortkomingen biedt Claude’s huidige niveau van Pokémon-prestaties waardevolle inzichten in de voortdurende zoektocht naar gegeneraliseerde, menselijke kunstmatige intelligentie. Zelfs zijn worstelingen bevatten belangrijke lessen die toekomstige ontwikkelingsinspanningen zouden kunnen informeren.
In zekere zin is het opmerkelijk dat Claude überhaupt Pokémon kan spelen. Bij het ontwikkelen van AI-systemen voor games als Go en Dota 2, geven ingenieurs hun algoritmen doorgaans uitgebreide kennis van de spelregels en strategieën, samen met een beloningsfunctie om hun leerproces te begeleiden. David Hershey, de ontwikkelaar achter het Claude Plays Pokémon-project, begon daarentegen met een ongemodificeerd, gegeneraliseerd Claude-model dat niet specifiek was getraind of afgestemd om Pokémon-spellen te spelen.
Hershey legde aan Ars uit: “Dit is puur de verschillende andere dingen die [Claude] begrijpt over de wereld die worden gebruikt om naar videogames te wijzen.” Hij voegde eraan toe: “Dus het heeft een idee van een Pokémon. Als je naar claude.ai gaat en vraagt naar Pokémon, weet het wat Pokémon is op basis van wat het heeft gelezen… Als je het vraagt, zal het je vertellen dat er acht gym badges zijn, het zal je vertellen dat de eerste Brock is… het kent de brede structuur.”
De Uitdagingen van Visuele Interpretatie
Naast het monitoren van belangrijke Game Boy RAM-adressen voor informatie over de spelstatus, interpreteert Claude de visuele output van het spel net als een menselijke speler. Ondanks recente vorderingen in AI-beeldverwerking, worstelt Claude echter nog steeds met het interpreteren van de lage-resolutie, gepixelde wereld van een Game Boy-screenshot met dezelfde nauwkeurigheid als een mens.
“Claude is nog steeds niet bijzonder goed in het begrijpen van wat er überhaupt op het scherm staat,” gaf Hershey toe. “Je zult zien dat het de hele tijd probeert tegen muren op te lopen.”
Hershey vermoedt dat Claude’s trainingsgegevens waarschijnlijk gedetailleerde tekstuele beschrijvingen van afbeeldingen die lijken op Game Boy-schermen missen. Dit betekent dat, enigszins contra-intuïtief, Claude misschien wel beter zou presteren met meer realistische beelden.
“Het is een van die grappige dingen aan mensen dat we kunnen turen naar deze acht-bij-acht pixel blobs van mensen en zeggen: ‘Dat is een meisje met blauw haar’,” merkte Hershey op. “Mensen, denk ik, hebben dat vermogen om vanuit onze echte wereld te mappen om te begrijpen en te ‘grokken’ dat… dus ik ben eerlijk gezegd een beetje verrast dat Claude zo goed is in het zien dat er een persoon op het scherm staat.”
Verschillende Sterktes, Verschillende Zwaktes
Zelfs met perfecte visuele interpretatie, gelooft Hershey dat Claude nog steeds zou worstelen met 2D-navigatie-uitdagingen die triviaal zijn voor mensen. “Het is vrij gemakkelijk voor mij om te begrijpen dat [een in-game] gebouw een gebouw is en dat ik niet door een gebouw kan lopen,” zei hij. “En dat is [iets] dat vrij uitdagend is voor Claude om te begrijpen… Het is grappig omdat het gewoon op verschillende manieren slim is, weet je?”
Waar Claude uitblinkt, volgens Hershey, is in de meer tekstgebaseerde aspecten van het spel. Tijdens gevechten merkt Claude gemakkelijk op wanneer het spel aangeeft dat de aanval van een elektrische Pokémon “niet erg effectief” is tegen een rots-type tegenstander. Het slaat deze informatie vervolgens op in zijn uitgebreide geschreven kennisbank voor toekomstig gebruik. Claude kan ook meerdere stukjes kennis integreren in geavanceerde gevechtsstrategieën, en deze strategieën zelfs uitbreiden tot langetermijnplannen voor het vangen en beheren van teams van Pokémon.
Claude toont zelfs verrassende “intelligentie” wanneer de tekst van het spel opzettelijk misleidend of onvolledig is. Hershey noemde een vroege taak in het spel waarbij de speler wordt verteld Professor Oak naast de deur te zoeken, om vervolgens te ontdekken dat hij er niet is. “Als 5-jarige was dat erg verwarrend voor mij,” zei Hershey. “Maar Claude doorloopt eigenlijk typisch dezelfde reeks bewegingen waarbij het met moeder praat, naar het lab gaat, [Oak] niet vindt, zegt: ‘Ik moet iets uitzoeken’… Het is geavanceerd genoeg om de bewegingen te doorlopen van de manier waarop [mensen] het eigenlijk zouden moeten leren.”
Deze contrasterende sterke en zwakke punten, vergeleken met spelen op menselijk niveau, weerspiegelen de algemene staat van AI-onderzoek en -mogelijkheden, legde Hershey uit. “Ik denk dat het gewoon een soort universeel ding is over deze modellen… We hebben de tekstkant ervan eerst gebouwd, en de tekstkant is zeker… krachtiger. Hoe deze modellen over afbeeldingen kunnen redeneren wordt beter, maar ik denk dat het een behoorlijk stuk achterloopt.”
De Limieten van Geheugen
Naast uitdagingen met visuele en tekstuele interpretatie, erkende Hershey dat Claude worstelt met het “onthouden” van wat het heeft geleerd. Het huidige model heeft een “contextvenster” van 200.000 tokens, wat de hoeveelheid relationele informatie beperkt die het op elk moment in zijn “geheugen” kan opslaan. Wanneer de uitdijende kennisbank van het systeem dit venster vult, ondergaat Claude een uitgebreid samenvattingsproces, waarbij gedetailleerde notities worden samengevat in kortere samenvattingen die onvermijdelijk enkele fijnmazige details verliezen.
Dit kan ertoe leiden dat Claude “moeite heeft om dingen heel lang bij te houden en echt een goed idee te hebben van wat het tot nu toe heeft geprobeerd,” zei Hershey. “Je zult het zeker af en toe iets zien verwijderen dat het niet had moeten verwijderen. Alles wat niet in je kennisbank of niet in je samenvatting staat, is weg, dus je moet nadenken over wat je daar wilt plaatsen.”
De Gevaren van Onjuiste Informatie
Problematischer dan het vergeten van belangrijke informatie is Claude’s neiging om onbedoeld onjuiste informatie in zijn kennisbank in te voegen. Net als een complottheoreticus die een wereldbeeld bouwt op een gebrekkige premisse, kan Claude opmerkelijk traag zijn in het herkennen wanneer een fout in zijn zelfgeschreven kennisbank zijn Pokémon-spel op een dwaalspoor brengt.
“De dingen die in het verleden zijn opgeschreven, vertrouwt het soort van blindelings,” zei Hershey. “Ik heb gezien dat het er erg van overtuigd raakte dat het de uitgang naar [in-game locatie] Viridian Forest op bepaalde coördinaten had gevonden, en dan besteedt het uren en uren aan het verkennen van een klein vierkantje rond die coördinaten die verkeerd zijn in plaats van iets anders te doen. Het duurt erg lang voordat het besluit dat dat een ‘mislukking’ was.”
Ondanks deze uitdagingen merkte Hershey op dat Claude 3.7 Sonnet aanzienlijk beter is dan eerdere modellen in “het in twijfel trekken van zijn aannames, het proberen van nieuwe strategieën en het bijhouden over lange perioden van verschillende strategieën om te [zien] of ze werken of niet”. Hoewel het nieuwe model nog steeds “erg lang worstelt” met het opnieuw proberen van dezelfde acties, heeft het uiteindelijk de neiging om “een idee te krijgen van wat er aan de hand is en wat het eerder heeft geprobeerd, en het struikelt vaak in daadwerkelijke vooruitgang daaruit,” zei Hershey.
De Weg Vooruit
Een van de meest fascinerende aspecten van het observeren van Claude Plays Pokémon over meerdere iteraties, zei Hershey, is het zien hoe de vooruitgang en strategie van het systeem aanzienlijk kunnen variëren tussen runs. Soms demonstreert Claude zijn “vermogen om daadwerkelijk een vrij coherente strategie op te bouwen” door “gedetailleerde notities bij te houden over de verschillende paden om te proberen,” legde hij uit. Maar “meestal niet… meestal dwaalt het tegen de muur omdat het er zeker van is dat het de uitgang ziet.”
Een van de belangrijkste beperkingen van de huidige versie van Claude, volgens Hershey, is dat “wanneer het die goede strategie afleidt, ik niet denk dat het noodzakelijkerwijs het zelfbewustzijn heeft om te weten dat de ene strategie [die het] bedacht beter is dan de andere.” En dat, erkende hij, is geen triviaal probleem om op te lossen.
Desalniettemin ziet Hershey “laaghangend fruit” voor het verbeteren van Claude’s Pokémon-spel door het begrip van het model van Game Boy-screenshots te verbeteren. “Ik denk dat er een kans is dat het het spel zou kunnen verslaan als het een perfect idee had van wat er op het scherm staat,” zei hij, suggererend dat zo’n model waarschijnlijk “een klein beetje minder dan menselijk” zou presteren.
Het uitbreiden van het contextvenster voor toekomstige Claude-modellen zal hen waarschijnlijk ook in staat stellen om “over langere tijdframes te redeneren en dingen coherenter te behandelen over een lange periode,” voegde Hershey toe. Toekomstige modellen zullen verbeteren door “een beetje beter te worden in het onthouden, het bijhouden van een coherente set van wat het moet proberen om vooruitgang te boeken,” zei hij.
Hoewel het vooruitzicht van aanstaande verbeteringen in AI-modellen onmiskenbaar is, suggereert Claude’s huidige Pokémon-prestaties niet dat het op het punt staat een tijdperk van menselijke, volledig generaliseerbare kunstmatige intelligentie in te luiden. Hershey gaf toe dat het kijken naar Claude 3.7 Sonnet die 80 uur vastzit op Mt. Moon, het kan doen “lijken op een model dat niet weet wat het doet.”
Hershey blijft echter onder de indruk van de occasionele glimpen van bewustzijn die Claude’s nieuwe redeneermodel vertoont, opmerkend dat het soms “soort van zal vertellen dat het niet weet wat het doet en weet dat het iets anders moet doen. En het verschil tussen ‘kan het helemaal niet’ en ‘kan het een beetje’ is een behoorlijk groot verschil voor deze AI-dingen voor mij,” vervolgde hij. “Weet je, wanneer iets iets een beetje kan, betekent dat meestal dat we er vrij dichtbij zijn om het iets heel, heel goed te laten doen.”