Защо Claude на Anthropic не бие Pokémon

Обещанието за AGI

В бързо развиващата се област на изкуствения интелект, концепцията за „изкуствен общ интелект“ (AGI) се превърна в изкусителна перспектива. Лидерите в индустрията все по-често предполагат, че сме на прага на създаването на виртуални агенти, способни да съответстват или дори да надминат човешкото разбиране и представяне в широк спектър от когнитивни задачи. Това очакване подхрани надпревара между технологичните компании, всяка от които се стреми да бъде първата, постигнала този революционен етап.

OpenAI, основен играч в AI арената, фино намеква за предстоящото пристигане на AI агент на „ниво докторска степен“. Този агент, предполагат те, може да работи автономно, представяйки се на нивото на „служител със знания с високи доходи“. Илон Мъск, винаги амбициозният предприемач, направи още по-смели прогнози, заявявайки, че вероятно ще имаме AI „по-умен от всеки един човек“ до края на 2025 г. Дарио Амодей, главен изпълнителен директор на Anthropic, друга видна AI компания, предлага малко по-консервативен график, но споделя подобна визия, предполагайки, че AI може да бъде „по-добър от хората в почти всичко“ до края на 2027 г.

Експериментът на Anthropic „Claude Plays Pokémon“

На фона на тези амбициозни прогнози, Anthropic представи своя експеримент „Claude Plays Pokémon“ миналия месец. Този проект, представен като стъпка към предсказаното AGI бъдеще, беше описан като показващ „проблясъци на AI системи, които се справят с предизвикателствата с нарастваща компетентност, не само чрез обучение, но и с обобщени разсъждения“. Anthropic привлече значително внимание, като подчерта как „подобрените възможности за разсъждение“ на Claude 3.7 Sonnet са позволили на най-новия модел на компанията да напредне в класическата Game Boy RPG игра, Pokémon, по начини, по които „по-старите модели са имали малка надежда да постигнат“.

Компанията подчерта, че „разширеното мислене“ на Claude 3.7 Sonnet е позволило на новия модел да „планира напред, да помни целите си и да се адаптира, когато първоначалните стратегии се провалят“. Това, твърди Anthropic, са „критични умения за битка с пикселизирани лидери на зали. И, предполагаме, и за решаване на проблеми в реалния свят“. Изводът беше ясен: напредъкът на Claude в Pokémon не беше просто игра; това беше демонстрация на зараждащата се способност на AI да се справя със сложни предизвикателства в реалния свят.

Проверка на реалността: Борбите на Claude

Въпреки това, първоначалното вълнение около представянето на Claude в Pokémon беше смекчено от доза реалност. Докато Claude 3.7 Sonnet несъмнено се представи по-добре от своите предшественици, той не е постигнал майсторство над играта. Хиляди зрители в Twitch станаха свидетели на продължаващите борби на Claude, наблюдавайки честите му грешни стъпки и неефективност.

Въпреки продължителните паузи за „мислене“ между ходовете – по време на които зрителите могат да наблюдават симулирания процес на разсъждение на системата – Claude често се оказва:

  • Повторно посещение на завършени градове: AI често се връща в области, които вече е изследвал, привидно без цел.
  • Засядане в слепи ъгли: Claude често се оказва в капан в ъглите на картата за продължителни периоди от време, неспособен да се ориентира.
  • Многократно взаимодействие с безполезни NPC: Наблюдавано е, че AI участва в безплодни разговори със едни и същи неигрови герои отново и отново.

Тези примери за подчертано нечовешко представяне в играта рисуват картина, далеч отвъд суперинтелекта, предвиден от някои. Гледайки как Claude се бори с игра, предназначена за деца, става трудно да си представим, че сме свидетели на зората на нова ера на компютърния интелект.

Уроци от нечовешкото представяне

Въпреки недостатъците си, текущото ниво на представяне на Claude в Pokémon предлага ценни прозрения за продължаващото търсене на обобщен изкуствен интелект на човешко ниво. Дори борбите му съдържат значителни уроци, които биха могли да информират бъдещите усилия за развитие.

В известен смисъл е забележително, че Claude изобщо може да играе Pokémon. Когато разработват AI системи за игри като Go и Dota 2, инженерите обикновено предоставят на своите алгоритми обширни познания за правилата и стратегиите на играта, заедно с функция за възнаграждение, която да ръководи тяхното обучение. За разлика от това, Дейвид Хърши, разработчикът зад проекта Claude Plays Pokémon, започна с немодифициран, обобщен модел Claude, който не е бил специално обучен или настроен да играе игри Pokémon.

Хърши обясни пред Ars: „Това са чисто различните други неща, които [Claude] разбира за света, които се използват, за да се насочат към видеоигри“. Той добави: „Така че има усещане за Pokémon. Ако отидете на claude.ai и попитате за Pokémon, той знае какво е Pokémon въз основа на това, което е прочел… Ако попитате, ще ви каже, че има осем значки за фитнес зали, ще ви каже, че първият е Брок… той знае широката структура.“

Предизвикателствата на визуалната интерпретация

В допълнение към наблюдението на ключови Game Boy RAM адреси за информация за състоянието на играта, Claude интерпретира визуалния изход на играта подобно на човешки играч. Въпреки това, въпреки неотдавнашния напредък в AI обработката на изображения, Claude все още се бори да интерпретира пикселизирания свят с ниска разделителна способност на екранна снимка на Game Boy със същата точност като човек.

„Claude все още не е особено добър в разбирането на това, което е на екрана“, призна Хърши. „Ще го видите да се опитва да върви в стени през цялото време.“

Хърши подозира, че данните за обучение на Claude вероятно нямат подробни текстови описания на изображения, наподобяващи екрани на Game Boy. Това означава, че, донякъде неинтуитивно, Claude всъщност може да се представи по-добре с по-реалистични изображения.

„Това е едно от онези забавни неща за хората, че можем да присвием очи към тези осем на осем пикселни петна от хора и да кажем: „Това е момиче със синя коса“, отбеляза Хърши. „Хората, мисля, имат тази способност да картографират от нашия реален свят, за да разберат и да го схванат… така че честно казано съм изненадан, че Claude е толкова добър в това да може да види, че има човек на екрана.“

Различни силни страни, различни слабости

Дори и с перфектна визуална интерпретация, Хърши вярва, че Claude все още ще се бори с 2D навигационни предизвикателства, които са тривиални за хората. „За мен е доста лесно да разбера, че [вградена] сграда е сграда и че не мога да мина през сграда“, каза той. „И това е [нещо], което е доста предизвикателно за Claude да разбере… Смешно е, защото е просто умен по различни начини, нали?“

Там, където Claude се отличава, според Хърши, е в по-текстовите аспекти на играта. По време на битки, Claude лесно забелязва, когато играта показва, че атаката на Pokémon от електрически тип „не е много ефективна“ срещу опонент от каменен тип. След това съхранява тази информация в своята огромна писмена база знания за бъдещи справки. Claude може също така да интегрира множество части от знания в сложни бойни стратегии, дори разширявайки тези стратегии в дългосрочни планове за улавяне и управление на екипи от Pokémon.

Claude дори демонстрира изненадваща „интелигентност“, когато текстът на играта е умишлено подвеждащ или непълен. Хърши цитира задача в началото на играта, при която на играча се казва да намери професор Оук в съседната къща, само за да открие, че го няма. „Като 5-годишен, това беше много объркващо за мен“, каза Хърши. „Но Claude всъщност обикновено преминава през същия набор от движения, където говори с майка си, отива в лабораторията, не намира [Оук], казва: „Трябва да разбера нещо“… Достатъчно е изтънчен, за да премине през движенията по начина, по който [хората] всъщност трябва да го научат.“

Тези контрастиращи силни и слаби страни, в сравнение с играта на човешко ниво, отразяват цялостното състояние на AI изследванията и възможностите, обясни Хърши. „Мисля, че това е просто нещо универсално за тези модели… Първо изградихме текстовата страна и текстовата страна определено е… по-мощна. Начинът, по който тези модели могат да разсъждават върху изображения, се подобрява, но мисля, че е доста назад.“

Границите на паметта

Отвъд предизвикателствата с визуалната и текстовата интерпретация, Хърши призна, че Claude се бори с „запомнянето“ на това, което е научил. Настоящият модел има „прозорец на контекста“ от 200 000 токена, което ограничава количеството релационна информация, която може да съхранява в своята „памет“ във всеки един момент. Когато разширяващата се база знания на системата запълни този прозорец, Claude преминава през сложен процес на обобщаване, кондензирайки подробни бележки в по-кратки резюмета, които неизбежно губят някои фини детайли.

Това може да доведе до това, че Claude „има трудности да следи нещата за много дълго време и наистина да има голямо усещане за това, което е опитал досега“, каза Хърши. „Определено ще го видите понякога да изтрива нещо, което не би трябвало. Всичко, което не е във вашата база знания или не е във вашето резюме, ще изчезне, така че трябва да помислите какво искате да поставите там.“

Опасностите от невярна информация

По-проблематично от забравянето на важна информация е склонността на Claude неволно да вмъква невярна информация в своята база знания. Подобно на конспиративен теоретик, изграждащ светоглед върху погрешна предпоставка, Claude може да бъде забележително бавен да разпознае, когато грешка в неговата собственоръчно написана база знания води играта му Pokémon в грешна посока.

„Нещата, които са записани в миналото, той им се доверява доста сляпо“, каза Хърши. „Виждал съм го да се убеждава много, че е намерил изхода към [местоположението в играта] Viridian Forest на някои конкретни координати, и след това прекарва часове и часове, изследвайки малък квадрат около тези координати, които са грешни, вместо да прави нещо друго. Отнема много време, за да реши, че това е „провал“.“

Въпреки тези предизвикателства, Хърши отбеляза, че Claude 3.7 Sonnet е значително по-добър от по-ранните модели в „поставянето под въпрос на своите предположения, опитването на нови стратегии и проследяването на различни стратегии за дълги периоди от време, за да [види] дали работят или не“. Докато новият модел все още „се бори за наистина дълги периоди от време“, опитвайки отново същите действия, той в крайна сметка има тенденция да „получи усещане за това какво се случва и какво е опитвал преди, и много пъти се спъва в действителен напредък от това“, каза Хърши.

Пътят напред

Един от най-очарователните аспекти на наблюдението на Claude Plays Pokémon в множество итерации, каза Хърши, е да се види как напредъкът и стратегията на системата могат да варират значително между изпълненията. Понякога Claude демонстрира своята „способност да изгради доста последователна стратегия“, като „води подробни бележки за различните пътища, които да опита“, обясни той. Но „през повечето време не го прави… през повечето време се лута в стената, защото е уверен, че вижда изхода.“

Едно от основните ограничения на текущата версия на Claude, според Хърши, е, че „когато извлече тази добра стратегия, не мисля, че непременно има самосъзнанието да знае, че една стратегия, която [той] е измислил, е по-добра от друга.“ И това, призна той, не е тривиален проблем за решаване.

Въпреки това, Хърши вижда „ниско висящи плодове“ за подобряване на играта на Claude в Pokémon чрез подобряване на разбирането на модела за екранни снимки на Game Boy. „Мисля, че има шанс да победи играта, ако имаше перфектно усещане за това, което е на екрана“, каза той, предполагайки, че такъв модел вероятно ще се представи „малко под човешкото ниво“.

Разширяването на прозореца на контекста за бъдещите модели Claude също вероятно ще им позволи да „разсъждават за по-дълги времеви рамки и да се справят с нещата по-последователно за дълъг период от време“, добави Хърши. Бъдещите модели ще се подобрят, като станат „малко по-добри в запомнянето, поддържането на последователен набор от това, което трябва да опитат, за да постигнат напредък“, каза той.

Докато перспективата за предстоящи подобрения в AI моделите е неоспорима, текущото представяне на Claude в Pokémon не предполага, че е на прага на въвеждането на ера на изкуствен интелект на човешко ниво, напълно обобщим. Хърши призна, че гледането на Claude 3.7 Sonnet да се забие на Mt. Moon за 80 часа може да го накара да „изглежда като модел, който не знае какво прави“.

Въпреки това, Хърши остава впечатлен от случайните проблясъци на осъзнатост, които новият модел за разсъждение на Claude показва, отбелязвайки, че понякога „ще каже, че не знае какво прави и знае, че трябва да прави нещо различно. И разликата между „изобщо не може да го направи“ и „може да го направи донякъде“ е доста голяма за тези AI неща за мен“, продължи той. „Знаете ли, когато нещо може да направи нещо донякъде, това обикновено означава, че сме доста близо до това да го накараме да може да прави нещо наистина, наистина добре.“