Клод от Anthropic и Покемоны

Обещание AGI

В бурно развивающейся области искусственного интеллекта (ИИ) концепция ‘общего искусственного интеллекта’ (AGI) стала заманчивой перспективой. Лидеры отрасли все чаще предполагают, что мы находимся на пороге создания виртуальных агентов, способных соответствовать или даже превосходить человеческое понимание и производительность в широком спектре когнитивных задач. Это ожидание подстегнуло гонку среди технологических компаний, каждая из которых стремится первой достичь этой революционной вехи.

OpenAI, крупный игрок на арене ИИ, тонко намекает на скорое появление ИИ-агента ‘уровня PhD’. Этот агент, как они предполагают, может работать автономно, выполняя работу на уровне ‘высокооплачиваемого работника умственного труда’. Илон Маск, амбициозный предприниматель, сделал еще более смелые прогнозы, заявив, что к концу 2025 года у нас, вероятно, будет ИИ, ‘умнее любого человека’. Дарио Амодей, генеральный директор Anthropic, еще одной известной компании в области ИИ, предлагает немного более консервативный график, но разделяет схожее видение, предполагая, что ИИ может быть ‘лучше людей почти во всем’ к концу 2027 года.

Эксперимент Anthropic ‘Claude Plays Pokémon’

На фоне этих амбициозных прогнозов Anthropic представила свой эксперимент ‘Claude Plays Pokémon’ в прошлом месяце. Этот проект, представленный как шаг к предсказанному будущему AGI, был описан как демонстрация ‘проблесков систем ИИ, которые решают проблемы с возрастающей компетентностью, не только посредством обучения, но и с помощью обобщенного мышления’. Anthropic привлекла значительное внимание, подчеркнув, как ‘улучшенные способности к рассуждению’ Claude 3.7 Sonnet позволили последней модели компании добиться прогресса в классической RPG для Game Boy, Pokémon, способами, на которые ‘старые модели не могли и надеяться’.

Компания подчеркнула, что ‘расширенное мышление’ Claude 3.7 Sonnet позволило новой модели ‘планировать наперед, помнить свои цели и адаптироваться, когда первоначальные стратегии терпят неудачу’. Это, как утверждала Anthropic, ‘критически важные навыки для борьбы с пиксельными лидерами спортзалов. И, как мы полагаем, для решения реальных проблем тоже’. Подразумевалось следующее: прогресс Claude в Pokémon был не просто игрой; это была демонстрация растущей способности ИИ решать сложные, реальные проблемы.

Проверка реальностью: трудности Claude

Однако первоначальный ажиотаж вокруг производительности Claude в Pokémon был смягчен дозой реальности. Хотя Claude 3.7 Sonnet, несомненно, превзошел своих предшественников, он не достиг мастерства в игре. Тысячи зрителей на Twitch стали свидетелями продолжающихся трудностей Claude, наблюдая за его частыми ошибками и неэффективностью.

Несмотря на длительные паузы ‘мышления’ между ходами, во время которых зрители могут наблюдать за симулированным процессом рассуждения системы, Claude часто:

  • Повторно посещает пройденные города: ИИ часто возвращается в области, которые он уже исследовал, казалось бы, без цели.
  • Застревает в тупиках: Claude часто оказывается в ловушке в углах карты на длительное время, не в силах найти выход.
  • Неоднократно взаимодействует с бесполезными NPC: Было замечено, что ИИ снова и снова вступает в бесплодные разговоры с одними и теми же неигровыми персонажами.

Эти примеры явно нечеловеческой производительности в игре рисуют картину, далекую от суперинтеллекта, о котором мечтают некоторые. Наблюдая за тем, как Claude борется с игрой, предназначенной для детей, становится трудно представить, что мы являемся свидетелями рассвета новой эры компьютерного интеллекта.

Уроки нечеловеческой производительности

Несмотря на свои недостатки, текущий уровень производительности Claude в Pokémon предлагает ценную информацию о продолжающемся поиске обобщенного искусственного интеллекта человеческого уровня. Даже его трудности содержат важные уроки, которые могут помочь в будущих разработках.

В некотором смысле, замечательно, что Claude вообще может играть в Pokémon. При разработке систем ИИ для таких игр, как Go и Dota 2, инженеры обычно предоставляют своим алгоритмам обширные знания о правилах и стратегиях игры, а также функцию вознаграждения, которая направляет их обучение. В отличие от этого, Дэвид Херши, разработчик проекта Claude Plays Pokémon, начал с немодифицированной, обобщенной модели Claude, которая не была специально обучена или настроена для игры в Pokémon.

Херши объяснил Ars: ‘Это чисто различные другие вещи, которые [Claude] понимает о мире, используемые для указания на видеоигры’. Он добавил: ‘Итак, у него есть представление о Покемонах. Если вы зайдете на claude.ai и спросите о Покемонах, он знает, что такое Покемоны, основываясь на том, что он читал… Если вы спросите, он скажет вам, что есть восемь значков спортзала, он скажет вам, что первый - Брок… он знает общую структуру’.

Проблемы визуальной интерпретации

В дополнение к мониторингу ключевых адресов RAM Game Boy для получения информации о состоянии игры, Claude интерпретирует визуальный вывод игры так же, как это делал бы человек. Однако, несмотря на недавние достижения в области обработки изображений ИИ, Claude по-прежнему с трудом интерпретирует пиксельный мир скриншота Game Boy с низким разрешением с той же точностью, что и человек.

‘Claude все еще не особенно хорош в понимании того, что вообще находится на экране’, - признал Херши. ‘Вы увидите, как он постоянно пытается идти в стены’.

Херши подозревает, что в обучающих данных Claude, вероятно, отсутствуют подробные текстовые описания изображений, напоминающих экраны Game Boy. Это означает, что, как ни парадоксально, Claude может на самом деле работать лучше с более реалистичными изображениями.

‘Это одна из тех забавных вещей о людях, что мы можем щуриться на эти восьми-на-восьми пиксельные кляксы людей и говорить: ‘Это девушка с синими волосами’’, - отметил Херши. ‘Люди, я думаю, обладают этой способностью сопоставлять наш реальный мир, чтобы понимать и как бы постигать это… поэтому я, честно говоря, удивлен, что Claude так хорошо умеет видеть, что на экране есть человек’.

Разные сильные стороны, разные слабости

Даже при идеальной визуальной интерпретации Херши считает, что Claude все равно будет бороться с проблемами 2D-навигации, которые тривиальны для людей. ‘Мне довольно легко понять, что [внутриигровое] здание - это здание, и что я не могу пройти сквозь здание’, - сказал он. ‘И это [то], что довольно сложно для Claude понять… Это забавно, потому что он просто умен по-разному, понимаете?’

По словам Херши, Claude преуспевает в более текстовых аспектах игры. Во время сражений Claude легко замечает, когда игра указывает, что атака электрического Покемона ‘не очень эффективна’ против каменного противника. Затем он сохраняет эту информацию в своей обширной базе письменных знаний для дальнейшего использования. Claude также может интегрировать несколько фрагментов знаний в сложные боевые стратегии, даже расширяя эти стратегии до долгосрочных планов по поимке и управлению командами Покемонов.

Claude даже демонстрирует удивительный ‘интеллект’, когда текст игры намеренно вводит в заблуждение или является неполным. Херши привел пример задания в начале игры, где игроку говорят найти профессора Оука по соседству, но он обнаруживает, что его там нет. ‘Для меня, как для 5-летнего ребенка, это было очень запутанно’, - сказал Херши. ‘Но Claude на самом деле обычно проходит через тот же набор действий, когда он разговаривает с мамой, идет в лабораторию, не находит [Оука], говорит: ‘Мне нужно что-то придумать’… Он достаточно умен, чтобы как бы пройти через движения, как [люди] на самом деле должны это узнать’.

Эти контрастирующие сильные и слабые стороны, по сравнению с игрой на уровне человека, отражают общее состояние исследований и возможностей ИИ, объяснил Херши. ‘Я думаю, что это просто своего рода универсальная вещь об этих моделях… Мы сначала построили текстовую сторону, и текстовая сторона определенно… более мощная. То, как эти модели могут рассуждать об изображениях, улучшается, но я думаю, что это немного отстает’.

Пределы памяти

Помимо проблем с визуальной и текстовой интерпретацией, Херши признал, что Claude с трудом ‘запоминает’ то, что он узнал. Текущая модель имеет ‘контекстное окно’ в 200 000 токенов, что ограничивает объем реляционной информации, которую она может хранить в своей ‘памяти’ в любой момент времени. Когда расширяющаяся база знаний системы заполняет это окно, Claude проходит сложный процесс суммирования, сжимая подробные заметки в более короткие сводки, которые неизбежно теряют некоторые мелкие детали.

Это может привести к тому, что Claude ‘с трудом отслеживает вещи в течение очень долгого времени и действительно имеет хорошее представление о том, что он уже пробовал’, - сказал Херши. ‘Вы определенно увидите, как он иногда удаляет то, что не должен был. Все, чего нет в вашей базе знаний или в вашей сводке, исчезнет, поэтому вам нужно подумать о том, что вы хотите туда поместить’.

Опасности неверной информации

Более проблематичным, чем забывание важной информации, является склонность Claude непреднамеренно вставлять неверную информацию в свою базу знаний. Подобно теоретику заговора, строящему мировоззрение на ошибочной предпосылке, Claude может быть удивительно медленным в распознавании того, что ошибка в его собственной базе знаний сбивает его игру в Pokémon с пути.

‘Вещи, которые записаны в прошлом, он как бы слепо им доверяет’, - сказал Херши. ‘Я видел, как он был очень убежден, что нашел выход из [внутриигровой локации] Виридианского леса в определенных координатах, а затем он часами исследует небольшой квадрат вокруг этих координат, которые неверны, вместо того, чтобы делать что-либо еще. Ему требуется очень много времени, чтобы решить, что это был ‘провал’’.

Несмотря на эти проблемы, Херши отметил, что Claude 3.7 Sonnet значительно лучше, чем более ранние модели, в ‘сомнении в своих предположениях, опробовании новых стратегий и отслеживании различных стратегий в течение длительного времени, чтобы [увидеть], работают они или нет’. Хотя новая модель все еще ‘борется в течение очень длительных периодов времени’, повторяя одни и те же действия, она в конечном итоге имеет тенденцию ‘получать представление о том, что происходит и что она пробовала раньше, и она много раз натыкается на реальный прогресс из этого’, - сказал Херши.

Путь вперед

Одним из самых интересных аспектов наблюдения за Claude Plays Pokémon в нескольких итерациях, по словам Херши, является то, как прогресс и стратегия системы могут значительноразличаться между запусками. Иногда Claude демонстрирует свою ‘способность на самом деле строить довольно последовательную стратегию’, ‘сохраняя подробные заметки о различных путях, которые нужно попробовать’, - объяснил он. Но ‘большую часть времени он этого не делает… большую часть времени он упирается в стену, потому что уверен, что видит выход’.

Одним из основных ограничений текущей версии Claude, по словам Херши, является то, что ‘когда он выводит эту хорошую стратегию, я не думаю, что у него обязательно есть самосознание, чтобы знать, что одна стратегия, которую он придумал, лучше другой’. И это, как он признал, нетривиальная проблема для решения.

Тем не менее, Херши видит ‘низко висящие фрукты’ для улучшения игры Claude в Pokémon, улучшая понимание моделью скриншотов Game Boy. ‘Я думаю, есть шанс, что он сможет пройти игру, если у него будет идеальное представление о том, что находится на экране’, - сказал он, предположив, что такая модель, вероятно, будет работать ‘немного хуже человека’.

Расширение контекстного окна для будущих моделей Claude также, вероятно, позволит им ‘рассуждать в течение более длительных периодов времени и более последовательно обрабатывать вещи в течение длительного периода времени’, - добавил Херши. Будущие модели улучшатся, ‘немного лучше запоминая, отслеживая последовательный набор того, что ему нужно попробовать, чтобы добиться прогресса’, - сказал он.

Хотя перспектива неизбежных улучшений в моделях ИИ неоспорима, текущая производительность Claude в Pokémon не предполагает, что он находится на пороге наступления эры искусственного интеллекта человеческого уровня, полностью обобщаемого. Херши признал, что наблюдение за тем, как Claude 3.7 Sonnet застревает на Горе Луны в течение 80 часов, может создать впечатление, что ‘это модель, которая не знает, что делает’.

Однако Херши по-прежнему впечатлен случайными проблесками осознанности, которые демонстрирует новая модель рассуждения Claude, отмечая, что она иногда ‘как бы говорит, что не знает, что делает, и знает, что ей нужно делать что-то другое. И разница между ‘вообще не могу этого сделать’ и ‘могу как бы сделать это’ - довольно большая для меня в этих вещах ИИ’, - продолжил он. ‘Знаете, когда что-то может как бы что-то сделать, это обычно означает, что мы довольно близки к тому, чтобы заставить его делать что-то действительно, действительно хорошо’.