Claude AI на Anthropic играе Pokémon

Нестандартен тест за разсъждение

Anthropic, водеща компания за изследвания в областта на изкуствения интелект, предприе уникален експеримент, за да тества възможностите на най-новия си AI модел, Claude 3.7 Sonnet. Вместо традиционните бенчмаркове, Anthropic избра по-нестандартен подход: да накара AI да играе Pokémon Red в предаване на живо в Twitch. Това начинание привлече вниманието на разнообразна аудитория, тъй като зрителите се включват, за да станат свидетели на бавния, но обмислен напредък на AI в класическата игра за Game Boy.

Защо Pokémon? Изненадващо сложно предизвикателство

На пръв поглед, Pokémon Red, игра, предназначена предимно за деца, може да изглежда странен избор за оценка на авангарден AI. Играта обаче представя изненадващо сложен набор от предизвикателства, които изискват логическо мислене, решаване на проблеми и стратегическо планиране. Това са именно областите, в които Anthropic се стреми да разшири границите на развитието на AI.

Отвореният свят на играта, с безбройните си взаимосвързани пъзели, препятствия и взаимодействия с герои, предоставя богата среда за тестване на способността на AI да:

  • Разбира и реагира на инструкции на естествен език: AI трябва да интерпретира текстови команди и обратна връзка от средата на играта.
  • Формулира краткосрочни и дългосрочни цели: От избора на правилния Pokémon за битка до навигирането по сложни маршрути, AI трябва да планира предварително.
  • Адаптира се към неочаквани ситуации: Играта е пълна със случайни срещи и непредсказуеми събития, принуждавайки AI да коригира стратегиите си в движение.
  • Учи се от опита: AI трябва да помни минали успехи и неуспехи, за да подобри представянето си с течение на времето.

Бавен и стабилен напредък: Пътешествието на AI

Предаването на живо разкри завладяващо, макар и често бавно, пътешествие на Claude 3.7 Sonnet през света на Pokémon. Играта на AI се характеризира със смесица от впечатляващи постижения на разсъждение и моменти на пълно объркване.

В ранните етапи AI се бореше дори с най-основните задачи. Напускането на началния град, задача, която човешки играч би могъл да изпълни за минути, се оказа значително препятствие за Claude. Той прекара часове в борба с контролите и пространственото оформление на играта, често засядайки в ъгли или многократно взаимодействайки със същите обекти.

С напредването на стрийма обаче AI започна да демонстрира нарастващо разбиране на механиката на играта. Той се научи как да:

  1. Навигира през различни области.
  2. Участва в битки с други треньори на Pokémon.
  3. Улавя диви Pokémon.
  4. Използва предмети стратегически.
  5. Дори побеждава няколко лидери на зали, основен етап в играта.

Моменти на брилянтност и фрустрация

Моментите на брилянтност на AI често са осеяни с периоди на фрустриращо бездействие или привидно нелогични решения. Имаше случаи, в които Claude:

  • Се фиксира върху привидно незначителни обекти, като скална стена, прекарвайки часове в опити да взаимодейства с нея, преди най-накрая да намери начин да я заобиколи.
  • Вземаше озадачаващи решения в битка, като например използване на неефективни ходове или преминаване към по-слаби Pokémon.
  • Засядаше в цикли, повтаряйки едни и същи действия отново и отново, без да постига никакъв напредък.

Тези моменти подчертават съществените предизвикателства при разработването на AI, който може наистина да разбира и взаимодейства със сложни, динамични среди. Въпреки че Claude 3.7 Sonnet е постигнал значителен напредък в разсъжденията и решаването на проблеми, той все още има дълъг път, преди да може да се сравни с интуитивното разбиране и адаптивността на човешки играч.

Поклон към миналото: ‘Twitch Plays Pokémon’

Този експеримент неизбежно предизвиква сравнения с вирусния феномен ‘Twitch Plays Pokémon’, който завладя интернет преди няколко години. В този експеримент хиляди зрители на Twitch си сътрудничиха, за да контролират един герой в Pokémon Red, използвайки текстови команди в чата. Резултатът беше хаотичен, но в крайна сметка успешен преход, воден от колективния интелект (и случайния тролинг) на онлайн общността.

Експериментът на Anthropic обаче представлява значително отклонение от този модел на сътрудничество. Тук AI играе самостоятелно, опитвайки се да се справи с предизвикателствата на играта без никаква човешка намеса. Тази промяна от колективна човешка игра към индивидуален AI контрол предизвика смесени реакции от страна на зрителите. Някои се възхищават на технологичния прогрес, докато други се оплакват от загубата на споделеното преживяване и непредсказуемия хумор, които характеризираха ‘Twitch Plays Pokémon’.

По-широката картина: Последици за развитието на AI

Отвъд развлекателната стойност, експериментът с Pokémon на Anthropic има по-широки последици за областта на развитието на AI. Той предоставя ценна информация за силните и слабите страни на настоящите AI модели, особено в областите на:

  • Обработка на естествен език: Способността на AI да разбира и реагира на текстова информация в играта е от решаващо значение за неговия успех.
  • Учене с подсилване: AI се учи чрез проби и грешки, като постепенно подобрява представянето си въз основа на наградите и наказанията, които получава в играта.
  • Генерализация: Способността на AI да прилага наученото в една ситуация към нови, непознати ситуации е ключова за дългосрочния му напредък.

Изучавайки как Claude 3.7 Sonnet се справя с предизвикателствата на Pokémon Red, изследователите на Anthropic могат да придобият по-добро разбиране за това как да разработят AI системи, които са по-стабилни, адаптивни и способни да се справят със сложността на реалния свят.

Бъдещето на AI и игрите

Пресечната точка на AI и видеоигрите е бързо развиваща се област с потенциални приложения далеч отвъд развлеченията. Игрите предоставят контролирана и измерима среда за тестване и усъвършенстване на AI алгоритми, а научените уроци могат да бъдат приложени към широк спектър от проблеми в реалния свят, като например:

  • Роботика: Обучение на роботи да навигират в сложни среди и да взаимодействат с обекти.
  • Автономни превозни средства: Разработване на самоуправляващи се автомобили, които могат да вземат безопасни и надеждни решения в непредсказуеми условия на трафика.
  • Здравеопазване: Създаване на AI-базирани диагностични инструменти и персонализирани планове за лечение.
  • Образование: Проектиране на интелигентни системи за обучение, които могат да се адаптират към индивидуалните нужди на учениците.

Тъй като AI технологията продължава да напредва, можем да очакваме още по-сложни и изненадващи приложения на AI във видеоигрите и извън тях. Експериментът с Pokémon на Anthropic е само една малка стъпка в това вълнуващо пътешествие, но той предлага поглед към потенциала на AI да трансформира начина, по който живеем, работим и играем.
Играта може да е предназначена за деца, но се оказва много полезен инструмент за изследване на AI. Предизвикателствата на средата принуждават AI да развива умения за разсъждение и предлагат много възможности за учене. Въпреки че AI е далеч от съвършенството, той показа, че моделите стават все по-добри в решаването на сложни пъзели.
Експериментът предизвика спомени за ‘Twitch Plays Pokemon’, където хиляди хора работиха заедно. Сега AI се справя с тези предизвикателства самостоятелно, показвайки колко далеч е стигнала технологията. Това е голяма промяна от колективната човешка игра към машина, която играе, и показва колко много се развива AI.