앤트로픽의 클로드가 아직 포켓몬을 깨지 못한 이유

AGI의 약속

인공지능 분야에서 ‘인공 일반 지능’(AGI)의 개념은 매우 매력적인 전망이 되고 있습니다. 업계 리더들은 점점 더 우리가 광범위한 인지 작업에서 인간의 이해와 수행 능력을 따라잡거나 심지어 능가할 수 있는 가상 에이전트를 만드는 시점에 와 있다고 제안하고 있습니다. 이러한 기대는 기술 기업들 간의 경쟁에 불을 붙였고, 각 기업은 이 획기적인 이정표를 달성하기 위해 노력하고 있습니다.

OpenAI는 AI 분야의 주요 업체로, ‘PhD 수준’ AI 에이전트의 임박한 등장을 암시하고 있습니다. 그들은 이 에이전트가 자율적으로 작동하여 ‘고소득 지식 근로자’ 수준에서 수행할 수 있다고 제안합니다. 야심 찬 기업가인 Elon Musk는 2025년 말까지 ‘어떤 인간보다 똑똑한’ AI를 갖게 될 것이라고 더 대담한 예측을 했습니다. 또 다른 저명한 AI 회사인 Anthropic의 CEO인 Dario Amodei는 약간 더 보수적인 타임라인을 제시하지만, 2027년 말까지 AI가 ‘거의 모든 면에서 인간보다 나을 수 있다’고 제안하며 비슷한 비전을 공유합니다.

Anthropic의 ‘Claude Plays Pokémon’ 실험

이러한 야심 찬 예측을 배경으로 Anthropic은 지난달 ‘Claude Plays Pokémon’ 실험을 소개했습니다. 예측된 AGI 미래를 향한 단계로 제시된 이 프로젝트는 ‘단순한 훈련뿐만 아니라 일반화된 추론을 통해 점점 더 유능하게 도전에 대처하는 AI 시스템의 희미한 빛’을 보여주는 것으로 설명되었습니다. Anthropic은 Claude 3.7 Sonnet의 ‘향상된 추론 능력’이 회사의 최신 모델이 고전 Game Boy RPG인 Pokémon에서 ‘이전 모델은 거의 달성할 희망이 없었던’ 방식으로 진전을 이루도록 어떻게 가능하게 했는지 강조함으로써 상당한 주목을 받았습니다.

회사는 Claude 3.7 Sonnet의 ‘확장된 사고’가 새로운 모델이 ‘미리 계획하고, 목표를 기억하고, 초기 전략이 실패할 때 적응’할 수 있도록 했다고 강조했습니다. Anthropic은 이것들이 ‘픽셀화된 체육관 관장과 싸우는 데 중요한 기술이며, 실제 문제를 해결하는 데도 중요하다고 가정합니다.’라고 주장했습니다. 그 의미는 분명했습니다. Pokémon에서 Claude의 진전은 단순한 게임이 아니라 복잡한 실제 문제를 해결할 수 있는 AI의 능력이 커지고 있음을 보여주는 것이었습니다.

현실 점검: Claude의 어려움

그러나 Claude의 Pokémon 성능을 둘러싼 초기 흥분은 현실에 의해 누그러졌습니다. Claude 3.7 Sonnet이 이전 모델보다 성능이 뛰어난 것은 분명하지만, 게임을 마스터하지는 못했습니다. Twitch의 수천 명의 시청자는 Claude의 계속되는 어려움을 목격했으며, 잦은 실수와 비효율성을 관찰했습니다.

이동 사이에 ‘사고’를 잠시 멈추는 동안(시청자는 시스템의 시뮬레이션된 추론 프로세스를 관찰할 수 있음) Claude는 종종 다음과 같은 상황에 처합니다.

  • 완료된 마을 재방문: AI는 이미 탐험한 지역으로 자주 돌아가는데, 뚜렷한 목적이 없어 보입니다.
  • 막다른 구석에 갇힘: Claude는 종종 지도의 구석에 오랫동안 갇혀 길을 찾지 못합니다.
  • 도움이 되지 않는 NPC와 반복적으로 상호 작용: AI는 동일한 비플레이어 캐릭터와 반복해서 쓸데없는 대화를 나누는 것으로 관찰되었습니다.

인간 이하의 게임 내 성능에 대한 이러한 예는 일부 사람들이 상상하는 초지능과는 거리가 먼 그림을 그립니다. 어린이를 위해 설계된 게임으로 어려움을 겪는 Claude를 보면, 우리가 새로운 컴퓨터 지능 시대의 새벽을 목격하고 있다고 상상하기는 어렵습니다.

인간 이하의 성능에서 얻은 교훈

Claude의 현재 Pokémon 성능은 단점에도 불구하고 일반화된 인간 수준의 인공 지능을 향한 지속적인 탐구에 대한 귀중한 통찰력을 제공합니다. 심지어 그 어려움조차도 미래의 개발 노력을 알릴 수 있는 중요한 교훈을 담고 있습니다.

어떤 의미에서 Claude가 Pokémon을 플레이할 수 있다는 것은 놀라운 일입니다. Go 및 Dota 2와 같은 게임을 위한 AI 시스템을 개발할 때 엔지니어는 일반적으로 알고리즘에 게임의 규칙과 전략에 대한 광범위한 지식과 학습을 안내하는 보상 기능을 제공합니다. 반대로, Claude Plays Pokémon 프로젝트의 개발자인 David Hershey는 Pokémon 게임을 플레이하도록 특별히 훈련되거나 조정되지 않은 수정되지 않은 일반화된 Claude 모델로 시작했습니다.

Hershey는 Ars에게 “이것은 순전히 [Claude]가 세상에 대해 이해하는 다양한 다른 것들이 비디오 게임을 가리키는 데 사용되는 것입니다.”라고 설명했습니다. “그래서 포켓몬에 대한 감각이 있습니다. claude.ai에 가서 포켓몬에 대해 물어보면, 읽은 내용을 바탕으로 포켓몬이 무엇인지 압니다… 물어보면 체육관 배지가 8개라고 말하고, 첫 번째는 Brock이라고 말할 것입니다… 대략적인 구조를 알고 있습니다.”

시각적 해석의 어려움

Claude는 게임 상태 정보를 위해 주요 Game Boy RAM 주소를 모니터링하는 것 외에도 인간 플레이어와 마찬가지로 게임의 시각적 출력을 해석합니다. 그러나 최근 AI 이미지 처리의 발전에도 불구하고 Claude는 여전히 Game Boy 스크린샷의 저해상도 픽셀화된 세계를 인간과 동일한 정확도로 해석하는 데 어려움을 겪습니다.

Hershey는 “Claude는 여전히 화면에 무엇이 있는지 이해하는 데 특히 능숙하지 않습니다.”라고 인정했습니다. “벽으로걸어 들어가려는 시도를 항상 볼 수 있습니다.”

Hershey는 Claude의 훈련 데이터에 Game Boy 화면과 유사한 이미지에 대한 자세한 텍스트 설명이 없을 가능성이 있다고 의심합니다. 이것은 다소 직관에 반하는 것처럼 보이지만 Claude가 실제로 더 사실적인 이미지로 더 나은 성능을 발휘할 수 있음을 의미합니다.

Hershey는 “8x8 픽셀 덩어리의 사람들을 보고 ‘파란 머리를 가진 소녀’라고 말할 수 있다는 것은 인간의 재미있는 점 중 하나입니다.”라고 말했습니다. “사람들은 실제 세계에서 이해하고 파악할 수 있는 능력을 가지고 있다고 생각합니다… 그래서 Claude가 화면에 사람이 있다는 것을 볼 수 있을 만큼 훌륭하다는 것이 솔직히 놀랍습니다.”

서로 다른 강점, 서로 다른 약점

완벽한 시각적 해석을 사용하더라도 Hershey는 Claude가 인간에게는 사소한 2D 탐색 문제로 여전히 어려움을 겪을 것이라고 믿습니다. “저는 [게임 내] 건물이 건물이고 건물을 통과할 수 없다는 것을 이해하는 것이 매우 쉽습니다.”라고 그는 말했습니다. “그리고 그것은 Claude가 이해하기 매우 어려운 [것]입니다… 그것은 단지 다른 방식으로 똑똑하기 때문에 재미있습니다. 아시겠죠?”

Hershey에 따르면 Claude가 뛰어난 부분은 게임의 텍스트 기반 측면입니다. 전투 중에 Claude는 게임이 전기 유형 포켓몬의 공격이 바위 유형 상대에게 ‘별로 효과적이지 않다’고 표시할 때 쉽게 알아차립니다. 그런 다음 이 정보를 나중에 참조할 수 있도록 방대한 서면 지식 기반에 저장합니다. Claude는 또한 여러 지식을 정교한 전투 전략에 통합하고 이러한 전략을 포켓몬 팀을 잡고 관리하기 위한 장기 계획으로 확장할 수도 있습니다.

Claude는 게임의 텍스트가 의도적으로 오해의 소지가 있거나 불완전한 경우에도 놀라운 ‘지능’을 보여줍니다. Hershey는 플레이어가 옆집에서 Oak 교수를 찾으라는 지시를 받았지만 그가 거기에 없다는 것을 알게 되는 초기 게임 작업을 인용했습니다. “5살 때, 그것은 저에게 매우 혼란스러웠습니다.”라고 Hershey는 말했습니다. “그러나 Claude는 실제로 일반적으로 엄마와 이야기하고, 실험실에 가고, [Oak]를 찾지 못하고, ‘뭔가를 알아내야 합니다’…라고 말하는 것과 같은 일련의 동작을 거칩니다. [인간이] 실제로 그것을 배우는 방식을 따라갈 만큼 충분히 정교합니다.”

Hershey는 이러한 대조적인 강점과 약점이 인간 수준의 플레이와 비교하여 AI 연구 및 기능의 전반적인 상태를 반영한다고 설명했습니다. “저는 그것이 이러한 모델에 대한 보편적인 종류의 것이라고 생각합니다… 우리는 먼저 텍스트 측면을 구축했고 텍스트 측면은 확실히… 더 강력합니다. 이러한 모델이 이미지에 대해 추론하는 방법은 점점 더 좋아지고 있지만, 저는 그것이 꽤 뒤떨어져 있다고 생각합니다.”

기억의 한계

시각 및 텍스트 해석의 어려움을 넘어 Hershey는 Claude가 배운 것을 ‘기억’하는 데 어려움을 겪는다는 것을 인정했습니다. 현재 모델에는 200,000개의 토큰의 ‘컨텍스트 창’이 있어 주어진 시간에 ‘메모리’에 저장할 수 있는 관계 정보의 양이 제한됩니다. 시스템의 확장되는 지식 기반이 이 창을 채우면 Claude는 정교한 요약 프로세스를 거쳐 자세한 메모를 더 짧은 요약으로 압축하여 필연적으로 세부 정보를 잃게 됩니다.

이것은 Claude가 “매우 오랫동안 상황을 추적하고 지금까지 시도한 것에 대한 훌륭한 감각을 갖는 데 어려움을 겪을 수 있습니다.”라고 Hershey는 말했습니다. “확실히 가끔 삭제해서는 안 되는 것을 삭제하는 것을 볼 수 있습니다. 지식 기반이나 요약에 없는 것은 사라질 것이므로 거기에 무엇을 넣을지 생각해야 합니다.”

잘못된 정보의 위험

중요한 정보를 잊는 것보다 더 문제가 되는 것은 Claude가 실수로 잘못된 정보를 지식 기반에 삽입하는 경향입니다. 결함이 있는 전제에 세계관을 구축하는 음모 이론가처럼 Claude는 자체 작성한 지식 기반의 오류가 Pokémon 플레이를 잘못된 방향으로 이끌고 있다는 것을 인식하는 데 놀라울 정도로 느릴 수 있습니다.

Hershey는 “과거에 기록된 것들을 꽤 맹목적으로 신뢰합니다.”라고 말했습니다. “저는 그것이 [게임 내 위치] Viridian Forest의 출구를 특정 좌표에서 찾았다고 매우 확신하는 것을 보았고, 그런 다음 다른 일을 하는 대신 잘못된 좌표 주변의 작은 정사각형을 탐험하는 데 몇 시간을 보냅니다. 그것이 ‘실패’라고 결정하는 데 매우 오랜 시간이 걸립니다.”

이러한 어려움에도 불구하고 Hershey는 Claude 3.7 Sonnet이 이전 모델보다 ‘가정에 의문을 제기하고, 새로운 전략을 시도하고, 다양한 전략이 작동하는지 여부를 장기간에 걸쳐 추적하는 데’ 훨씬 더 낫다고 언급했습니다. 새로운 모델은 여전히 동일한 작업을 다시 시도하는 데 ‘정말 오랜 시간 동안 어려움을 겪고’ 있지만 궁극적으로 ‘무슨 일이 일어나고 있는지, 이전에 무엇을 시도했는지에 대한 감각을 얻고 많은 경우 실제 진행으로 비틀거리는 경향이 있습니다.’라고 Hershey는 말했습니다.

앞으로 나아갈 길

Hershey는 여러 반복에 걸쳐 Claude Plays Pokémon을 관찰하는 가장 매력적인 측면 중 하나는 시스템의 진행 상황과 전략이 실행 간에 크게 달라질 수 있다는 것을 보는 것이라고 말했습니다. 때때로 Claude는 ‘시도할 다양한 경로에 대한 자세한 메모를 유지’함으로써 ‘실제로 꽤 일관된 전략을 구축할 수 있음’을 보여줍니다. 그러나 ‘대부분의 경우 그렇지 않습니다… 대부분의 경우 출구를 볼 수 있다고 확신하기 때문에 벽으로 방황합니다.’

Hershey에 따르면 현재 버전의 Claude의 주요 제한 사항 중 하나는 ‘좋은 전략을 도출할 때, [그것이] 생각해 낸 한 전략이 다른 전략보다 낫다는 것을 알 수 있는 자기 인식이 반드시 있다고 생각하지 않습니다.’ 그리고 그것은 해결하기 쉬운 문제가 아니라고 그는 인정했습니다.

그럼에도 불구하고 Hershey는 Game Boy 스크린샷에 대한 모델의 이해를 향상시켜 Claude의 Pokémon 플레이를 개선할 수 있는 ‘낮은 과일’을 봅니다. “화면에 무엇이 있는지 완벽하게 파악할 수 있다면 게임을 이길 수 있는 기회가 있다고 생각합니다.”라고 그는 말하며 그러한 모델이 ‘인간보다 약간 부족한’ 성능을 보일 것이라고 제안했습니다.

미래의 Claude 모델에 대한 컨텍스트 창을 확장하면 ‘더 긴 시간 프레임에 대해 추론하고 장기간에 걸쳐 더 일관되게 처리’할 수 있을 것이라고 Hershey는 덧붙였습니다. 미래의 모델은 ‘기억하고, 진행하기 위해 시도해야 할 일관된 세트를 추적하는 데 조금 더 나아짐’으로써 개선될 것이라고 그는 말했습니다.

AI 모델의 임박한 개선에 대한 전망은 부인할 수 없지만 Claude의 현재 Pokémon 성능은 인간 수준의 완전히 일반화 가능한 인공 지능 시대를 여는 직전에 있음을 시사하지 않습니다. Hershey는 Claude 3.7 Sonnet이 Mt. Moon에서 80시간 동안 갇혀 있는 것을 보면 ‘무엇을 하고 있는지 모르는 모델처럼 보일 수 있습니다.’라고 인정했습니다.

그러나 Hershey는 Claude의 새로운 추론 모델이 보여주는 가끔씩의 인식의 희미함에 여전히 감명을 받았으며, 때로는 ‘자신이 무엇을 하고 있는지 모르고 다른 것을 해야 한다는 것을 알고 있다는 것을 알 수 있습니다. 그리고 ‘전혀 할 수 없다’와 ‘할 수 있다’의 차이는 이러한 AI에게는 꽤 큰 차이입니다.’라고 그는 계속했습니다. ‘무언가를 할 수 있다는 것은 일반적으로 무언가를 정말 잘 할 수 있게 되는 데 매우 가깝다는 것을 의미합니다.’