Vì sao Claude của Anthropic chưa thắng Pokémon

Lời hứa hẹn của AGI

Trong lĩnh vực trí tuệ nhân tạo (AI) đang phát triển mạnh mẽ, khái niệm “trí tuệ nhân tạo tổng quát” (AGI) đã trở thành một triển vọng đầy hấp dẫn. Các nhà lãnh đạo trong ngành ngày càng cho rằng chúng ta đang trên đà tạo ra các tác nhân ảo có khả năng sánh ngang, hoặc thậm chí vượt qua, sự hiểu biết và hiệu suất của con người trong một loạt các nhiệm vụ nhận thức. Sự mong đợi này đã thúc đẩy một cuộc đua giữa các công ty công nghệ, mỗi công ty đều cố gắng trở thành người đầu tiên đạt được cột mốc đột phá này.

OpenAI, một công ty lớn trong lĩnh vực AI, đang ngầm ám chỉ về sự xuất hiện sắp tới của một tác nhân AI “cấp độ tiến sĩ”. Họ cho rằng tác nhân này có thể hoạt động tự động, ở mức độ của một “nhân viên tri thức có thu nhập cao”. Elon Musk, doanh nhân đầy tham vọng, đã đưa ra những dự đoán táo bạo hơn, tuyên bố rằng chúng ta có thể sẽ có AI “thông minh hơn bất kỳ con người nào” vào cuối năm 2025. Dario Amodei, CEO của Anthropic, một công ty AI nổi bật khác, đưa ra một mốc thời gian thận trọng hơn một chút nhưng chia sẻ một tầm nhìn tương tự, cho rằng AI có thể “giỏi hơn con người ở hầu hết mọi thứ” vào cuối năm 2027.

Thử nghiệm “Claude chơi Pokémon” của Anthropic

Trong bối cảnh những dự đoán đầy tham vọng này, Anthropic đã giới thiệu thử nghiệm “Claude chơi Pokémon” vào tháng trước. Dự án này, được trình bày như một bước tiến tới tương lai AGI được dự đoán, được mô tả là thể hiện “những tia sáng của các hệ thống AI giải quyết các thách thức với năng lực ngày càng tăng, không chỉ thông qua đào tạo mà còn bằng lý luận tổng quát”. Anthropic đã thu hút sự chú ý đáng kể bằng cách nhấn mạnh cách “khả năng lý luận được cải thiện” của Claude 3.7 Sonnet cho phép mô hình mới nhất của công ty đạt được tiến bộ trong trò chơi RPG Game Boy cổ điển, Pokémon, theo những cách mà “các mô hình cũ hơn ít có hy vọng đạt được”.

Công ty nhấn mạnh rằng “suy nghĩ mở rộng” của Claude 3.7 Sonnet cho phép mô hình mới “lập kế hoạch trước, ghi nhớ các mục tiêu của nó và thích ứng khi các chiến lược ban đầu thất bại”. Anthropic lập luận rằng đây là “những kỹ năng quan trọng để chiến đấu với các thủ lĩnh phòng gym pixel. Và, chúng tôi cho rằng, trong việc giải quyết các vấn đề trong thế giới thực”. Hàm ý rất rõ ràng: Tiến bộ của Claude trong Pokémon không chỉ là một trò chơi; đó là một minh chứng cho khả năng đang phát triển của AI để giải quyết các thách thức phức tạp trong thế giới thực.

Kiểm tra thực tế: Những khó khăn của Claude

Tuy nhiên, sự phấn khích ban đầu xung quanh hiệu suất Pokémon của Claude đã bị giảm bớt bởi một liều thuốc thực tế. Mặc dù Claude 3.7 Sonnet chắc chắn vượt trội hơn các phiên bản tiền nhiệm, nhưng nó vẫn chưa đạt được sự thành thạo trong trò chơi. Hàng ngàn người xem trên Twitch đã chứng kiến những khó khăn liên tục của Claude, quan sát những sai lầm và sự kém hiệu quả thường xuyên của nó.

Mặc dù có những khoảng dừng “suy nghĩ” kéo dài giữa các nước đi – trong đó người xem có thể quan sát quá trình lý luận mô phỏng của hệ thống – Claude thường thấy mình:

  • Thăm lại các thị trấn đã hoàn thành: AI thường xuyên quay trở lại các khu vực mà nó đã khám phá, dường như không có mục đích.
  • Mắc kẹt trong các góc khuất: Claude thường bị mắc kẹt trong các góc của bản đồ trong thời gian dài, không thể tìm ra lối thoát.
  • Tương tác lặp đi lặp lại với các NPC không hữu ích: AI đã được quan sát thấy tham gia vào các cuộc trò chuyện vô ích với cùng một nhân vật không phải người chơi lặp đi lặp lại.

Những ví dụ này về hiệu suất trong trò chơi rõ ràng là dưới mức con người vẽ ra một bức tranh khác xa với siêu trí tuệ mà một số người hình dung. Nhìn Claude vật lộn với một trò chơi được thiết kế cho trẻ em, thật khó để tưởng tượng rằng chúng ta đang chứng kiến sự khởi đầu của một kỷ nguyên mới của trí thông minh máy tính.

Bài học từ hiệu suất dưới mức con người

Bất chấp những thiếu sót của nó, mức độ hiệu suất Pokémon hiện tại của Claude cung cấp những hiểu biết có giá trị về nhiệm vụ đang diễn ra để tìm kiếm trí tuệ nhân tạo tổng quát, ở cấp độ con người. Ngay cả những khó khăn của nó cũng chứa đựng những bài học quan trọng có thể cung cấp thông tin cho các nỗ lực phát triển trong tương lai.

Theo một nghĩa nào đó, thật đáng chú ý khi Claude có thể chơi Pokémon. Khi phát triển các hệ thống AI cho các trò chơi như Go và Dota 2, các kỹ sư thường cung cấp cho các thuật toán của họ kiến thức sâu rộng về các quy tắc và chiến lược của trò chơi, cùng với một hàm phần thưởng để hướng dẫn việc học của chúng. Ngược lại, David Hershey, nhà phát triển đằng sau dự án Claude chơi Pokémon, đã bắt đầu với một mô hình Claude tổng quát, chưa được sửa đổi, chưa được đào tạo hoặc điều chỉnh cụ thể để chơi các trò chơi Pokémon.

Hershey giải thích với Ars, “Đây hoàn toàn là những thứ khác nhau mà [Claude] hiểu về thế giới được sử dụng để chỉ vào các trò chơi điện tử”. Ông nói thêm, “Vì vậy, nó có cảm giác về một Pokémon. Nếu bạn truy cập claude.ai và hỏi về Pokémon, nó biết Pokémon là gì dựa trên những gì nó đã đọc… Nếu bạn hỏi, nó sẽ cho bạn biết có tám huy hiệu phòng gym, nó sẽ cho bạn biết cái đầu tiên là Brock… nó biết cấu trúc rộng.”

Những thách thức của việc giải thích hình ảnh

Ngoài việc theo dõi các địa chỉ RAM Game Boy chính để biết thông tin trạng thái trò chơi, Claude còn diễn giải đầu ra hình ảnh của trò chơi giống như một người chơi là con người. Tuy nhiên, bất chấp những tiến bộ gần đây trong xử lý hình ảnh AI, Claude vẫn gặp khó khăn trong việc diễn giải thế giới pixel, độ phân giải thấp của ảnh chụp màn hình Game Boy với độ chính xác tương tự như con người.

“Claude vẫn chưa thực sự giỏi trong việc hiểu những gì trên màn hình”, Hershey thừa nhận. “Bạn sẽ thấy nó cố gắng đi vào tường mọi lúc.”

Hershey nghi ngờ rằng dữ liệu đào tạo của Claude có thể thiếu các mô tả văn bản chi tiết về các hình ảnh giống với màn hình Game Boy. Điều này có nghĩa là, hơi ngược đời, Claude thực sự có thể hoạt động tốt hơn với hình ảnh thực tế hơn.

“Đó là một trong những điều thú vị về con người mà chúng ta có thể nheo mắt nhìn những đốm màu tám nhân tám pixel của con người và nói, ‘Đó là một cô gái có mái tóc màu xanh’”, Hershey lưu ý. “Mọi người, tôi nghĩ, có khả năng ánh xạ từ thế giới thực của chúng ta để hiểu và sắp xếp… vì vậy tôi thực sự ngạc nhiên khi Claude có thể nhìn thấy có một người trên màn hình.”

Điểm mạnh khác nhau, điểm yếu khác nhau

Ngay cả với khả năng diễn giải hình ảnh hoàn hảo, Hershey tin rằng Claude vẫn sẽ gặp khó khăn với những thử thách điều hướng 2D vốn rất đơn giản đối với con người. “Tôi khá dễ dàng hiểu rằng [một tòa nhà trong trò chơi] là một tòa nhà và tôi không thể đi xuyên qua một tòa nhà”, ông nói. “Và đó là [điều gì đó] khá thách thức đối với Claude để hiểu… Thật buồn cười vì nó chỉ thông minh theo những cách khác nhau, bạn biết không?”

Theo Hershey, Claude vượt trội ở các khía cạnh dựa trên văn bản nhiều hơn của trò chơi. Trong các trận chiến, Claude dễ dàng nhận thấy khi trò chơi chỉ ra rằng đòn tấn công của Pokémon hệ điện “không hiệu quả lắm” đối với đối thủ hệ đá. Sau đó, nó lưu trữ thông tin này trong cơ sở kiến thức bằng văn bản rộng lớn của mình để tham khảo trong tương lai. Claude cũng có thể tích hợp nhiều phần kiến thức vào các chiến lược chiến đấu phức tạp, thậm chí mở rộng các chiến lược này thành các kế hoạch dài hạn để bắt và quản lý các đội Pokémon.

Claude thậm chí còn thể hiện “trí thông minh” đáng ngạc nhiên khi văn bản của trò chơi cố tình gây hiểu lầm hoặc không đầy đủ. Hershey đã trích dẫn một nhiệm vụ đầu trò chơi, nơi người chơi được yêu cầu tìm Giáo sư Oak ở nhà bên cạnh, chỉ để phát hiện ra rằng ông ấy không có ở đó. “Khi còn là một đứa trẻ 5 tuổi, điều đó rất khó hiểu đối với tôi”, Hershey nói. “Nhưng Claude thực sự thường trải qua cùng một chuỗi hành động, nơi nó nói chuyện với mẹ, đến phòng thí nghiệm, không tìm thấy [Oak], nói, ‘Tôi cần phải tìm ra điều gì đó’… Nó đủ tinh vi để thực hiện các động tác theo cách mà [con người] thực sự phải học nó.”

Hershey giải thích, những điểm mạnh và điểm yếu tương phản này, so với cách chơi ở cấp độ con người, phản ánh trạng thái tổng thể của nghiên cứu và khả năng AI. “Tôi nghĩ đó chỉ là một điều phổ quát về các mô hình này… Chúng tôi đã xây dựng phần văn bản trước và phần văn bản chắc chắn… mạnh hơn. Cách các mô hình này có thể suy luận về hình ảnh đang trở nên tốt hơn, nhưng tôi nghĩ nó còn kém một chút.”

Giới hạn của bộ nhớ

Ngoài những thách thức với việc diễn giải hình ảnh và văn bản, Hershey thừa nhận rằng Claude gặp khó khăn trong việc “ghi nhớ” những gì nó đã học được. Mô hình hiện tại có “cửa sổ ngữ cảnh” gồm 200.000 token, giới hạn lượng thông tin quan hệ mà nó có thể lưu trữ trong “bộ nhớ” của mình tại bất kỳ thời điểm nào. Khi cơ sở kiến thức mở rộng của hệ thống lấp đầy cửa sổ này, Claude trải qua một quá trình tóm tắt phức tạp, cô đọng các ghi chú chi tiết thành các bản tóm tắt ngắn hơn, điều này chắc chắn sẽ làm mất đi một số chi tiết nhỏ.

Điều này có thể dẫn đến việc Claude “gặp khó khăn trong việc theo dõi mọi thứ trong một thời gian rất dài và thực sự có cảm giác tốt về những gì nó đã thử cho đến nay”, Hershey nói. “Bạn chắc chắn sẽ thấy nó thỉnh thoảng xóa một thứ gì đó mà lẽ ra nó không nên xóa. Bất cứ thứ gì không có trong cơ sở kiến thức của bạn hoặc không có trong bản tóm tắt của bạn sẽ biến mất, vì vậy bạn phải suy nghĩ về những gì bạn muốn đưa vào đó.”

Nguy cơ từ thông tin không chính xác

Vấn đề hơn cả việc quên thông tin quan trọng là xu hướng Claude vô tình chèn thông tin không chính xác vào cơ sở kiến thức của mình. Giống như một người theo thuyết âm mưu xây dựng thế giới quan dựa trên một tiền đề sai lầm, Claude có thể rất chậm trong việc nhận ra khi một lỗi trong cơ sở kiến thức do chính nó tạo ra đang dẫn dắt lối chơi Pokémon của nó đi chệch hướng.

“Những điều được viết ra trong quá khứ, nó tin tưởng một cách mù quáng”, Hershey nói. “Tôi đã thấy nó trở nên rất tin rằng nó đã tìm thấy lối ra của [địa điểm trong trò chơi] Viridian Forest tại một số tọa độ cụ thể, và sau đó nó dành hàng giờ để khám phá một ô vuông nhỏ xung quanh các tọa độ sai đó thay vì làm bất cứ điều gì khác. Phải mất một thời gian rất dài để nó quyết định rằng đó là một ‘thất bại’.”

Bất chấp những thách thức này, Hershey lưu ý rằng Claude 3.7 Sonnet tốt hơn đáng kể so với các mô hình trước đó trong việc “đặt câu hỏi về các giả định của nó, thử các chiến lược mới và theo dõi trong thời gian dài các chiến lược khác nhau để [xem] liệu chúng có hoạt động hay không”. Trong khi mô hình mới vẫn “vật lộn trong thời gian rất dài” thử lại các hành động tương tự, cuối cùng nó có xu hướng “có cảm giác về những gì đang diễn ra và những gì nó đã thử trước đó, và nó vấp ngã rất nhiều lần vào tiến trình thực tế từ đó”, Hershey nói.

Con đường phía trước

Hershey cho biết, một trong những khía cạnh hấp dẫn nhất của việc quan sát Claude chơi Pokémon qua nhiều lần lặp lại là thấy cách tiến trình và chiến lược của hệ thống có thể khác nhau đáng kể giữa các lần chạy. Đôi khi, Claude thể hiện “khả năng thực sự xây dựng một chiến lược khá mạch lạc” bằng cách “giữ các ghi chú chi tiết về các con đường khác nhau để thử”, ông giải thích. Nhưng “hầu hết thời gian nó không… hầu hết thời gian, nó đi vào tường vì nó tự tin rằng nó nhìn thấy lối ra.”

Theo Hershey, một trong những hạn chế lớn của phiên bản Claude hiện tại là “khi nó rút ra chiến lược tốt đó, tôi không nghĩ rằng nó nhất thiết phải có sự tự nhận thức để biết rằng một chiến lược [nó] đưa ra tốt hơn một chiến lược khác”. Và ông thừa nhận, đó không phải là một vấn đề tầm thường để giải quyết.

Tuy nhiên, Hershey nhìn thấy “trái cây dễ hái” để cải thiện lối chơi Pokémon của Claude bằng cách nâng cao khả năng hiểu ảnh chụp màn hình Game Boy của mô hình. “Tôi nghĩ rằng có một cơ hội nó có thể đánh bại trò chơi nếu nó có một cảm giác hoàn hảo về những gì trên màn hình”, ông nói, gợi ý rằng một mô hình như vậy có thể sẽ hoạt động “kém hơn một chút so với con người”.

Hershey nói thêm, việc mở rộng cửa sổ ngữ cảnh cho các mô hình Claude trong tương lai cũng có thể cho phép chúng “suy luận trong khung thời gian dài hơn và xử lý mọi thứ mạch lạc hơn trong một khoảng thời gian dài”. Ông nói, các mô hình trong tương lai sẽ cải thiện bằng cách “tốt hơn một chút trong việc ghi nhớ, theo dõi một tập hợp mạch lạc những gì nó cần thử để đạt được tiến bộ”.

Mặc dù triển vọng về những cải tiến sắp tới trong các mô hình AI là không thể phủ nhận, hiệu suất Pokémon hiện tại của Claude không cho thấy rằng nó đang trên đà mở ra một kỷ nguyên trí tuệ nhân tạo tổng quát, ở cấp độ con người. Hershey thừa nhận rằng việc xem Claude 3.7 Sonnet bị mắc kẹt trên Mt. Moon trong 80 giờ có thể khiến nó “có vẻ như một mô hình không biết nó đang làm gì”.

Tuy nhiên, Hershey vẫn ấn tượng bởi những tia sáng nhận thức thỉnh thoảng mà mô hình lý luận mới của Claude hiển thị, lưu ý rằng đôi khi nó sẽ “cho biết rằng nó không biết nó đang làm gì và biết rằng nó cần phải làm một điều gì đó khác. Và sự khác biệt giữa ‘không thể làm được gì cả’ và ‘có thể làm được một chút’ là một sự khác biệt khá lớn đối với những thứ AI này đối với tôi”, ông tiếp tục. “Bạn biết đấy, khi một thứ gì đó có thể làm được một chút, điều đó thường có nghĩa là chúng ta đã khá gần để có thể làm điều đó thực sự, thực sự tốt.”