ทำไม Claude ของ Anthropic ยังเล่นโปเกมอนไม่ชนะ | th

สัญญาณแห่ง AGI

ในสาขาปัญญาประดิษฐ์ที่กำลังเติบโต แนวคิดของ “ปัญญาประดิษฐ์ทั่วไป” (AGI) ได้กลายเป็นสิ่งที่น่าสนใจ ผู้นำในอุตสาหกรรมต่างก็แนะนำว่าเรากำลังอยู่ในช่วงหัวเลี้ยวหัวต่อของการสร้างตัวแทนเสมือนที่สามารถเทียบเท่า หรือแม้กระทั่งเหนือกว่า ความเข้าใจและประสิทธิภาพของมนุษย์ในงานด้านความรู้ความเข้าใจที่หลากหลาย การคาดการณ์นี้ได้กระตุ้นให้เกิดการแข่งขันระหว่างบริษัทเทคโนโลยี ซึ่งแต่ละแห่งต่างพยายามที่จะเป็นรายแรกที่บรรลุเป้าหมายที่ก้าวล้ำนี้

OpenAI ซึ่งเป็นผู้เล่นหลักในเวที AI กำลังบอกใบ้ถึงการมาถึงของตัวแทน AI “ระดับปริญญาเอก” ตัวแทนนี้ พวกเขาแนะนำว่า สามารถทำงานได้อย่างอิสระ โดยทำงานในระดับของ “พนักงานที่มีความรู้และมีรายได้สูง” Elon Musk ผู้ประกอบการที่มีความทะเยอทะยาน ได้ทำการคาดการณ์ที่กล้าหาญยิ่งกว่า โดยระบุว่าเราน่าจะมี AI ที่ “ฉลาดกว่ามนุษย์คนใดคนหนึ่ง” ภายในสิ้นปี 2025 Dario Amodei ซีอีโอของ Anthropic ซึ่งเป็นบริษัท AI ที่โดดเด่นอีกแห่งหนึ่ง ได้เสนอกรอบเวลาที่อนุรักษ์นิยมกว่าเล็กน้อย แต่มีวิสัยทัศน์ที่คล้ายคลึงกัน โดยแนะนำว่า AI อาจ “เก่งกว่ามนุษย์ในเกือบทุกด้าน” ภายในสิ้นปี 2027

การทดลอง ‘Claude Plays Pokémon’ ของ Anthropic

ท่ามกลางฉากหลังของการคาดการณ์ที่ทะเยอทะยานนี้ Anthropic ได้เปิดตัวการทดลอง ‘Claude Plays Pokémon’ เมื่อเดือนที่แล้ว โครงการนี้ นำเสนอเป็นก้าวไปสู่อนาคต AGI ที่คาดการณ์ไว้ ได้รับการอธิบายว่าเป็นการแสดงให้เห็นถึง “ประกายของระบบ AI ที่จัดการกับความท้าทายด้วยความสามารถที่เพิ่มขึ้น ไม่เพียงแต่ผ่านการฝึกอบรมเท่านั้น แต่ยังรวมถึงการใช้เหตุผลทั่วไปด้วย” Anthropic ได้รับความสนใจอย่างมากโดยเน้นว่า “ความสามารถในการใช้เหตุผลที่ได้รับการปรับปรุง” ของ Claude 3.7 Sonnet ทำให้โมเดลล่าสุดของบริษัทมีความคืบหน้าในเกม RPG คลาสสิกของ Game Boy อย่าง Pokémon ในรูปแบบที่ “โมเดลเก่ามีความหวังเพียงเล็กน้อยที่จะประสบความสำเร็จ”

บริษัทเน้นย้ำว่า “การคิดที่ขยายออกไป” ของ Claude 3.7 Sonnet ทำให้โมเดลใหม่สามารถ “วางแผนล่วงหน้า จดจำวัตถุประสงค์ และปรับตัวเมื่อกลยุทธ์เริ่มต้นล้มเหลว” สิ่งเหล่านี้ Anthropic แย้งว่า เป็น “ทักษะที่สำคัญสำหรับการต่อสู้กับหัวหน้ายิมที่เป็นพิกเซล และเราเชื่อว่าในการแก้ปัญหาในโลกแห่งความเป็นจริงด้วย” ความหมายก็คือ ความคืบหน้าของ Claude ใน Pokémon ไม่ใช่แค่เกม แต่เป็นการสาธิตความสามารถที่เพิ่มขึ้นของ AI ในการจัดการกับความท้าทายที่ซับซ้อนในโลกแห่งความเป็นจริง

การตรวจสอบความเป็นจริง: ความยากลำบากของ Claude

อย่างไรก็ตาม ความตื่นเต้นในตอนแรกเกี่ยวกับประสิทธิภาพของ Claude ใน Pokémon ได้ถูกลดทอนลงด้วยความเป็นจริง แม้ว่า Claude 3.7 Sonnet จะมีประสิทธิภาพเหนือกว่ารุ่นก่อนอย่างไม่ต้องสงสัย แต่ก็ยังไม่สามารถควบคุมเกมได้อย่างสมบูรณ์ ผู้ชมหลายพันคนบน Twitch ได้เห็นความยากลำบากอย่างต่อเนื่องของ Claude สังเกตเห็นข้อผิดพลาดและความไร้ประสิทธิภาพบ่อยครั้ง

แม้จะมีการหยุด “คิด” เป็นเวลานานระหว่างการเคลื่อนไหว ซึ่งในระหว่างนั้นผู้ชมสามารถสังเกตกระบวนการใช้เหตุผลจำลองของระบบได้ แต่ Claude มักจะพบว่าตัวเอง:

กลับไปเยี่ยมชมเมืองที่เสร็จสมบูรณ์แล้ว: AI มักจะกลับไปยังพื้นที่ที่ได้สำรวจไปแล้ว ดูเหมือนว่าจะไม่มีจุดประสงค์
ติดอยู่ในมุมอับ: Claude มักจะติดอยู่ในมุมของแผนที่เป็นเวลานาน ไม่สามารถหาทางออกได้
โต้ตอบกับ NPC ที่ไม่เป็นประโยชน์ซ้ำๆ: AI ได้รับการสังเกตว่ามีส่วนร่วมในการสนทนาที่ไร้ผลกับตัวละครที่ไม่ใช่ผู้เล่นคนเดิมซ้ำแล้วซ้ำเล่า

ตัวอย่างเหล่านี้ของประสิทธิภาพในเกมที่ต่ำกว่ามนุษย์อย่างชัดเจน วาดภาพที่ห่างไกลจากความฉลาดขั้นสูงที่บางคนจินตนาการไว้ เมื่อดู Claude ดิ้นรนกับเกมที่ออกแบบมาสำหรับเด็ก มันจึงเป็นเรื่องยากที่จะจินตนาการว่าเรากำลังเห็นรุ่งอรุณของยุคใหม่ของความฉลาดทางคอมพิวเตอร์

บทเรียนจากประสิทธิภาพที่ต่ำกว่ามนุษย์

แม้จะมีข้อบกพร่อง แต่ระดับประสิทธิภาพ Pokémon ในปัจจุบันของ Claude ก็ให้ข้อมูลเชิงลึกที่มีค่าเกี่ยวกับการแสวงหาปัญญาประดิษฐ์ทั่วไปในระดับมนุษย์อย่างต่อเนื่อง แม้แต่ความยากลำบากของมันก็มีบทเรียนที่สำคัญที่สามารถแจ้งความพยายามในการพัฒนาในอนาคตได้

ในแง่หนึ่ง มันน่าทึ่งมากที่ Claude สามารถเล่น Pokémon ได้เลย เมื่อพัฒนาระบบ AI สำหรับเกมอย่าง Go และ Dota 2 วิศวกรมักจะให้ความรู้มากมายแก่อัลกอริทึมเกี่ยวกับกฎและกลยุทธ์ของเกม พร้อมด้วยฟังก์ชันรางวัลเพื่อเป็นแนวทางในการเรียนรู้ ในทางตรงกันข้าม David Hershey ผู้พัฒนาโครงการ Claude Plays Pokémon เริ่มต้นด้วยโมเดล Claude ทั่วไปที่ไม่ได้แก้ไข ซึ่งไม่ได้รับการฝึกฝนหรือปรับแต่งมาโดยเฉพาะเพื่อเล่นเกม Pokémon

Hershey อธิบายกับ Ars ว่า “นี่เป็นเพียงสิ่งอื่นๆ ที่หลากหลายที่ [Claude] เข้าใจเกี่ยวกับโลกที่ถูกใช้เพื่อชี้ไปที่วิดีโอเกม” เขาเสริมว่า “ดังนั้นมันจึงมีความรู้สึกของโปเกมอน ถ้าคุณไปที่ claude.ai และถามเกี่ยวกับโปเกมอน มันรู้ว่าโปเกมอนคืออะไรจากสิ่งที่มันอ่าน… ถ้าคุณถาม มันจะบอกคุณว่ามียิมแบดจ์แปดอัน มันจะบอกคุณว่าอันแรกคือ Brock… มันรู้โครงสร้างกว้างๆ”

ความท้าทายของการตีความภาพ

นอกเหนือจากการตรวจสอบที่อยู่ RAM หลักของ Game Boy สำหรับข้อมูลสถานะของเกมแล้ว Claude ยังตีความภาพที่แสดงผลของเกมเหมือนกับผู้เล่นที่เป็นมนุษย์ อย่างไรก็ตาม แม้จะมีความก้าวหน้าล่าสุดในการประมวลผลภาพ AI แต่ Claude ก็ยังคงประสบปัญหาในการตีความโลกพิกเซลความละเอียดต่ำของภาพหน้าจอ Game Boy ด้วยความแม่นยำเดียวกับมนุษย์

“Claude ยังไม่ค่อยเก่งในการทำความเข้าใจสิ่งที่อยู่บนหน้าจอเลย” Hershey ยอมรับ “คุณจะเห็นมันพยายามเดินเข้าไปในกำแพงตลอดเวลา”

Hershey สงสัยว่าข้อมูลการฝึกอบรมของ Claude อาจขาดคำอธิบายที่เป็นข้อความโดยละเอียดของภาพที่คล้ายกับหน้าจอ Game Boy ซึ่งหมายความว่า ค่อนข้างขัดกับสัญชาตญาณ Claude อาจทำงานได้ดีขึ้นกับภาพที่สมจริงมากขึ้น

“มันเป็นหนึ่งในเรื่องตลกเกี่ยวกับมนุษย์ที่เราสามารถหรี่ตาดูหยดพิกเซลแปดคูณแปดของคนเหล่านี้และพูดว่า ‘นั่นคือเด็กผู้หญิงที่มีผมสีฟ้า’” Hershey กล่าว “ผู้คน ฉันคิดว่า มีความสามารถในการจับคู่จากโลกแห่งความเป็นจริงของเราเพื่อทำความเข้าใจและเข้าใจสิ่งนั้น… ดังนั้นฉันจึงรู้สึกประหลาดใจที่ Claude เก่งพอๆ กับที่สามารถมองเห็นว่ามีคนอยู่บนหน้าจอ”

จุดแข็งที่แตกต่างกัน จุดอ่อนที่แตกต่างกัน

แม้จะมีการตีความภาพที่สมบูรณ์แบบ Hershey เชื่อว่า Claude ก็ยังคงประสบปัญหากับความท้าทายในการนำทาง 2D ที่เป็นเรื่องง่ายสำหรับมนุษย์ “มันค่อนข้างง่ายสำหรับฉันที่จะเข้าใจว่า [สิ่งปลูกสร้างในเกม] เป็นอาคาร และฉันไม่สามารถเดินผ่านอาคารได้” เขากล่าว “และนั่นเป็น [บางอย่าง] ที่ค่อนข้างท้าทายสำหรับ Claude ที่จะเข้าใจ… มันตลกเพราะมันฉลาดในรูปแบบที่แตกต่างกัน คุณรู้ไหม”

สิ่งที่ Claude เก่ง ตามที่ Hershey กล่าวคือ ด้านที่เป็นข้อความของเกมมากกว่า ในระหว่างการต่อสู้ Claude สังเกตเห็นได้อย่างรวดเร็วเมื่อเกมระบุว่าการโจมตีของโปเกมอนประเภทไฟฟ้า “ไม่ค่อยมีประสิทธิภาพ” กับคู่ต่อสู้ประเภทหิน จากนั้นจะเก็บข้อมูลนี้ไว้ในฐานความรู้ที่เป็นลายลักษณ์อักษรขนาดใหญ่เพื่อใช้อ้างอิงในอนาคต Claude ยังสามารถรวมความรู้หลายชิ้นเข้ากับกลยุทธ์การต่อสู้ที่ซับซ้อน แม้กระทั่งขยายกลยุทธ์เหล่านี้ไปสู่แผนระยะยาวสำหรับการจับและจัดการทีมโปเกมอน

Claude ยังแสดงให้เห็นถึง “ความฉลาด” ที่น่าประหลาดใจเมื่อข้อความของเกมจงใจทำให้เข้าใจผิดหรือไม่สมบูรณ์ Hershey อ้างถึงงานในช่วงต้นเกมที่ผู้เล่นได้รับแจ้งให้ไปหา Professor Oak ที่ประตูถัดไป แต่กลับพบว่าเขาไม่อยู่ที่นั่น “ตอนที่ฉันอายุ 5 ขวบ นั่นเป็นเรื่องที่สับสนมากสำหรับฉัน” Hershey กล่าว “แต่ Claude มักจะผ่านชุดการเคลื่อนไหวเดียวกันนั้น โดยที่มันคุยกับแม่ ไปที่ห้องทดลอง ไม่พบ [Oak] พูดว่า ‘ฉันต้องคิดอะไรบางอย่าง’… มันซับซ้อนพอที่จะผ่านการเคลื่อนไหวในแบบที่ [มนุษย์] ควรจะเรียนรู้จริงๆ ด้วย”

จุดแข็งและจุดอ่อนที่แตกต่างกันเหล่านี้ เมื่อเทียบกับการเล่นในระดับมนุษย์ สะท้อนให้เห็นถึงสถานะโดยรวมของการวิจัยและความสามารถของ AI Hershey อธิบาย “ฉันคิดว่ามันเป็นเพียงสิ่งที่เป็นสากลเกี่ยวกับโมเดลเหล่านี้… เราสร้างด้านข้อความของมันขึ้นมาก่อน และด้านข้อความเป็น… มีประสิทธิภาพมากกว่าอย่างแน่นอน วิธีที่โมเดลเหล่านี้สามารถให้เหตุผลเกี่ยวกับภาพกำลังดีขึ้น แต่ฉันคิดว่ามันค่อนข้างตามหลังอยู่พอสมควร”

ข้อจำกัดของหน่วยความจำ

นอกเหนือจากความท้าทายในการตีความภาพและข้อความแล้ว Hershey ยังยอมรับว่า Claude ประสบปัญหาในการ “จดจำ” สิ่งที่ได้เรียนรู้ โมเดลปัจจุบันมี “หน้าต่างบริบท” 200,000 โทเค็น ซึ่งจำกัดปริมาณข้อมูลเชิงสัมพันธ์ที่สามารถจัดเก็บไว้ใน “หน่วยความจำ” ได้ในเวลาใดก็ตาม เมื่อฐานความรู้ที่ขยายตัวของระบบเติมเต็มหน้าต่างนี้ Claude จะเข้าสู่กระบวนการสรุปที่ซับซ้อน โดยย่อบันทึกรายละเอียดให้เป็นบทสรุปที่สั้นลง ซึ่งย่อมสูญเสียรายละเอียดปลีกย่อยบางอย่างไป

สิ่งนี้อาจนำไปสู่ Claude “ประสบปัญหาในการติดตามสิ่งต่างๆ เป็นเวลานานมาก และมีความรู้สึกที่ดีจริงๆ ว่าได้ลองอะไรไปบ้างแล้ว” Hershey กล่าว “คุณจะเห็นมันลบบางสิ่งที่มันไม่ควรลบออกไปเป็นครั้งคราวอย่างแน่นอน อะไรก็ตามที่ไม่ได้อยู่ในฐานความรู้ของคุณหรือไม่ได้อยู่ในบทสรุปของคุณจะหายไป ดังนั้นคุณต้องคิดเกี่ยวกับสิ่งที่คุณต้องการใส่ไว้ที่นั่น”

อันตรายของข้อมูลที่ไม่ถูกต้อง

สิ่งที่น่าเป็นห่วงยิ่งกว่าการลืมข้อมูลสำคัญคือแนวโน้มของ Claude ที่จะใส่ข้อมูลที่ไม่ถูกต้องลงในฐานความรู้โดยไม่ได้ตั้งใจ เช่นเดียวกับนักทฤษฎีสมคบคิดที่สร้างโลกทัศน์บนสมมติฐานที่ผิดพลาด Claude อาจช้าอย่างน่าทึ่งในการรับรู้เมื่อข้อผิดพลาดในฐานความรู้ที่เขียนขึ้นเองกำลังนำการเล่น Pokémon ของมันไปในทางที่ผิด

“สิ่งที่เขียนไว้ในอดีต มันค่อนข้างเชื่ออย่างสุ่มสี่สุ่มห้า” Hershey กล่าว “ฉันเคยเห็นมันเชื่อมั่นอย่างมากว่ามันพบทางออกไปยัง [สถานที่ในเกม] Viridian Forest ที่พิกัดเฉพาะ จากนั้นมันก็ใช้เวลาหลายชั่วโมงในการสำรวจสี่เหลี่ยมเล็กๆ รอบพิกัดเหล่านั้นซึ่งผิด แทนที่จะทำอย่างอื่น มันใช้เวลานานมากในการตัดสินใจว่านั่นคือ ‘ความล้มเหลว’”

แม้จะมีความท้าทายเหล่านี้ Hershey ตั้งข้อสังเกตว่า Claude 3.7 Sonnet นั้นดีกว่าโมเดลก่อนหน้านี้อย่างมากในการ “ตั้งคำถามกับสมมติฐานของมัน ลองใช้กลยุทธ์ใหม่ๆ และติดตามกลยุทธ์ต่างๆ ในระยะยาวเพื่อ [ดู] ว่ามันได้ผลหรือไม่” ในขณะที่โมเดลใหม่ยังคง “ดิ้นรนเป็นเวลานานมาก” ในการลองทำซ้ำๆ แต่ในที่สุดก็มีแนวโน้มที่จะ “เข้าใจว่าเกิดอะไรขึ้นและสิ่งที่เคยลองมาก่อน และมันก็สะดุดหลายครั้งในความคืบหน้าที่แท้จริงจากสิ่งนั้น” Hershey กล่าว

เส้นทางข้างหน้า

หนึ่งในแง่มุมที่น่าสนใจที่สุดของการสังเกต Claude Plays Pokémon ในหลายๆ ครั้ง Hershey กล่าวคือ การได้เห็นว่าความคืบหน้าและกลยุทธ์ของระบบสามารถแตกต่างกันอย่างมากระหว่างการรัน บางครั้ง Claude แสดงให้เห็นถึง “ความสามารถในการสร้างกลยุทธ์ที่ค่อนข้างสอดคล้องกัน” โดย “เก็บบันทึกรายละเอียดเกี่ยวกับเส้นทางต่างๆ ที่จะลอง” เขาอธิบาย แต่ “ส่วนใหญ่แล้วมันไม่ได้… ส่วนใหญ่แล้ว มันเดินเข้าไปในกำแพงเพราะมันมั่นใจว่ามันเห็นทางออก”

หนึ่งในข้อจำกัดที่สำคัญของ Claude เวอร์ชันปัจจุบัน ตามที่ Hershey กล่าวคือ “เมื่อมันได้กลยุทธ์ที่ดีนั้นมา ฉันไม่คิดว่ามันจำเป็นต้องมีความตระหนักในตนเองที่จะรู้ว่ากลยุทธ์หนึ่ง [ที่] มันคิดขึ้นมานั้นดีกว่าอีกกลยุทธ์หนึ่ง” และนั่น เขายอมรับว่า ไม่ใช่ปัญหาเล็กน้อยที่จะแก้ไข

อย่างไรก็ตาม Hershey มองเห็น “ผลไม้ที่ห้อยต่ำ” สำหรับการปรับปรุงการเล่น Pokémon ของ Claude โดยการปรับปรุงความเข้าใจของโมเดลเกี่ยวกับภาพหน้าจอ Game Boy “ฉันคิดว่ามีโอกาสที่มันจะเอาชนะเกมได้ถ้ามันมีความรู้สึกที่สมบูรณ์แบบเกี่ยวกับสิ่งที่อยู่บนหน้าจอ” เขากล่าว โดยแนะนำว่าโมเดลดังกล่าวมีแนวโน้มที่จะทำงาน “ต่ำกว่ามนุษย์เล็กน้อย”

การขยายหน้าต่างบริบทสำหรับโมเดล Claude ในอนาคตก็มีแนวโน้มที่จะทำให้พวกเขาสามารถ “ให้เหตุผลในช่วงเวลาที่ยาวนานขึ้นและจัดการกับสิ่งต่างๆ ได้อย่างสอดคล้องกันมากขึ้นในช่วงเวลาที่ยาวนาน” Hershey กล่าวเสริม โมเดลในอนาคตจะปรับปรุงโดย “เก่งขึ้นเล็กน้อยในการจดจำ ติดตามชุดที่สอดคล้องกันของสิ่งที่ต้องลองเพื่อสร้างความคืบหน้า” เขากล่าว

ในขณะที่โอกาสในการปรับปรุงโมเดล AI ที่กำลังจะเกิดขึ้นนั้นไม่อาจปฏิเสธได้ แต่ประสิทธิภาพ Pokémon ในปัจจุบันของ Claude ไม่ได้บ่งชี้ว่ามันกำลังจะนำไปสู่ยุคของปัญญาประดิษฐ์ทั่วไปในระดับมนุษย์ Hershey ยอมรับว่าการดู Claude 3.7 Sonnet ติดอยู่บน Mt. Moon เป็นเวลา 80 ชั่วโมงอาจทำให้ “ดูเหมือนโมเดลที่ไม่รู้ว่ากำลังทำอะไรอยู่”

อย่างไรก็ตาม Hershey ยังคงประทับใจกับประกายแห่งความตระหนักรู้เป็นครั้งคราวที่โมเดลการใช้เหตุผลใหม่ของ Claude แสดงให้เห็น โดยสังเกตว่าบางครั้งมันจะ “บอกว่ามันไม่รู้ว่ากำลังทำอะไรอยู่ และรู้ว่ามันต้องทำอะไรบางอย่างที่แตกต่างออกไป และความแตกต่างระหว่าง ‘ทำไม่ได้เลย’ กับ ‘ทำได้บ้าง’ เป็นเรื่องใหญ่สำหรับสิ่ง AI เหล่านี้สำหรับฉัน” เขากล่าวต่อ “คุณรู้ไหม เมื่อบางสิ่งสามารถทำอะไรบางอย่างได้ มันมักจะหมายความว่าเราใกล้จะทำให้มันสามารถทำอะไรบางอย่างได้ดีจริงๆ แล้ว”

อัปเดตเมื่อ 2025-03-22

# Anthropic # Claude # AGI