ChatGPT เก่งพอที่จะสอบผ่าน Turing Test หรือไม่

การเปิดประเด็น Turing Test

ความคิดที่ว่า ChatGPT จะสามารถนำทางผ่าน Turing Test ได้สำเร็จนั้นได้รับการยอมรับมากขึ้นว่าเป็นผลลัพธ์ที่หลีกเลี่ยงไม่ได้ อันที่จริง นักวิจัยบางคนเชื่อมั่นแล้วว่ามันได้ประสบความสำเร็จในความสำเร็จนี้

วิวัฒนาการของแชทบอท ซึ่งเป็นตัวอย่างโดย ChatGPT แสดงให้เห็นถึงความก้าวหน้าที่โดดเด่นในด้านสติปัญญา ความเป็นธรรมชาติ และคุณสมบัติที่เหมือนมนุษย์ ความก้าวหน้านี้เป็นไปตามหลักเหตุผล โดยพิจารณาว่ามนุษย์เป็นสถาปนิกของ large language models (LLMs) ซึ่งเป็นรากฐานของแชทบอท AI เหล่านี้ ในขณะที่เครื่องมือเหล่านี้ปรับปรุงความสามารถในการ "ให้เหตุผล" และเลียนแบบคำพูดของมนุษย์ด้วยความแม่นยำที่มากขึ้น คำถามสำคัญก็เกิดขึ้น: พวกเขาล้ำหน้าพอที่จะสอบผ่าน Turing Test แล้วหรือยัง?

เป็นเวลาหลายทศวรรษที่ Turing Test ถือเป็นเกณฑ์มาตรฐานที่สำคัญในการประเมินสติปัญญาของเครื่อง ปัจจุบัน นักวิจัยกำลังทำการประเมิน LLMs เช่น ChatGPT อย่างเข้มงวด ผลลัพธ์ที่ประสบความสำเร็จจะเป็นก้าวย่างสำคัญในขอบเขตของการพัฒนา AI

ดังนั้น ChatGPT สามารถสอบผ่าน Turing Test ได้หรือไม่? นักวิจัยบางคนยืนยันว่าเป็นเช่นนั้น อย่างไรก็ตาม ผลลัพธ์ยังคงเปิดให้ตีความ Turing Test ไม่ได้ให้ผลลัพธ์แบบไบนารีที่ตรงไปตรงมา ทำให้ผลการวิจัยค่อนข้างคลุมเครือ ยิ่งไปกว่านั้น แม้ว่า ChatGPT จะสอบผ่าน Turing Test ก็อาจไม่ได้บ่งชี้อย่างชัดเจนถึงคุณสมบัติ "คล้ายมนุษย์" ที่มีอยู่ใน LLM

มาเจาะลึกความซับซ้อนกัน

ทำความเข้าใจ Turing Test

สาระสำคัญของ Turing Test นั้นเรียบง่ายอย่างน่าทึ่ง

แนวคิดนี้คิดค้นโดยนักคณิตศาสตร์ชาวอังกฤษ Alan Turing ผู้บุกเบิกด้านวิทยาการคอมพิวเตอร์ Imitation Game หรือที่รู้จักกันในชื่อเดิม ทำหน้าที่เป็นบททดสอบสำหรับสติปัญญาของเครื่อง Turing Test เกี่ยวข้องกับผู้ประเมินที่เป็นมนุษย์ที่มีส่วนร่วมในการสนทนากับทั้งมนุษย์และเครื่องจักร โดยไม่รู้ว่าอันไหนเป็นอันไหน หากผู้ประเมินไม่สามารถแยกแยะเครื่องจักรออกจากมนุษย์ได้ แสดงว่าเครื่องจักรนั้นผ่าน Turing Test ในการตั้งค่าการวิจัย การทดสอบนี้จะดำเนินการหลายครั้งกับผู้ประเมินที่หลากหลาย

สิ่งสำคัญคือต้องตระหนักว่าการทดสอบนี้ไม่ได้ยืนยันอย่างชัดเจนว่า LLM มีระดับสติปัญญาเท่ากับมนุษย์หรือไม่ แต่เป็นการประเมินความสามารถของ LLM ในการแอบอ้างเป็นมนุษย์อย่างน่าเชื่อถือ

กระบวนการคิดของ LLMs

LLMs โดยธรรมชาติแล้วไม่มีสมองทางกายภาพ สติ หรือความเข้าใจที่ครอบคลุมเกี่ยวกับโลก พวกเขาไม่มีความตระหนักในตนเองและไม่มีความคิดเห็นหรือความเชื่อที่แท้จริง

โมเดลเหล่านี้ได้รับการฝึกฝนจากชุดข้อมูลขนาดใหญ่ที่ครอบคลุมแหล่งข้อมูลที่หลากหลาย รวมถึงหนังสือ บทความออนไลน์ เอกสาร และบทสรุป เมื่อผู้ใช้ป้อนข้อมูลที่เป็นข้อความ โมเดล AI จะใช้ความสามารถในการ "ให้เหตุผล" เพื่อแยกแยะความหมายและเจตนาที่เป็นไปได้มากที่สุดเบื้องหลังอินพุต จากนั้น โมเดลจะสร้างการตอบสนองตามการตีความนี้

โดยแก่นแท้แล้ว LLMs ทำหน้าที่เป็นเครื่องมือทำนายคำศัพท์ที่ซับซ้อน การใช้ประโยชน์จากข้อมูลการฝึกอบรมที่ครอบคลุม พวกเขาคำนวณความน่าจะเป็นสำหรับ "โทเค็น" เริ่มต้น (โดยทั่วไปคือคำเดียว) ของการตอบสนอง โดยอิงตามคำศัพท์ของพวกเขา กระบวนการวนซ้ำนี้ดำเนินต่อไปจนกว่าจะมีการกำหนดการตอบสนองที่สมบูรณ์ แม้ว่าคำอธิบายนี้จะเรียบง่าย แต่ก็จับสาระสำคัญของวิธีที่ LLMs สร้างการตอบสนองตามความน่าจะเป็นทางสถิติมากกว่าความเข้าใจที่แท้จริงเกี่ยวกับโลก

ดังนั้นจึงไม่ถูกต้องที่จะบอกว่า LLMs "คิด" ในความหมายทั่วไป

หลักฐานเชิงประจักษ์: ChatGPT และ Turing Test

การศึกษาจำนวนมากได้สำรวจประสิทธิภาพของ ChatGPT ใน Turing Test โดยหลายแห่งให้ผลลัพธ์ที่เป็นบวก สิ่งนี้นำไปสู่นักวิทยาศาสตร์คอมพิวเตอร์บางคนยืนยันว่า LLMs เช่น GPT-4 และ GPT-4.5 ได้แซงหน้าเกณฑ์ของ Turing Test ไปแล้ว

การประเมินส่วนใหญ่มุ่งเน้นไปที่โมเดล GPT-4 ของ OpenAI ซึ่งขับเคลื่อนการโต้ตอบ ChatGPT ส่วนใหญ่ การศึกษาที่ดำเนินการโดย UC San Diego เปิดเผยว่าผู้ประเมินที่เป็นมนุษย์มักจะไม่สามารถแยกแยะ GPT-4 จากมนุษย์ได้ ในการศึกษาครั้งนี้ GPT-4 ถูกระบุผิดว่าเป็นมนุษย์ใน 54% ของกรณี อย่างไรก็ตาม ประสิทธิภาพนี้ยังคงล้าหลังกว่ามนุษย์จริง ซึ่งถูกระบุว่าเป็นมนุษย์อย่างถูกต้อง 67% ของเวลา

หลังจากเปิดตัว GPT-4.5 นักวิจัยของ UC San Diego ได้จำลองแบบการศึกษา ในครั้งนี้ LLM ถูกระบุว่าเป็นมนุษย์ใน 73% ของกรณี ซึ่งเหนือกว่าประสิทธิภาพของมนุษย์จริง การศึกษายังระบุด้วยว่า LLaMa-3.1-405B ของ Meta สามารถผ่านการทดสอบได้

การศึกษาที่คล้ายกันที่ดำเนินการโดยอิสระจาก UC San Diego ก็ให้เกรดผ่านแก่ GPT ด้วยเช่นกัน การศึกษาในปี 2024 โดย University of Reading เกี่ยวข้องกับ GPT-4 ที่สร้างการตอบสนองต่อการประเมินที่บ้านสำหรับหลักสูตรระดับปริญญาตรี ผู้ให้คะแนนไม่ทราบถึงการทดลองและตั้งค่าสถานะเพียงหนึ่งใน 33 รายการ ChatGPT ได้รับเกรดสูงกว่าค่าเฉลี่ยสำหรับรายการที่เหลืออีก 32 รายการ

การศึกษาเหล่านี้สรุปได้หรือไม่? ไม่ทั้งหมด นักวิจารณ์บางคนแย้งว่าผลการวิจัยเหล่านี้ไม่น่าประทับใจเท่าที่ปรากฏ ความสงสัยนี้ป้องกันไม่ให้เราประกาศอย่างชัดเจนว่า ChatGPT ได้ผ่าน Turing Test แล้ว

อย่างไรก็ตาม เป็นที่ชัดเจนว่าในขณะที่ LLMs รุ่นก่อนหน้า เช่น GPT-4 บางครั้งผ่าน Turing Test ผลลัพธ์ที่ประสบความสำเร็จก็เริ่มแพร่หลายมากขึ้นเมื่อ LLMs พัฒนาขึ้นอย่างต่อเนื่อง ด้วยการเกิดขึ้นของโมเดลล้ำสมัยเช่น GPT-4.5 เรากำลังเข้าใกล้จุดที่โมเดลสามารถสอบผ่าน Turing Test ได้อย่างสม่ำเสมอ

OpenAI มองเห็นอนาคตที่การแยกแยะระหว่างมนุษย์และ AI เป็นไปไม่ได้ วิสัยทัศน์นี้สะท้อนให้เห็นในการลงทุนของ Sam Altman CEO ของ OpenAI ในโครงการตรวจสอบมนุษย์ที่เกี่ยวข้องกับอุปกรณ์สแกนลูกตาที่เรียกว่า The Orb

การประเมินตนเองของ ChatGPT

เมื่อถูกถามว่าสามารถสอบผ่าน Turing Test ได้หรือไม่ ChatGPT ตอบรับอย่างยืนยัน แม้ว่าจะมีข้อแม้ที่ได้กล่าวถึงไปแล้ว เมื่อถูกกระตุ้นด้วยคำถามที่ว่า "ChatGPT สามารถสอบผ่าน Turing Test ได้หรือไม่" แชทบอท AI (ใช้โมเดล 4o) ระบุว่า "ChatGPT สามารถสอบผ่าน Turing Test ในบางสถานการณ์ แต่ไม่น่าเชื่อถือหรือเป็นสากล" แชทบอทสรุปว่า "อาจสอบผ่าน Turing Test กับผู้ใช้โดยเฉลี่ยภายใต้เงื่อนไขที่ไม่เป็นทางการ แต่ผู้สอบปากคำที่มุ่งมั่นและรอบคอบแทบจะเปิดโปงได้เสมอ"

ข้อจำกัดของ Turing Test

นักวิทยาศาสตร์คอมพิวเตอร์บางคนพิจารณาว่า Turing Test นั้นล้าสมัยและมีคุณค่าจำกัดในการประเมิน LLMs Gary Marcus นักจิตวิทยา นักวิทยาศาสตร์ด้านความรู้ความเข้าใจ นักเขียน และผู้แสดงความคิดเห็นด้าน AI ชาวอเมริกัน สรุปมุมมองนี้อย่างกระชับในบล็อกโพสต์ล่าสุด โดยระบุว่า "ตามที่ฉัน (และคนอื่นๆ อีกมากมาย) ได้กล่าวไว้เป็นเวลาหลายปี Turing Test เป็นการทดสอบความใจง่ายของมนุษย์ ไม่ใช่การทดสอบสติปัญญา"

สิ่งสำคัญคือต้องจำไว้ว่า Turing Test มุ่งเน้นไปที่การรับรู้ถึงสติปัญญามากกว่าสติปัญญาที่แท้จริง ความแตกต่างนี้มีความสำคัญ โมเดลเช่น ChatGPT 4o อาจสอบผ่านการทดสอบได้เพียงแค่เลียนแบบคำพูดของมนุษย์ ยิ่งไปกว่านั้น ความสำเร็จของ LLM ในการทดสอบจะขึ้นอยู่กับหัวข้อของการสนทนาและผู้ประเมิน ChatGPT อาจเก่งในการสนทนาทั่วไป แต่ต้องดิ้นรนกับการโต้ตอบที่ต้องใช้สติปัญญาทางอารมณ์ที่แท้จริง ยิ่งไปกว่านั้น ระบบ AI สมัยใหม่ถูกใช้มากขึ้นสำหรับการใช้งานที่นอกเหนือไปจากการสนทนาที่เรียบง่าย โดยเฉพาะอย่างยิ่งเมื่อเราก้าวไปสู่โลกของ agentic AI

นี่ไม่ได้หมายความว่า Turing Test ไม่เกี่ยวข้องเลย มันยังคงเป็นเกณฑ์มาตรฐานทางประวัติศาสตร์ที่สำคัญ และเป็นที่น่าสังเกตว่า LLMs สามารถสอบผ่านได้ อย่างไรก็ตาม Turing Test ไม่ใช่มาตรวัดสูงสุดของสติปัญญาของเครื่อง

นอกเหนือจาก Turing Test: การแสวงหาเกณฑ์มาตรฐานที่ดีกว่า

Turing Test แม้ว่าจะมีความสำคัญทางประวัติศาสตร์ แต่ก็ถูกมองว่าเป็นการวัดปัญญาประดิษฐ์ที่แท้จริงที่ไม่เพียงพอ การมุ่งเน้นไปที่การเลียนแบบการสนทนาของมนุษย์นั้นมองข้ามแง่มุมที่สำคัญของสติปัญญา เช่น การแก้ปัญหา ความคิดสร้างสรรค์ และความสามารถในการปรับตัว การพึ่งพาการหลอกลวงของการทดสอบยังก่อให้เกิดข้อกังวลด้านจริยธรรม เนื่องจากส่งเสริมให้ระบบ AI แสร้งทำเป็นคุณสมบัติที่เหมือนมนุษย์มากกว่าการพัฒนาสติปัญญาที่แท้จริง

ความจำเป็นในการวัดผลใหม่

เมื่อเทคโนโลยี AI ก้าวหน้าขึ้น ความจำเป็นในการวัดผลที่ครอบคลุมและเกี่ยวข้องมากขึ้นก็เริ่มชัดเจนมากขึ้น การวัดผลใหม่เหล่านี้ควรจัดการกับข้อบกพร่องของ Turing Test และให้การประเมินความสามารถของ AI ที่แม่นยำยิ่งขึ้น ทิศทางที่เป็นไปได้บางประการสำหรับการวัดผลในอนาคต ได้แก่:

  • การแก้ปัญหาในโลกแห่งความเป็นจริง: การทดสอบที่กำหนดให้ระบบ AI แก้ปัญหาที่ซับซ้อนในโลกแห่งความเป็นจริง เช่น การออกแบบโครงข่ายพลังงานที่ยั่งยืน หรือการพัฒนายารักษาโรค
  • งานสร้างสรรค์: การประเมินที่ประเมินความสามารถของ AI ในการสร้างเนื้อหาที่เป็นต้นฉบับและจินตนาการ เช่น การเขียนนวนิยาย การแต่งเพลง หรือการสร้างงานศิลปะ
  • ความสามารถในการปรับตัวและการเรียนรู้: การวัดที่วัดความสามารถของ AI ในการเรียนรู้จากประสบการณ์ใหม่และปรับตัวเข้ากับสภาพแวดล้อมที่เปลี่ยนแปลง
  • ข้อพิจารณาด้านจริยธรรม: การประเมินที่ประเมินความสามารถของ AI ในการตัดสินใจเชิงจริยธรรมและหลีกเลี่ยงอคติ

ตัวอย่างของการวัดผลที่เกิดขึ้นใหม่

มีการวัดผลใหม่หลายอย่างเกิดขึ้นเพื่อแก้ไขข้อจำกัดของ Turing Test ซึ่งรวมถึง:

  • The Winograd Schema Challenge: การทดสอบนี้มุ่งเน้นไปที่ความสามารถของ AI ในการทำความเข้าใจคำสรรพนามที่ไม่ชัดเจนในประโยค
  • The AI2 Reasoning Challenge: เกณฑ์มาตรฐานนี้ประเมินความสามารถของ AI ในการให้เหตุผลและตอบคำถามตามข้อความที่ซับซ้อน
  • The Commonsense Reasoning Challenge: การทดสอบนี้ประเมินความเข้าใจของ AI เกี่ยวกับความรู้ทั่วไปและความสามารถในการอนุมาน

อนาคตของการประเมิน AI

อนาคตของการประเมิน AI น่าจะเกี่ยวข้องกับการรวมกันของการวัดผลที่แตกต่างกัน ซึ่งแต่ละอย่างได้รับการออกแบบมาเพื่อประเมินแง่มุมเฉพาะของสติปัญญา การวัดผลเหล่านี้ควรมีการพัฒนาอย่างต่อเนื่องเพื่อให้ทันกับการพัฒนาอย่างรวดเร็วในเทคโนโลยี AI นอกจากนี้ สิ่งสำคัญคือต้องให้ผู้มีส่วนได้ส่วนเสียที่หลากหลาย รวมถึงนักวิจัย ผู้กำหนดนโยบาย และประชาชนทั่วไป มีส่วนร่วมในการพัฒนาและการประเมินการวัดผล AI

ก้าวข้ามการเลียนแบบ

ท้ายที่สุดแล้ว เป้าหมายของการวิจัย AI ควรเป็นการพัฒนาระบบที่ไม่เพียงแต่ชาญฉลาด แต่ยังมีประโยชน์ต่อมนุษยชาติด้วย สิ่งนี้ต้องการการก้าวข้ามการแสวงหาการเลียนแบบที่เหมือนมนุษย์ และมุ่งเน้นไปที่การพัฒนาระบบ AI ที่สามารถแก้ปัญหาในโลกแห่งความเป็นจริง เพิ่มพูนความคิดสร้างสรรค์ และส่งเสริมการตัดสินใจเชิงจริยธรรม การยอมรับการวัดผลใหม่และการมุ่งเน้นไปที่เป้าหมายที่กว้างขึ้นเหล่านี้ เราสามารถปลดล็อกศักยภาพสูงสุดของ AI และสร้างอนาคตที่ AI และมนุษย์ทำงานร่วมกันเพื่อสร้างโลกที่ดีกว่าได้