เปิดโปงภาพลวงตาของความฉลาด
เป็นเวลาหลายทศวรรษที่ Turing Test ได้ยืนหยัดเป็นหมุดหมายสำคัญ แม้จะถูกเข้าใจผิดบ่อยครั้ง ในการแสวงหาวิธีวัดปัญญาประดิษฐ์ แนวคิดนี้คิดค้นโดย Alan Turing ผู้ปราดเปรื่อง เสนอความท้าทายที่เรียบง่ายแต่ลึกซึ้ง: เครื่องจักรสามารถโน้มน้าวให้มนุษย์เชื่อว่ามันเป็นมนุษย์ได้หรือไม่ ผ่านการสนทนาด้วยข้อความเพียงอย่างเดียว? หลายคนตีความความสำเร็จในการทดสอบนี้ว่าเป็นการรุ่งอรุณของการคิดของเครื่องจักรอย่างแท้จริง เป็นสัญญาณว่าสมองซิลิคอนกำลังสะท้อนความสามารถทางปัญญาของเราในที่สุด อย่างไรก็ตาม การตีความนี้เต็มไปด้วยข้อถกเถียงมาโดยตลอด และการพัฒนาล่าสุดที่เกี่ยวข้องกับโมเดล AI ที่ซับซ้อน เช่น GPT-4.5 ของ OpenAI กำลังบังคับให้มีการประเมินใหม่อย่างจริงจัง
งานวิจัยที่ก้าวล้ำจาก University of California at San Diego ทำให้การถกเถียงนี้ชัดเจนยิ่งขึ้น นักวิชาการที่นั่นได้ทำการทดลองโดยให้มนุษย์แข่งขันกับแบบจำลองภาษาขนาดใหญ่ (LLMs) ขั้นสูงในรูปแบบ Turing Test แบบคลาสสิก ผลลัพธ์น่าตกใจ: โมเดลล่าสุดของ OpenAI ที่มีรายงานว่าเป็น GPT-4.5 ไม่เพียงแต่ผ่านการทดสอบเท่านั้น แต่ยังทำได้อย่างยอดเยี่ยม โดยพิสูจน์ได้ว่า น่าเชื่อถือกว่า ในการปลอมตัวเป็นมนุษย์ มากกว่าที่ผู้เข้าร่วมที่เป็นมนุษย์จริงๆ จะพิสูจน์ความเป็นมนุษย์ของตนเองได้ นี่แสดงถึงก้าวกระโดดที่สำคัญในความสามารถของ generative AI ในการสร้างการตอบสนองที่ให้ความรู้สึกเหมือนมนุษย์อย่างแท้จริง ทว่า แม้แต่นักวิจัยที่อยู่เบื้องหลังการศึกษานี้ก็ยังเตือนไม่ให้เทียบความสามารถในการสนทนานี้กับการบรรลุปัญญาประดิษฐ์ทั่วไป (AGI) ซึ่งเป็นเป้าหมายที่ยากจะบรรลุในการสร้างเครื่องจักรที่มีความสามารถทางปัญญาระดับมนุษย์ ดูเหมือนว่าการทดสอบนี้อาจเปิดเผยข้อจำกัดของการทดสอบเอง และสมมติฐานของมนุษย์เรา มากกว่าที่จะเปิดเผยธรรมชาติที่แท้จริงของความฉลาดของเครื่องจักร
การพลิกโฉมการทดลองสุดคลาสสิกในยุคสมัยใหม่
เสน่ห์ที่ยั่งยืนของ Turing Test อยู่ที่ความเรียบง่ายอันสง่างาม Turing จินตนาการถึง ‘เกมเลียนแบบ’ (imitation game) ที่เกี่ยวข้องกับผู้เล่นสามคน: ผู้ซักถามที่เป็นมนุษย์ (ผู้ตัดสิน), พยานที่เป็นมนุษย์ และพยานที่เป็นคอมพิวเตอร์ ผู้เล่นแต่ละคนจะถูกแยกออกจากกัน สื่อสารกันผ่านข้อความเท่านั้น พยานจะพยายามโน้มน้าวผู้ตัดสินถึงความเป็นมนุษย์ของตน ผู้ตัดสินซึ่งทราบว่ามีผู้เข้าร่วมคนหนึ่งเป็นเครื่องจักร ต้องตัดสินว่าใครเป็นใคร ความอัจฉริยะของการตั้งค่านี้คือลักษณะการเปรียบเทียบโดยธรรมชาติ หากผู้ตัดสินระบุผิดพลาดว่าคอมพิวเตอร์เป็นมนุษย์ นั่นไม่เพียงแต่บ่งบอกถึงประสิทธิภาพที่น่าเชื่อถือของเครื่องจักรเท่านั้น แต่ยังรวมถึงความล้มเหลวที่อาจเกิดขึ้นของพยานที่เป็นมนุษย์ในการส่งสัญญาณความเป็นมนุษย์ของตนเองอย่างเพียงพอ หรือบางทีอาจเป็นความไม่สามารถของผู้ตัดสินในการรับรู้สัญญาณเหล่านั้นได้อย่างถูกต้อง มันกลายเป็นการตรวจสอบที่น่าสนใจเกี่ยวกับการรับรู้ ความเชื่อ และสัญญาณอันละเอียดอ่อนที่เราเชื่อมโยงกับการเป็นมนุษย์ พอๆ กับที่เป็นการวัดความสามารถในการคำนวณ
ต่อยอดจากรากฐานนี้ นักวิจัยจาก UC San Diego, Cameron Jones และ Benjamin Bergen ได้นำการทดสอบเวอร์ชันร่วมสมัยมาใช้ โดยใช้ประโยชน์จากพลังของ LLMs สมัยใหม่และให้นักศึกษาระดับปริญญาตรีเข้าร่วม การออกแบบการทดลองของพวกเขายึดตามโครงสร้างสามทางของ Turing อย่างใกล้ชิด นักศึกษาถูกสุ่มมอบหมายบทบาท: บางคนทำหน้าที่เป็นผู้ตัดสิน บางคนเป็นพยานที่เป็นมนุษย์ ผู้ตัดสินแต่ละคนมีส่วนร่วมในการแชทด้วยข้อความพร้อมกันและเป็นอิสระเป็นเวลาห้านาทีกับทั้งพยานที่เป็นมนุษย์และพยานที่เป็น AI ความท้าทายสำหรับผู้ตัดสินยังคงเหมือนเดิม: ระบุเครื่องจักร
เพื่อสำรวจความสามารถของ AI ในปัจจุบัน ได้มีการนำโมเดลหลายตัวมาใช้เป็นพยานคอมพิวเตอร์:
- GPT-4.5 (Minimal Prompt): เวอร์ชันนี้ได้รับคำแนะนำพื้นฐานเท่านั้น
- GPT-4.5 (PERSONA Prompt): เวอร์ชันนี้ได้รับคำแนะนำที่ละเอียดกว่ามาก prompt สั่งให้ AI สวมบทบาทเฉพาะ – ของ ‘คนหนุ่มสาวที่เก็บตัว มีความรู้เกี่ยวกับวัฒนธรรมอินเทอร์เน็ต และใช้คำแสลง’ สิ่งนี้มีจุดมุ่งหมายเพื่อทดสอบความสามารถในการปรับตัวของ AI และความสามารถในการเลียนแบบลักษณะเฉพาะของมนุษย์
- GPT-4o: โมเดลเด่นอีกตัวของ OpenAI ถูกใช้เป็นจุดเปรียบเทียบ
- Llama 3.1 405b: LLM อันทรงพลังของ Meta Platforms ถูกรวมเข้ามาเพื่อขยายขอบเขต
- ELIZA: โปรแกรมแชทบอทที่สำคัญจากทศวรรษ 1960 ถูกรวมเข้ามาเพื่อใช้เป็นกลุ่มควบคุม ความเรียบง่ายโดยเปรียบเทียบของมันมีจุดประสงค์เพื่อช่วยตัดสินว่าความสำเร็จใดๆ ของ LLMs นั้นเกิดจากการเขียนโปรแกรมที่ซับซ้อน หรือเป็นเพียงโอกาสสุ่มและผู้ตัดสินที่ถูกหลอกได้ง่าย
แนวทางที่ใช้หลายโมเดลนี้ ประกอบกับการโต้ตอบที่มีโครงสร้างและกำหนดเวลา และการเปรียบเทียบระหว่าง AI ที่ได้รับ prompt น้อยที่สุดกับ AI ที่ขับเคลื่อนด้วยบทบาทสมมติ ทำให้ได้ชุดข้อมูลที่สมบูรณ์สำหรับการวิเคราะห์ว่าเครื่องจักรสามารถเลียนแบบการสนทนาของมนุษย์ได้อย่างมีประสิทธิภาพเพียงใดในปัจจุบัน และมนุษย์รับรู้ความพยายามเหล่านี้อย่างไร
เมื่อการเลียนแบบโดดเด่นกว่าความเป็นจริง
ผลการวิจัยจากการศึกษาของ UC San Diego นั้นน่าทึ่งอย่างยิ่ง โดยเฉพาะอย่างยิ่งเกี่ยวกับประสิทธิภาพของ GPT-4.5 เมื่อได้รับคำแนะนำจาก PERSONA prompt ที่ละเอียด การกำหนดค่าเฉพาะนี้ประสบความสำเร็จอย่างน่าอัศจรรย์ด้วย ‘อัตราการชนะ’ (win rate) 73% โดยพื้นฐานแล้ว เกือบสามในสี่ของเวลาทั้งหมด ผู้ตัดสินที่เป็นมนุษย์ที่โต้ตอบกับ AI นี้สรุปว่าพวกเขากำลังสนทนากับมนุษย์อีกคนหนึ่ง ตัวเลขนี้มีความสำคัญไม่เพียงแต่ในค่าสัมบูรณ์เท่านั้น แต่ยังรวมถึงเมื่อเปรียบเทียบกับผู้เข้าร่วมรายอื่นด้วย
พิจารณาเกณฑ์มาตรฐาน:
- พยานที่เป็นมนุษย์: น่าขันที่มนุษย์จริงๆ ที่เข้าร่วมเป็นพยานนั้น ประสบความสำเร็จน้อยกว่า ในการโน้มน้าวผู้ตัดสินถึงความเป็นมนุษย์ของตน เมื่อเทียบกับ GPT-4.5 ที่ขับเคลื่อนด้วยบทบาทสมมติ
- โมเดล AI อื่นๆ: GPT-4.5 ที่มี prompt น้อยที่สุด พร้อมด้วย GPT-4o และ Llama 3.1 (แม้ว่าจะได้รับ PERSONA prompt ที่คล้ายกัน) ทำคะแนนได้ต่ำกว่ามาก โดยมีอัตราการชนะอยู่ระหว่าง 21% ถึง 56% สิ่งนี้เน้นย้ำถึงความสามารถขั้นสูงของโมเดล GPT-4.5 เฉพาะที่ทดสอบ และผลกระทบที่สำคัญของการให้ prompt ที่ปรับแต่งมาโดยเฉพาะ
- ประสิทธิภาพของ GPT-4 ก่อนหน้านี้: ในการทดลองครั้งก่อนที่ดำเนินการโดยนักวิจัยกลุ่มเดียวกันเมื่อปีก่อน GPT-4 มีอัตราการชนะเพียง 54% ซึ่งแทบจะไม่เกินเกณฑ์ของโอกาสสุ่ม (50%) การก้าวกระโดดไปสู่ 73% ด้วย GPT-4.5 แสดงให้เห็นถึงความก้าวหน้าอย่างรวดเร็วในความสามารถของโมเดลในการสร้างข้อความที่เหมือนมนุษย์
- ELIZA: แชทบอทโบราณ ตามที่คาดไว้ ทำผลงานได้ไม่ดี ทำหน้าที่เป็นพื้นฐานและยืนยันว่าความสำเร็จของ LLMs ไม่ได้เกิดจากเพียงแค่ผู้ตัดสินถูกหลอกได้ง่ายโดยโปรแกรม ใดๆ
ข้อสรุปของ Jones และ Bergen นั้นชัดเจน: ผู้ตัดสินไม่ได้เพียงแค่พยายามแยกแยะมนุษย์ออกจากเครื่องจักรเท่านั้น พวกเขายัง มีแนวโน้มที่จะเชื่อ ว่า GPT-4.5 ที่ขับเคลื่อนด้วยบทบาทสมมตินั้นเป็นมนุษย์ มากกว่าที่จะเชื่อว่าผู้เข้าร่วมที่เป็นมนุษย์จริงๆ เป็นมนุษย์เสียอีก สิ่งนี้ชี้ให้เห็นว่า AI เมื่อได้รับคำแนะนำอย่างเหมาะสม สามารถจำลองความแตกต่างที่รับรู้ได้ของการโต้ตอบของมนุษย์ – บางทีอาจถึงขั้นกรองความเคอะเขินหรือไม่สอดคล้องกันที่มีอยู่ในการแชทของมนุษย์จริงๆ – ได้อย่างมีประสิทธิภาพมากกว่ามนุษย์เองในสภาพแวดล้อมที่จำกัดและเฉพาะเจาะจงนี้ ความสำเร็จไม่ได้เป็นเพียงแค่การผ่านการทดสอบเท่านั้น แต่ยังเกี่ยวกับการเกินเกณฑ์มาตรฐานของมนุษย์ในด้าน ‘ความเป็นมนุษย์’ ที่รับรู้ได้ภายในขอบเขตของการทดสอบ
อุปสรรคด้านความเหมือนมนุษย์: ความฉลาดหรือการปรับตัว?
ชัยชนะของ GPT-4.5 ในการทดสอบ Turing Test ฉบับปรับปรุงใหม่นี้ เป็นสัญญาณการมาถึงของ AGI หรือไม่? นักวิจัย พร้อมด้วยผู้เชี่ยวชาญจำนวนมากในสาขานี้ ต่างเรียกร้องให้ใช้ความระมัดระวัง ‘คำถามที่ถกเถียงกันมากที่สุด’ เกี่ยวกับการทดสอบนี้ ดังที่ Jones และ Bergen ยอมรับ คือมันวัดความฉลาดอย่างแท้จริงหรือวัดสิ่งอื่นกันแน่ แม้ว่าความสามารถของ GPT-4.5 ในการหลอกมนุษย์ได้อย่างมีประสิทธิภาพนั้นเป็นความสำเร็จทางเทคนิคอย่างปฏิเสธไม่ได้ แต่มันอาจบ่งบอกถึงความสามารถในการเลียนแบบและการปรับตัวที่ซับซ้อนของโมเดลมากกว่าความเข้าใจหรือจิตสำนึกที่แท้จริง
มุมมองหนึ่งคือ LLMs ขั้นสูงเหล่านี้มีความเชี่ยวชาญเป็นพิเศษในการจับคู่รูปแบบและการคาดการณ์ เมื่อป้อนข้อมูลข้อความของมนุษย์จำนวนมหาศาล พวกมันเรียนรู้ความน่าจะเป็นทางสถิติของลำดับคำ การเปลี่ยนบทสนทนา และองค์ประกอบทางโวหารที่เกี่ยวข้องกับการโต้ตอบของมนุษย์ประเภทต่างๆ PERSONA prompt ให้รูปแบบเป้าหมายเฉพาะแก่ GPT-4.5 – คนหนุ่มสาวที่เก็บตัวและเชี่ยวชาญด้านอินเทอร์เน็ต ดังนั้น ความสำเร็จของ AI จึงอาจถูกมองว่าเป็นการแสดงให้เห็นถึงความสามารถในการ ‘ปรับเปลี่ยนพฤติกรรม’ (adapt its behaviour) เพื่อให้เข้ากับบทบาทที่ร้องขอ โดยดึงข้อมูลจากการฝึกอบรมเพื่อสร้างการตอบสนองที่สอดคล้องกับโปรไฟล์นั้น เป็นการแสดงออกถึงความยืดหยุ่นและพลังในการสร้างสรรค์ที่น่าทึ่ง ทำให้เครื่องจักรสามารถปรากฏตัวเป็นมนุษย์ได้อย่างน่าเชื่อถือภายในบริบทที่กำหนดโดย prompt
อย่างไรก็ตาม ความสามารถในการปรับตัวนี้แตกต่างจากความฉลาดทั่วไปที่มนุษย์มี ซึ่งเกี่ยวข้องกับการให้เหตุผล การเข้าใจบริบทอย่างลึกซึ้ง การเรียนรู้จากประสบการณ์ใหม่ๆ และการมีจิตสำนึก – คุณสมบัติที่ LLMs ในปัจจุบันยังไม่ได้แสดงให้เห็นอย่างชัดเจน ดังที่ Melanie Mitchell นักวิชาการด้าน AI ได้โต้แย้งไว้ ความคล่องแคล่วในภาษาธรรมชาติ เช่นเดียวกับการเชี่ยวชาญหมากรุก ไม่ใช่ข้อพิสูจน์ที่ชัดเจนของความฉลาดทั่วไป มันพิสูจน์ความเชี่ยวชาญในขอบเขตทักษะเฉพาะ แม้ว่าจะซับซ้อนก็ตาม ดังนั้น ในขณะที่ประสิทธิภาพของ GPT-4.5 เป็นก้าวสำคัญในการสร้างภาษาธรรมชาติ การมองว่ามันเป็นเพียงก้าวไปสู่ AGI อาจทำให้เข้าใจผิด ดูเหมือนจะแม่นยำกว่าที่จะอธิบายว่าเป็นการบรรลุระดับสูงของ ‘ความเหมือนมนุษย์’ (humanlikeness) ในการสนทนาด้วยข้อความ ซึ่งเป็นแนวคิดที่แตกต่างกันอย่างละเอียดแต่สำคัญอย่างยิ่งจากความฉลาดระดับมนุษย์
กระจกแห่งปฏิสัมพันธ์: สิ่งที่การทดสอบเผยเกี่ยวกับเรา
บางทีแง่มุมที่น่าสนใจที่สุดของการศึกษาของ UC San Diego ไม่ได้อยู่ที่สิ่งที่เปิดเผยเกี่ยวกับ AI แต่อยู่ที่สิ่งที่เปิดเผยเกี่ยวกับการตัดสินของมนุษย์และสมมติฐานที่เรานำมาสู่การโต้ตอบ โดยเฉพาะทางออนไลน์ ข้อเท็จจริงที่ว่าผู้ตัดสินที่เป็นมนุษย์มักถูกหลอก และบางครั้งถึงกับชอบสไตล์การโต้ตอบของ AI ชี้ให้เห็นถึงความเป็นอัตวิสัยโดยธรรมชาติและข้อบกพร่องที่อาจเกิดขึ้นในการใช้การรับรู้ของมนุษย์เป็นผู้ตัดสินขั้นสุดท้ายของความฉลาดของเครื่องจักรในรูปแบบนี้
นักวิจัยสังเกตเห็นรูปแบบที่น่าสนใจในเหตุผลของผู้ตัดสิน:
- พฤติกรรมที่ไม่คาดคิด: แม้แต่โปรแกรม ELIZA ที่เรียบง่ายก็สามารถหลอกผู้ตัดสินได้ 23% ของเวลาทั้งหมด นี่ไม่ใช่เพราะ ELIZA แสดงความฉลาด แต่บ่อยครั้งเป็นเพราะมัน ไม่ ตรงกับความคิด preconceived ของผู้ตัดสินเกี่ยวกับพฤติกรรมที่ AI ควร จะเป็น ผู้ตัดสินอ้างเหตุผลเช่น พยาน ‘ประชดประชัน’ หรือ ‘หยาบคาย’ ซึ่งเป็นลักษณะที่พวกเขาไม่คาดหวังจากเครื่องจักร ดังนั้นจึงสรุปว่าต้องเป็นมนุษย์
- มุ่งเน้นไปที่ความเป็นสังคมมากกว่าสติปัญญา: ตรงกันข้ามกับความคาดหวังของ Alan Turing ที่ว่าผู้ตัดสินจะตรวจสอบความรู้และความสามารถทางปัญญา ผู้เข้าร่วมในการศึกษานี้มักจะมุ่งเน้นไปที่รูปแบบการสนทนา น้ำเสียงทางอารมณ์ และสัญญาณทางสังคมมากกว่า
- ความขัดแย้งของความไม่สมบูรณ์แบบ: ในทางกลับกันที่น่าประหลาดใจ ปัจจัยหนึ่งที่ผู้ตัดสินใช้ในการระบุพยานว่าเป็นมนุษย์ได้อย่างถูกต้องคือการรับรู้ถึง การขาด ความรู้ สิ่งนี้ชี้ให้เห็นถึงสมมติฐานพื้นฐานที่ว่ามนุษย์ผิดพลาดได้และไม่สมบูรณ์แบบ ในขณะที่ AI อาจถูกคาดหวังให้มีความรู้รอบด้านหรือแม่นยำเกินไป
ข้อสังเกตเหล่านี้ทำให้ Jones และ Bergen ยืนยันว่าการตัดสินใจของผู้ตัดสินรวมเอา ‘สมมติฐานที่ซับซ้อนเกี่ยวกับพฤติกรรมที่มนุษย์และระบบ AI น่าจะเป็น’ ซึ่งก้าวไปไกลกว่าการประเมินความฉลาดแบบง่ายๆ เกณฑ์ต่างๆ กลายเป็นเรื่องที่เกี่ยวพันกับความคาดหวังทางสังคม การตัดสินบุคลิกภาพ และแม้แต่อคติเกี่ยวกับความสามารถทางเทคโนโลยี ในยุคที่การสื่อสารด้วยข้อความแพร่หลาย เราได้พัฒนานิสัยและความคาดหวังที่ฝังแน่นสำหรับการโต้ตอบออนไลน์ Turing Test ซึ่งเดิมออกแบบมาเพื่อเป็นการสำรวจปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์แบบใหม่ ตอนนี้ทำหน้าที่เหมือนการทดสอบ นิสัยและอคติของมนุษย์ทางออนไลน์ (online human habits and biases) เหล่านี้มากกว่า มันวัดความสามารถของเราในการแยกแยะตัวตนดิจิทัล ซึ่งได้รับอิทธิพลจากประสบการณ์ประจำวันของเรากับทั้งมนุษย์และบอทออนไลน์ โดยพื้นฐานแล้ว Turing Test สมัยใหม่ ดังที่แสดงให้เห็นโดยงานวิจัยนี้ ดูเหมือนจะเป็นการประเมินความฉลาดของเครื่องจักรโดยตรงน้อยลง และเป็นการวัดความเหมือนมนุษย์ที่รับรู้ได้มากขึ้น ซึ่งถูกกรองผ่านเลนส์ของความคาดหวังของมนุษย์
ก้าวข้ามเกมเลียนแบบ: กำหนดแนวทางใหม่สำหรับการประเมิน AI
เมื่อพิจารณาถึงประสิทธิภาพที่น่าสนใจของโมเดลอย่าง GPT-4.5 และข้อจำกัดและอคติที่เน้นย้ำซึ่งมีอยู่ในรูปแบบ Turing Test แบบดั้งเดิม คำถามจึงเกิดขึ้น: เกณฑ์มาตรฐานที่มีอายุหลายสิบปีนี้ยังคงเป็นเครื่องมือที่เหมาะสมสำหรับการวัดความก้าวหน้าไปสู่ AGI หรือไม่? นักวิจัยจาก UC San Diego พร้อมด้วยเสียงเรียกร้องที่เพิ่มขึ้นในชุมชน AI แนะนำว่าอาจจะไม่ใช่ – อย่างน้อยก็ไม่ใช่ในฐานะมาตรวัดเพียงอย่างเดียวหรือชี้ขาด
ความสำเร็จอย่างสูงของ GPT-4.5 โดยเฉพาะอย่างยิ่งการพึ่งพา PERSONA prompt ตอกย้ำข้อจำกัดที่สำคัญ: การทดสอบประเมินประสิทธิภาพภายในบริบทการสนทนาที่เฉพาะเจาะจงและมักจะแคบ มันไม่จำเป็นต้องตรวจสอบความสามารถทางปัญญาที่ลึกซึ้งกว่า เช่น การให้เหตุผล การวางแผน ความคิดสร้างสรรค์ หรือความเข้าใจสามัญสำนึกในสถานการณ์ที่หลากหลาย ดังที่ Jones และ Bergen กล่าวไว้ ‘ความฉลาดนั้นซับซ้อนและมีหลายแง่มุม’ (intelligence is complex and multifaceted) ซึ่งหมายความว่า ‘ไม่มีการทดสอบความฉลาดเพียงอย่างเดียวใดที่จะสามารถตัดสินได้อย่างเด็ดขาด’ (no single test of intelligence could be decisive)
สิ่งนี้ชี้ให้เห็นถึงความต้องการชุดวิธีการประเมินที่ครอบคลุมมากขึ้น มีแนวทางที่เป็นไปได้หลายประการเกิดขึ้น:
- การออกแบบการทดสอบที่ปรับเปลี่ยน: นักวิจัยเองแนะนำรูปแบบต่างๆ จะเป็นอย่างไรถ้าผู้ตัดสินเป็นผู้เชี่ยวชาญด้าน AI ซึ่งมีความคาดหวังที่แตกต่างกันและอาจมีวิธีการที่ซับซ้อนกว่าในการตรวจสอบความสามารถของเครื่องจักร จะเป็นอย่างไรถ้ามีการนำเสนอสิ่งจูงใจทางการเงินที่สำคัญ เพื่อกระตุ้นให้ผู้ตัดสินตรวจสอบการตอบสนองอย่างรอบคอบและไตร่ตรองมากขึ้น การเปลี่ยนแปลงเหล่านี้อาจเปลี่ยนแปลงพลวัตและอาจให้ผลลัพธ์ที่แตกต่างกัน ซึ่งเน้นย้ำถึงอิทธิพลของบริบทและแรงจูงใจต่อผลลัพธ์ของการทดสอบ
- การทดสอบความสามารถที่กว้างขึ้น: นอกเหนือจากความคล่องแคล่วในการสนทนา การประเมินอาจมุ่งเน้นไปที่งานที่หลากหลายมากขึ้นซึ่งต้องใช้แง่มุมต่างๆ ของความฉลาด – การแก้ปัญหาในขอบเขตใหม่ๆ การวางแผนระยะยาว การทำความเข้าใจความสัมพันธ์เชิงสาเหตุที่ซับซ้อน หรือการแสดงความคิดสร้างสรรค์อย่างแท้จริงแทนที่จะเป็นการผสมผสานข้อมูลการฝึกอบรมที่ซับซ้อน
- การประเมินแบบ Human-in-the-Loop (HITL): มีแนวโน้มเพิ่มขึ้นในการบูรณาการการตัดสินของมนุษย์เข้ากับการประเมิน AI อย่างเป็นระบบมากขึ้น แต่อาจอยู่ในรูปแบบที่มีโครงสร้างมากกว่า Turing Test แบบคลาสสิก ซึ่งอาจเกี่ยวข้องกับการให้มนุษย์ประเมินผลลัพธ์ของ AI ตามเกณฑ์เฉพาะ (เช่น ความถูกต้องของข้อเท็จจริง ความสอดคล้องเชิงตรรกะ ข้อพิจารณาทางจริยธรรม ประโยชน์ใช้สอย) แทนที่จะตัดสินเพียงแค่ว่าเป็นมนุษย์/เครื่องจักรแบบไบนารี มนุษย์สามารถช่วยปรับปรุงโมเดล ระบุจุดอ่อน และชี้นำการพัฒนาตามข้อเสนอแนะที่ละเอียดอ่อน
แนวคิดหลักคือการประเมินสิ่งที่ซับซ้อนอย่างความฉลาดนั้นต้องการการมองข้ามการเลียนแบบแบบง่ายๆ ในขณะที่ Turing Test ให้กรอบการทำงานเบื้องต้นที่มีคุณค่าและยังคงจุดประกายการอภิปรายที่สำคัญ การพึ่งพามันเพียงอย่างเดียวเสี่ยงต่อการเข้าใจผิดว่าการเลียนแบบที่ซับซ้อนคือความเข้าใจที่แท้จริง เส้นทางสู่ความเข้าใจและอาจบรรลุ AGI จำเป็นต้องมีวิธีการประเมินที่สมบูรณ์ หลากหลาย และอาจเข้มงวดมากขึ้น
ปริศนาของ AGI และอนาคตของการประเมิน
การทดลองล่าสุดเน้นย้ำถึงความท้าทายพื้นฐานที่ขยายไปไกลกว่าตัว Turing Test เอง: เราพยายามอย่างยิ่งที่จะนิยามอย่างแม่นยำว่าอะไรคือปัญญาประดิษฐ์ทั่วไป (Artificial General Intelligence) นับประสาอะไรกับการตกลงกันว่าเราจะรับรู้มันได้อย่างไรหากเราพบเจอ หากมนุษย์ ด้วยอคติและสมมติฐานที่มีอยู่ สามารถถูกชักจูงได้ง่ายโดย LLM ที่ได้รับ prompt อย่างดีในอินเทอร์เฟซแชทง่ายๆ เราจะตัดสินความสามารถทางปัญญาที่ลึกซึ้งกว่าของระบบในอนาคตที่อาจก้าวหน้ากว่ามากได้อย่างน่าเชื่อถือได้อย่างไร?
การเดินทางสู่ AGI ถูกปกคลุมไปด้วยความคลุมเครือ การศึกษาของ UC San Diego ทำหน้าที่เป็นเครื่องเตือนใจอันทรงพลังว่าเกณฑ์มาตรฐานปัจจุบันของเราอาจไม่เพียงพอสำหรับภารกิจข้างหน้า มันเน้นย้ำถึงความยากลำบากอย่างยิ่งในการแยกพฤติกรรมจำลองออกจากความเข้าใจที่แท้จริง โดยเฉพาะอย่างยิ่งเมื่อการจำลองมีความซับซ้อนมากขึ้นเรื่อยๆ สิ่งนี้นำไปสู่คำถามเชิงคาดเดา แต่กระตุ้นความคิด เกี่ยวกับกระบวนทัศน์การประเมินในอนาคต เราจะไปถึงจุดที่ คล้ายกับเรื่องเล่าในนิยายวิทยาศาสตร์ ที่การตัดสินของมนุษย์ถูกมองว่าไม่น่าเชื่อถือเกินไปที่จะแยกแยะ AI ขั้นสูงออกจากมนุษย์ได้หรือไม่?
บางที ในทางตรงกันข้าม การประเมินความฉลาดของเครื่องจักรขั้นสูงอาจต้องการความช่วยเหลือจากเครื่องจักรอื่นๆ ระบบที่ออกแบบมาโดยเฉพาะเพื่อตรวจสอบความลึกซึ้งทางปัญญา ความสอดคล้อง และการให้เหตุผลอย่างแท้จริง ซึ่งอาจอ่อนไหวต่อสัญญาณทางสังคมและอคติที่ชักจูงผู้ตัดสินที่เป็นมนุษย์น้อยกว่า อาจกลายเป็นองค์ประกอบที่จำเป็นของชุดเครื่องมือประเมิน หรืออย่างน้อยที่สุด ความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับปฏิสัมพันธ์ระหว่างคำสั่งของมนุษย์ (prompts) การปรับตัวของ AI และการรับรู้ถึงความฉลาดที่เกิดขึ้นตามมา จะมีความสำคัญอย่างยิ่ง เราอาจต้องถามเครื่องจักรว่า พวกมัน มองเห็นอะไรเมื่อสังเกตเครื่องจักรอื่นๆ ตอบสนองต่อความพยายามของมนุษย์ในการกระตุ้นพฤติกรรมที่เฉพาะเจาะจงและอาจหลอกลวงได้ การแสวงหาวิธีวัด AI บังคับให้เราเผชิญหน้าไม่เพียงแต่กับธรรมชาติของความฉลาดของเครื่องจักรเท่านั้น แต่ยังรวมถึงธรรมชาติที่ซับซ้อนและมักน่าประหลาดใจของเราเองด้วย