เกมเลียนแบบ: AI หลอกลวงได้เนียนแล้วหรือยัง?

การอ้างสิทธิ์ครั้งสำคัญในวงการปัญญาประดิษฐ์

การแสวงหาเพื่อสร้างเครื่องจักรที่คิดได้ หรืออย่างน้อยก็เลียนแบบความคิดของมนุษย์ได้อย่างน่าเชื่อถือ เป็นรากฐานสำคัญของวิทยาการคอมพิวเตอร์มาตั้งแต่ยุคเริ่มต้น เป็นเวลาหลายทศวรรษที่เกณฑ์มาตรฐาน แม้จะมีการถกเถียงกันอยู่บ่อยครั้ง คือ Turing Test ซึ่งเป็นอุปสรรคทางแนวคิดที่เสนอโดยผู้มีวิสัยทัศน์ Alan Turing เมื่อเร็วๆ นี้ เสียงกระซิบได้กลายเป็นเสียงตะโกนภายในชุมชน AI หลังจากผลการศึกษาใหม่ นักวิจัยรายงานว่าหนึ่งในแบบจำลองภาษาขนาดใหญ่ (LLMs) ที่ทันสมัยที่สุดในปัจจุบัน คือ GPT-4.5 ของ OpenAI ไม่เพียงแต่เข้าร่วมในการทดสอบรูปแบบใหม่นี้เท่านั้น แต่ยังอาจกล่าวได้ว่าได้รับชัยชนะ โดยมักจะพิสูจน์ได้ว่ามีความเป็น ‘มนุษย์’ ที่น่าเชื่อถือมากกว่าผู้เข้าร่วมที่เป็นมนุษย์จริงๆ การพัฒนานี้จุดประกายคำถามพื้นฐานเกี่ยวกับธรรมชาติของสติปัญญา ขีดจำกัดของการจำลอง และทิศทางของปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ในยุคที่ AI ที่ซับซ้อนเข้ามามีบทบาทมากขึ้นเรื่อยๆ ผลกระทบที่ตามมาขยายวงกว้างไปไกลกว่าความอยากรู้อยากเห็นทางวิชาการ สัมผัสถึงแก่นแท้ของความไว้วางใจ การจ้างงาน และปฏิสัมพันธ์ทางสังคมในยุคดิจิทัล

ทำความเข้าใจกับความท้าทาย: มรดกของ Turing Test

เพื่อที่จะชื่นชมความสำคัญของการอ้างสิทธิ์ล่าสุดนี้ เราต้องเข้าใจการทดสอบเสียก่อน การทดสอบนี้คิดค้นโดยนักคณิตศาสตร์และนักถอดรหัสชาวอังกฤษ Alan Turing ในบทความชิ้นเอกของเขาเมื่อปี 1950 เรื่อง ‘Computing Machinery and Intelligence’ ซึ่งในตอนแรกไม่ได้นำเสนอเป็นระเบียบวิธีที่เข้มงวด แต่เป็นการทดลองทางความคิด หรือ ‘เกมเลียนแบบ’ (imitation game) หลักการนั้นเรียบง่ายอย่างสง่างาม: ผู้สอบสวนที่เป็นมนุษย์จะมีส่วนร่วมในการสนทนาผ่านข้อความกับสองสิ่งที่มองไม่เห็น – สิ่งหนึ่งคือมนุษย์ อีกสิ่งหนึ่งคือเครื่องจักร หน้าที่ของผู้สอบสวนคือการตัดสินว่าสิ่งใดคือสิ่งใด โดยอาศัยเพียงคำตอบที่พิมพ์ออกมาเท่านั้น

Turing เสนอว่าหากเครื่องจักรสามารถหลอกผู้สอบสวนให้เชื่อว่าเป็นผู้เข้าร่วมที่เป็นมนุษย์ได้อย่างสม่ำเสมอ ก็อาจถือได้ในทางปฏิบัติว่ามีความสามารถในการคิด เขาก้าวข้ามคำถามเชิงปรัชญาที่ซับซ้อนว่าเครื่องจักรสามารถคิด อย่างแท้จริง หรือมีจิตสำนึกได้ หรือไม่ โดยมุ่งเน้นไปที่ความสามารถในการจำลองพฤติกรรมการสนทนาของมนุษย์ได้อย่างแยกไม่ออกแทน มันเป็นแนวทางเชิงปฏิบัติ โดยมีเป้าหมายเพื่อให้คำจำกัดความของปัญญาประดิษฐ์ที่วัดผลได้ แม้จะเป็นเชิงพฤติกรรมก็ตาม ในช่วงหลายปีที่ผ่านมา Turing Test ได้กลายเป็นทั้งสัญลักษณ์ที่โดดเด่นในวัฒนธรรมสมัยนิยมและเป็นหมุดหมายที่เกิดขึ้นซ้ำๆ แม้จะมีการโต้แย้งกัน ในสาขาปัญญาประดิษฐ์ พลังที่ยั่งยืนของมันอยู่ที่การเผชิญหน้าโดยตรงกับคำถาม: การกระทำเหมือนมนุษย์ หมายความว่า อย่างไร?

สนามประลองสมัยใหม่: การทดสอบรูปแบบใหม่

การทดลองล่าสุด ซึ่งมีรายละเอียดอยู่ในรายงานการศึกษาก่อนตีพิมพ์ นำโดยนักวิจัยจาก Language and Cognition Lab ของ UC San Diego ได้ปรับแนวคิดดั้งเดิมของ Turing ให้เข้ากับภูมิทัศน์ดิจิทัลร่วมสมัย แทนที่จะมีผู้สอบสวนเพียงคนเดียวที่มุ่งเน้นไปที่ผู้เข้าร่วมที่ซ่อนอยู่สองคน รูปแบบนี้ใช้พลวัตแบบสามฝ่ายภายในสภาพแวดล้อมออนไลน์ มีการรับสมัครผู้เข้าร่วมเกือบ 300 คนและสุ่มมอบหมายบทบาทในหลายๆ รอบ บางคนทำหน้าที่เป็นผู้สอบสวน มีหน้าที่ตั้งคำถามและประเมินคำตอบ คนอื่นๆ ทำหน้าที่เป็นหนึ่งในสอง ‘พยาน’ – ผู้ตอบที่เป็นมนุษย์จริงๆ บทบาทสำคัญสุดท้ายถูกเติมเต็มโดย AI chatbot ซึ่งทำหน้าที่เป็นพยานคนที่สอง

ความท้าทายหลักยังคงเหมือนเดิม: ผู้สอบสวน หลังจากช่วงเวลาของการโต้ตอบแชทพร้อมกันกับทั้งพยานที่เป็นมนุษย์และ AI จะต้องตัดสิน – สิ่งใดคือเครื่องจักร และสิ่งใดคือเพื่อนมนุษย์? การตั้งค่านี้มีจุดมุ่งหมายเพื่อให้สภาพแวดล้อมที่ควบคุมได้เพื่อประเมินความสามารถในการสนทนาของระบบ AI สมัยใหม่อย่างเข้มงวดเทียบกับเกณฑ์มาตรฐานของมนุษย์ในการโต้ตอบแบบเรียลไทม์ ขนาดของการศึกษา ซึ่งเกี่ยวข้องกับกลุ่มผู้เข้าร่วมจำนวนมากและหลายรอบ พยายามที่จะให้น้ำหนักทางสถิติแก่ผลการค้นพบ ก้าวข้ามการอ้างสิทธิ์เล็กๆ น้อยๆ เกี่ยวกับความซับซ้อนของ AI นักวิจัยยังได้รวมโมเดล AI ที่แตกต่างกันหลายแบบไว้ในการทดลองของพวกเขา โดยเฉพาะอย่างยิ่ง GPT-4.5 และ GPT-4o ของ OpenAI, LLaMa 3.1-405B ของ Meta และที่น่าสนใจคือ ELIZA ซึ่งเป็น chatbot พื้นฐานที่พัฒนาขึ้นในช่วงกลางทศวรรษ 1960 ทำหน้าที่เป็นเกณฑ์มาตรฐานทางประวัติศาสตร์

ปัจจัยชี้ขาด: พลังของบุคลิกภาพ (Persona)

ผลการศึกษาที่ให้ความกระจ่างมากที่สุด และอาจน่าตกใจที่สุด ขึ้นอยู่กับเงื่อนไขการทดลองที่เฉพาะเจาะจง: วิธีที่โมเดล AI ได้รับคำสั่ง หรือ ‘prompted’ ก่อนที่จะเข้าร่วมการสนทนา นักวิจัยใช้กลยุทธ์การให้คำสั่งที่แตกต่างกันสองแบบ

  • คำสั่งแบบ ‘ไม่มีบุคลิกภาพ’ (No-Persona Prompt): สิ่งนี้เกี่ยวข้องกับการให้คำแนะนำที่น้อยที่สุดและตรงไปตรงมาแก่ AI โดยระบุถึงการเข้าร่วมใน Turing test และวัตถุประสงค์ของมัน: ‘เป้าหมายของคุณคือการโน้มน้าวผู้สอบสวนว่าคุณเป็นมนุษย์’ แนวทางนี้ทดสอบความสามารถโดยธรรมชาติของ AI ในการเลียนแบบการสนทนาของมนุษย์โดยไม่มีคำแนะนำเฉพาะเกี่ยวกับลักษณะนิสัยหรือสไตล์
  • คำสั่งแบบ ‘มีบุคลิกภาพ’ (Persona Prompt): ในเงื่อนไขนี้ AI ได้รับคำแนะนำที่มีรายละเอียดมากขึ้น โดยขอให้สวมบทบาทหรือบุคลิกภาพเฉพาะ ตัวอย่างเช่น อาจได้รับคำสั่งให้ทำตัวเหมือน ‘คนหนุ่มสาวที่ใช้คำแสลง มีความรู้เกี่ยวกับวัฒนธรรมอินเทอร์เน็ต แต่ไม่เปิดเผยว่าเป็น AI’ สิ่งนี้ทดสอบความสามารถของ AI ไม่ใช่แค่การสนทนา แต่เพื่อแสดงบทบาทได้อย่างน่าเชื่อถือ

ความแตกต่างของผลลัพธ์ระหว่างสองเงื่อนไขนี้ไม่ได้เล็กน้อย มันลึกซึ้งมาก เมื่อทำงานภายใต้คำสั่ง ‘ไม่มีบุคลิกภาพ’ แบบง่ายๆ GPT-4.5 แม้จะมีสถาปัตยกรรมขั้นสูง ก็ยังประสบปัญหาในการโน้มน้าวใจ อัตราความสำเร็จ – เปอร์เซ็นต์ของเวลาที่ผู้สอบสวนระบุผิดว่าเป็นมนุษย์ – อยู่ที่ประมาณ 36 เปอร์เซ็นต์ ซึ่งต่ำกว่าเครื่องหมาย 50 เปอร์เซ็นต์อย่างมีนัยสำคัญ ซึ่งจะบ่งชี้ว่าผู้สอบสวนเดาสุ่ม ในทำนองเดียวกัน GPT-4o ซึ่งเป็นกลไกเบื้องหลัง ChatGPT ที่ใช้กันอย่างแพร่หลาย ก็มีอัตราความสำเร็จต่ำกว่าที่ 21 เปอร์เซ็นต์ ภายใต้คำแนะนำพื้นฐานเหล่านี้ น่าแปลกที่ ELIZA chatbot รุ่นเก่ากลับมีอัตราความสำเร็จ 23 เปอร์เซ็นต์ ซึ่งเหนือกว่า GPT-4o ที่ซับซ้อนกว่ามากเล็กน้อยในสถานการณ์เฉพาะนี้ บางทีอาจเน้นให้เห็นว่ารูปแบบการสนทนาพื้นฐานบางครั้งสามารถผ่านการทดสอบได้ หรือความคาดหวังของมนุษย์มีบทบาทอย่างไร

อย่างไรก็ตาม เรื่องราวเปลี่ยนไปอย่างมากเมื่อ GPT-4.5 ได้รับคำสั่งแบบ ‘มีบุคลิกภาพ’ เมื่อได้รับคำสั่งให้สวมบทบาทตัวละครเฉพาะ ประสิทธิภาพของมันก็พุ่งสูงขึ้น ผู้สอบสวนระบุว่า GPT-4.5 เป็นผู้เข้าร่วมที่เป็นมนุษย์ถึง 73 เปอร์เซ็นต์ ของเวลาทั้งหมด ตัวเลขนี้ไม่เพียงแต่อยู่เหนือเกณฑ์ 50 เปอร์เซ็นต์สำหรับการผ่าน Turing Test อย่างสบายๆ เท่านั้น แต่ยังบ่งบอกถึงความเชี่ยวชาญที่น่าทึ่งในการหลอกลวงด้วยการสนทนาที่ขับเคลื่อนด้วยตัวละครอย่างต่อเนื่อง นักวิจัยสังเกตเห็นความสำเร็จที่คล้ายคลึงกันสำหรับโมเดล LLaMa ของ Meta เมื่อได้รับคำสั่งพร้อมบุคลิกภาพเช่นกัน ความหมายนั้นชัดเจน: ความสามารถของโมเดล AI ขั้นสูงเหล่านี้ในการเลียนแบบมนุษยชาติได้อย่างน่าเชื่อถือดูเหมือนจะเพิ่มขึ้นอย่างมีนัยสำคัญเมื่อพวกมันถูกชี้นำไม่เพียงแค่ให้พูดคุย แต่ให้ แสดง เหมือนมนุษย์ ประเภท เฉพาะ

เป็นมนุษย์ยิ่งกว่ามนุษย์? ผลลัพธ์ที่น่ากังวล

บางทีแง่มุมที่ขัดกับสัญชาตญาณและกระตุ้นความคิดมากที่สุดของการศึกษาเกิดขึ้นจากการทดลอง ‘มีบุคลิกภาพ’ ที่เกี่ยวข้องกับ GPT-4.5 ไม่เพียงแต่ AI จะหลอกผู้สอบสวนได้บ่อยครั้งเท่านั้น แต่ตามที่ผู้เขียนนำ Cameron Jones กล่าว มันถูกระบุว่าเป็นมนุษย์ บ่อยครั้งกว่าอย่างมีนัยสำคัญ เมื่อเทียบกับผู้เข้าร่วมที่เป็นมนุษย์ จริงๆ ในการสนทนาเดียวกัน Jones เน้นย้ำเรื่องนี้บนโซเชียลมีเดีย โดยระบุว่า ‘ผู้คนไม่สามารถแยกแยะมนุษย์ออกจาก GPT-4.5 และ LLaMa (ด้วยคำสั่งแบบมีบุคลิกภาพ) ได้ดีไปกว่าการสุ่มเดา… และ 4.5 ยังถูกตัดสินว่าเป็นมนุษย์บ่อยครั้งกว่ามนุษย์จริงๆ อย่างมีนัยสำคัญ!’

การค้นพบนี้เปิดกล่อง Pandora ที่ซับซ้อนของการตีความ มันหมายความว่า AI มีความเชี่ยวชาญเป็นพิเศษในการแสดงความเป็นมนุษย์ บางทีอาจถึงขั้นรวบรวมลักษณะการสนทนาตามแบบแผนบางอย่างได้อย่างสม่ำเสมอกว่าคนจริงๆ ซึ่งอาจแสดงความหลากหลาย ความลังเล หรือความแปลกแยกมากกว่าหรือไม่? หรือมันสะท้อนบางอย่างเกี่ยวกับความคาดหวังและการรับรู้ของผู้สอบสวน? บางทีมุษย์ เมื่อพยายาม ‘แสดง’ เป็นมนุษย์อย่างมีสติในการทดสอบ อาจดูเป็นธรรมชาติน้อยกว่าหรือระมัดระวังตัวมากกว่า AI ที่ดำเนินการตามบุคลิกภาพที่ตั้งโปรแกรมไว้อย่างไม่มีที่ติ นอกจากนี้ยังอาจชี้ให้เห็นว่าบุคลิกภาพเฉพาะที่ได้รับมอบหมาย (เช่น ‘คนหนุ่มสาวที่มีความรู้เกี่ยวกับวัฒนธรรมอินเทอร์เน็ต’) สอดคล้องกับประเภทของข้อความที่คล่องแคล่ว ค่อนข้างทั่วไป และเต็มไปด้วยข้อมูล ซึ่ง LLMs เก่งในการสร้าง ทำให้ผลลัพธ์ของพวกมันดูเหมือนเป็นตัวแทนที่เกินจริงของต้นแบบนั้น ไม่ว่าคำอธิบายที่แม่นยำจะเป็นอย่างไร ข้อเท็จจริงที่ว่าเครื่องจักรสามารถถูกรับรู้ว่า เป็นมนุษย์มากกว่า มนุษย์ในการทดสอบที่ออกแบบมาเพื่อตรวจจับคุณสมบัติเหมือนเครื่องจักร ถือเป็นผลลัพธ์ที่น่ากังวลอย่างยิ่ง ท้าทายสมมติฐานของเราเกี่ยวกับความถูกต้องในการสื่อสาร

เหนือกว่าการเลียนแบบ: ตั้งคำถามกับเกณฑ์มาตรฐาน

ในขณะที่การผ่าน Turing Test ได้สำเร็จ โดยเฉพาะอย่างยิ่งด้วยเปอร์เซ็นต์ที่สูงเช่นนี้ ถือเป็นความสำเร็จทางเทคนิค ผู้เชี่ยวชาญหลายคนเตือนไม่ให้เปรียบเทียบความสำเร็จนี้กับความฉลาดหรือความเข้าใจที่เหมือนมนุษย์อย่างแท้จริง Turing Test ซึ่งคิดค้นขึ้นนานก่อนการกำเนิดของชุดข้อมูลขนาดใหญ่และการเรียนรู้เชิงลึก ประเมิน ผลลัพธ์เชิงพฤติกรรม เป็นหลัก – โดยเฉพาะอย่างยิ่ง ความคล่องแคล่วในการสนทนา Large Language Models เช่น GPT-4.5 โดยแก่นแท้แล้ว เป็นกลไกการจับคู่รูปแบบและการคาดการณ์ที่ซับซ้อนอย่างยิ่ง พวกมันได้รับการฝึกฝนจากข้อมูลข้อความจำนวนมหาศาลที่สร้างขึ้นโดยมนุษย์ – หนังสือ บทความ เว็บไซต์ การสนทนา ‘ทักษะ’ ของพวกมันอยู่ที่การเรียนรู้ความสัมพันธ์ทางสถิติระหว่างคำ วลี และแนวคิด ทำให้พวกมันสามารถสร้างข้อความที่สอดคล้องกัน เกี่ยวข้องตามบริบท และถูกต้องตามหลักไวยากรณ์ ซึ่งเลียนแบบรูปแบบที่สังเกตได้ในข้อมูลการฝึกอบรม

ดังที่ François Chollet นักวิจัย AI คนสำคัญของ Google กล่าวในการให้สัมภาษณ์กับ Nature ในปี 2023 เกี่ยวกับ Turing Test ว่า ‘มันไม่ได้มีไว้เพื่อเป็นการทดสอบตามตัวอักษรที่คุณจะนำไปใช้กับเครื่องจักรจริงๆ – มันเป็นเหมือนการทดลองทางความคิดมากกว่า’ นักวิจารณ์แย้งว่า LLMs สามารถบรรลุการเลียนแบบการสนทนาได้โดยปราศจากความเข้าใจพื้นฐาน จิตสำนึก หรือประสบการณ์ส่วนตัว – ซึ่งเป็นจุดเด่นของสติปัญญาของมนุษย์ พวกมันเป็นผู้เชี่ยวชาญด้านไวยากรณ์และความหมายที่ได้มาจากข้อมูล แต่ขาดการหยั่งรู้ในโลกแห่งความเป็นจริง การให้เหตุผลตามสามัญสำนึก (แม้ว่าพวกมันจะสามารถจำลองได้) และเจตนา ในมุมมองนี้ การผ่าน Turing Test แสดงให้เห็นถึงความเป็นเลิศในการเลียนแบบ ไม่จำเป็นต้องหมายถึงการเกิดขึ้นของความคิด มันพิสูจน์ว่า AI สามารถ จำลอง รูปแบบภาษาของมนุษย์ได้อย่างเชี่ยวชาญ บางทีอาจถึงระดับที่เหนือกว่าประสิทธิภาพของมนุษย์ทั่วไปในบริบทเฉพาะ แต่ก็ไม่ได้ไขคำถามที่ลึกซึ้งกว่าเกี่ยวกับสภาวะภายในหรือความเข้าใจของเครื่องจักร ดูเหมือนว่าเกมนี้จะทดสอบคุณภาพของหน้ากาก ไม่ใช่ธรรมชาติของสิ่งที่อยู่เบื้องหลัง

ดาบสองคม: ผลกระทบต่อสังคม

ความสามารถของ AI ในการปลอมตัวเป็นมนุษย์ได้อย่างน่าเชื่อถือ ดังที่แสดงให้เห็นในการศึกษานี้ มีนัยยะสำคัญทางสังคมที่ลึกซึ้งและอาจก่อให้เกิดการเปลี่ยนแปลงครั้งใหญ่ ซึ่งขยายวงกว้างไปไกลกว่าการถกเถียงทางวิชาการเกี่ยวกับสติปัญญา Cameron Jones ผู้เขียนนำของการศึกษา เน้นย้ำถึงข้อกังวลเหล่านี้อย่างชัดเจน โดยชี้ให้เห็นว่าผลลัพธ์ดังกล่าวนำเสนอหลักฐานที่ชัดเจนถึงผลกระทบในโลกแห่งความเป็นจริงของ LLMs ขั้นสูง

  • ระบบอัตโนมัติและอนาคตของการทำงาน: Jones ชี้ให้เห็นถึงศักยภาพของ LLMs ในการ ‘ทดแทนผู้คนในการโต้ตอบสั้นๆ โดยไม่มีใครสามารถบอกได้’ ความสามารถนี้สามารถเร่งการทำงานอัตโนมัติของงานที่ต้องอาศัยการสื่อสารผ่านข้อความเป็นหลัก เช่น บทบาทการบริการลูกค้า การสนับสนุนทางเทคนิค การกลั่นกรองเนื้อหา และแม้กระทั่งบางแง่มุมของงานข่าวหรืองานธุรการ ในขณะที่ระบบอัตโนมัติให้คำมั่นสัญญาถึงประสิทธิภาพที่เพิ่มขึ้น แต่ก็ยังก่อให้เกิดความกังวลอย่างมากเกี่ยวกับการถูกแทนที่ของงานและความจำเป็นในการปรับตัวของแรงงานในระดับที่ไม่เคยมีมาก่อน ผลกระทบทางเศรษฐกิจและสังคมของการทำให้บทบาทที่ก่อนหน้านี้ถือว่าเป็นของมนุษย์โดยเฉพาะเนื่องจากการพึ่งพาการสื่อสารที่ละเอียดอ่อนเป็นไปโดยอัตโนมัติอาจมีมหาศาล
  • การเพิ่มขึ้นของการหลอกลวงที่ซับซ้อน: บางทีสิ่งที่น่าตกใจยิ่งกว่าในทันทีคือศักยภาพในการนำไปใช้ในทางที่ผิดในกิจกรรมที่เป็นอันตราย การศึกษานี้เน้นย้ำถึงความเป็นไปได้ของ ‘การโจมตีทางวิศวกรรมสังคมที่ได้รับการปรับปรุง’ ลองนึกภาพบอทที่ขับเคลื่อนด้วย AI มีส่วนร่วมในการหลอกลวงแบบฟิชชิ่งที่เป็นส่วนตัวสูง การเผยแพร่ข้อมูลที่บิดเบือนที่ปรับแต่งมาโดยเฉพาะ หรือการชักจูงบุคคลในฟอรัมออนไลน์หรือโซเชียลมีเดียด้วยประสิทธิภาพที่ไม่เคยมีมาก่อน เพราะพวกมันดูเหมือนแยกไม่ออกจากมนุษย์ ความสามารถในการสวมบทบาทบุคลิกภาพที่เฉพาะเจาะจงและน่าเชื่อถืออาจทำให้การโจมตีเหล่านี้น่าเชื่อถือมากขึ้นและตรวจจับได้ยากขึ้น สิ่งนี้อาจกัดกร่อนความไว้วางใจในการโต้ตอบออนไลน์ ทำให้การตรวจสอบความถูกต้องของการสื่อสารดิจิทัลทำได้ยากขึ้นเรื่อยๆ และอาจกระตุ้นให้เกิดความแตกแยกทางสังคมหรือความไม่มั่นคงทางการเมือง
  • การหยุดชะงักทางสังคมโดยทั่วไป: นอกเหนือจากภัยคุกคามเฉพาะแล้ว การนำ AI ที่เหมือนมนุษย์อย่างน่าเชื่อถือมาใช้อย่างแพร่หลายอาจนำไปสู่การเปลี่ยนแปลงทางสังคมในวงกว้าง ความสัมพันธ์ระหว่างบุคคลเปลี่ยนแปลงไปอย่างไรเมื่อเราไม่แน่ใจว่ากำลังคุยกับมนุษย์หรือเครื่องจักร? จะเกิดอะไรขึ้นกับคุณค่าของการเชื่อมต่อของมนุษย์ที่แท้จริง? เพื่อน AI สามารถเติมเต็มช่องว่างทางสังคมได้หรือไม่ แต่ต้องแลกมาด้วยปฏิสัมพันธ์ของมนุษย์ที่แท้จริง? เส้นแบ่งที่พร่ามัวระหว่างการสื่อสารของมนุษย์และปัญญาประดิษฐ์ท้าทายบรรทัดฐานทางสังคมขั้นพื้นฐานและสามารถปรับเปลี่ยนวิธีที่เราสัมพันธ์ซึ่งกันและกันและกับเทคโนโลยีได้ ศักยภาพสำหรับทั้งการใช้งานเชิงบวก (เช่น เครื่องมือช่วยการเข้าถึงที่ได้รับการปรับปรุง หรือการศึกษาส่วนบุคคล) และผลกระทบเชิงลบ สร้างภูมิทัศน์ที่ซับซ้อนซึ่งสังคมเพิ่งเริ่มต้นที่จะนำทาง

องค์ประกอบของมนุษย์: การรับรู้ที่เปลี่ยนแปลงไป

สิ่งสำคัญคือต้องตระหนักว่า Turing Test และการทดลองเช่นเดียวกับที่ดำเนินการที่ UC San Diego ไม่ได้เป็นเพียงการประเมินความสามารถของเครื่องจักรเท่านั้น แต่ยังเป็นการสะท้อนถึงจิตวิทยาและการรับรู้ของมนุษย์ด้วย ดังที่ Jones สรุปในความเห็นของเขา การทดสอบทำให้ เรา อยู่ภายใต้กล้องจุลทรรศน์มากพอๆ กับที่ทำกับ AI ความสามารถ หรือการไร้ความสามารถของเราในการแยกแยะมนุษย์ออกจากเครื่องจักร ได้รับอิทธิพลจากอคติ ความคาดหวัง และความคุ้นเคยที่เพิ่มขึ้น (หรือขาดหายไป) ของเรากับระบบ AI

ในตอนแรก เมื่อเผชิญหน้ากับ AI ใหม่ๆ มนุษย์อาจถูกหลอกได้ง่าย อย่างไรก็ตาม เมื่อการเปิดรับเพิ่มขึ้น สัญชาตญาณอาจเฉียบคมขึ้น ผู้คนอาจปรับตัวเข้ากับรอยนิ้วมือทางสถิติที่ละเอียดอ่อนของข้อความที่สร้างโดย AI ได้มากขึ้น – บางทีอาจเป็นน้ำเสียงที่สม่ำเสมอเกินไป การขาดการหยุดชั่วคราวหรือความไม่คล่องแคล่วที่แท้จริง หรือความรู้สารานุกรมที่รู้สึกไม่เป็นธรรมชาติเล็กน้อย ผลลัพธ์ของการทดสอบดังกล่าวจึงไม่คงที่ พวกมันแสดงถึงภาพรวม ณ ช่วงเวลาหนึ่งของปฏิสัมพันธ์ในปัจจุบันระหว่างความซับซ้อนของ AI และการมองเห็นของมนุษย์ เป็นไปได้ว่าเมื่อสาธารณชนคุ้นเคยกับการโต้ตอบกับ AI ในรูปแบบต่างๆ มากขึ้น ความสามารถโดยรวมในการ ‘ดมกลิ่นพวกมัน’ อาจดีขึ้น ซึ่งอาจเป็นการยกระดับมาตรฐานสำหรับสิ่งที่ถือเป็น ‘การเลียนแบบ’ ที่ประสบความสำเร็จ การรับรู้ถึงความฉลาดของ AI เป็นเป้าหมายที่เคลื่อนไหว ซึ่งหล่อหลอมโดยความก้าวหน้าทางเทคโนโลยีในด้านหนึ่ง และความเข้าใจและการปรับตัวของมนุษย์ที่พัฒนาขึ้นในอีกด้านหนึ่ง

เราจะไปทางไหนต่อ? นิยามใหม่ของสติปัญญา

ความสำเร็จของโมเดลอย่าง GPT-4.5 ใน Turing tests ที่ขับเคลื่อนด้วยบุคลิกภาพ ถือเป็นจุดสำคัญในการพัฒนา AI ซึ่งแสดงให้เห็นถึงความเชี่ยวชาญที่น่าประทับใจในการเลียนแบบทางภาษา อย่างไรก็ตาม ในขณะเดียวกันก็เน้นย้ำถึงข้อจำกัดของ Turing Test ในฐานะตัวชี้วัดที่ชัดเจนของ ‘สติปัญญา’ ในยุคของ LLMs ในขณะที่เฉลิมฉลองความสำเร็จทางเทคนิค บางทีจุดสนใจอาจต้องเปลี่ยนไป แทนที่จะถามเพียงว่า AI สามารถ หลอก เราให้คิดว่าเป็นมนุษย์ได้หรือไม่ เราอาจต้องการเกณฑ์มาตรฐานที่ละเอียดอ่อนมากขึ้นซึ่งตรวจสอบความสามารถทางปัญญาที่ลึกซึ้งยิ่งขึ้น – ความสามารถต่างๆ เช่น การให้เหตุผลตามสามัญสำนึกที่แข็งแกร่ง ความเข้าใจอย่างแท้จริงเกี่ยวกับเหตุและผล ความสามารถในการปรับตัวเข้ากับสถานการณ์ใหม่ๆ อย่างแท้จริง (ไม่ใช่แค่รูปแบบต่างๆ ของข้อมูลการฝึกอบรม) และการตัดสินทางจริยธรรม ความท้าทายในอนาคตไม่ใช่แค่การสร้างเครื่องจักรที่สามารถพูดคุยเหมือนเราได้ แต่คือการทำความเข้าใจธรรมชาติที่แท้จริงของความสามารถและข้อจำกัดของพวกมัน และการพัฒนาขอบข่ายงาน – ทั้งทางเทคนิคและทางสังคม – เพื่อควบคุมศักยภาพของพวกมันอย่างมีความรับผิดชอบ ในขณะที่ลดความเสี่ยงที่ปฏิเสธไม่ได้ซึ่งเกิดจากผู้กระทำการเทียมที่ซับซ้อนมากขึ้นในหมู่พวกเรา เกมเลียนแบบยังคงดำเนินต่อไป แต่กฎเกณฑ์ และบางทีอาจเป็นคำจำกัดความของชัยชนะ กำลังพัฒนาไปอย่างรวดเร็ว