AI ล้ำหน้า ชนะเกมเลียนแบบมนุษย์ บ่อยครั้งเหนือกว่าคน

ทบทวนมาตรฐานใหม่: มุมมองสมัยใหม่ต่อวิสัยทัศน์ของ Turing

คำถามที่ว่าเครื่องจักรสามารถ ‘คิด’ ได้อย่างแท้จริงหรือไม่นั้น เป็นสิ่งที่นักวิทยาศาสตร์คอมพิวเตอร์และนักปรัชญาให้ความสนใจมานานหลายทศวรรษ หัวใจสำคัญของการถกเถียงนี้มักอยู่ที่แนวคิดสำคัญที่เสนอโดย Alan Turing นักคณิตศาสตร์และนักถอดรหัสชาวอังกฤษผู้ปราดเปรื่อง ซึ่งผลงานของเขาวางรากฐานสำคัญให้กับคอมพิวเตอร์สมัยใหม่ Turing จินตนาการถึงสถานการณ์ที่ปัจจุบันรู้จักกันดีในชื่อ Turing Test โดยมีผู้สอบสวนที่เป็นมนุษย์สนทนาผ่านข้อความกับสองสิ่งที่มองไม่เห็น – สิ่งหนึ่งคือมนุษย์ อีกสิ่งหนึ่งคือเครื่องจักร ตัวชี้วัดความสำเร็จที่สำคัญของเครื่องจักรคืออะไร? คือความสามารถในการหลอกผู้สอบสวนให้เชื่อว่าตนเป็นผู้เข้าร่วมที่เป็นมนุษย์ หากผู้สอบสวนไม่สามารถแยกแยะเครื่องจักรออกจากบุคคลได้อย่างน่าเชื่อถือ Turing ตั้งสมมติฐานว่าเครื่องจักรนั้นอาจถือได้ว่ามีความสามารถทางพฤติกรรมที่ชาญฉลาดคล้ายกับมนุษย์ แม้ว่าการทดสอบดั้งเดิมจะเผชิญกับการวิพากษ์วิจารณ์เกี่ยวกับความเพียงพอในการวัดสติปัญญาหรือความเข้าใจที่แท้จริง แต่แนวคิดหลัก – การประเมินความสามารถของ AI ในการจำลองปฏิสัมพันธ์ของมนุษย์ได้อย่างน่าเชื่อถือ – ยังคงเป็นมาตรฐานที่มีประสิทธิภาพ

บัดนี้ นักวิจัยจาก University of California, San Diego ได้เติมชีวิตชีวาให้กับการประเมินแบบคลาสสิกนี้ โดยนำเสนอรูปแบบที่น่าสนใจซึ่งออกแบบมาสำหรับภูมิทัศน์ AI ที่ซับซ้อนในปัจจุบัน การศึกษาของพวกเขาบุกเบิก การทดสอบ Turing Test แบบสามทาง เพิ่มความซับซ้อนและอาจเป็นพลวัตที่สมจริงยิ่งขึ้นในการประเมิน นี่ไม่ใช่แค่การแยกแยะ AI หนึ่งตัวออกจากมนุษย์หนึ่งคนเท่านั้น แต่ยังเกี่ยวข้องกับการเต้นรำที่ซับซ้อนยิ่งขึ้นของปฏิสัมพันธ์และการหลอกลวง ผลักดันระบบปัญญาประดิษฐ์ร่วมสมัยให้ถึงขีดจำกัดในศิลปะแห่งการเลียนแบบ ผลการวิจัยชี้ให้เห็นว่าโมเดล AI ที่ล้ำหน้าที่สุดไม่เพียงแต่เข้าใกล้เกณฑ์ของการสนทนาที่เหมือนมนุษย์เท่านั้น ในบางบริบท พวกมันอาจกระโดดข้ามเกณฑ์นั้นไปเลย บางครั้งดู เป็นมนุษย์ มากกว่ามนุษย์เสียอีก

สนามประลอง: การเผชิญหน้าระหว่างมนุษย์กับ AI สุดล้ำ

การออกแบบการทดลองที่สร้างขึ้นโดยทีม UC San Diego นั้นมีความเฉพาะเจาะจงและเข้มงวด การปฏิสัมพันธ์แต่ละรอบประกอบด้วยสามฝ่าย: ผู้เข้าร่วมที่เป็นมนุษย์สองคนและโมเดล AI หนึ่งตัว มนุษย์ได้รับมอบหมายเป้าหมายเดียวที่ท้าทาย: หลังจากช่วงเวลาสนทนา ให้ตัดสินว่าคู่สนทนาที่มองไม่เห็นสองคนของพวกเขาคนไหนคือปัญญาประดิษฐ์และคนไหนคือเพื่อนมนุษย์ การตั้งค่านี้โดยเนื้อแท้แล้วเพิ่มความเสี่ยงเมื่อเทียบกับ Turing Test แบบตัวต่อตัวแบบดั้งเดิม

เพื่อให้การตัดสินใจนี้ง่ายขึ้น ผู้เข้าร่วมได้มีส่วนร่วมใน บทสนทนาผ่านข้อความสองบทสนทนาพร้อมกันและขนานกัน – บทสนทนาหนึ่งกับมนุษย์ที่ซ่อนอยู่ อีกบทสนทนาหนึ่งกับ AI ที่ซ่อนอยู่ พวกเขาได้รับจัดสรร กรอบเวลาห้านาที ที่กระชับสำหรับแต่ละรอบ ภายในกรอบเวลานี้ ผู้ตัดสินที่เป็นมนุษย์มีอิสระอย่างสมบูรณ์ พวกเขาสามารถใช้กลยุทธ์การตั้งคำถามใดๆ สอบสวนด้วยหัวข้อใดๆ หรือใช้กลยุทธ์การสนทนาใดๆ ที่พวกเขาเห็นว่ามีประสิทธิภาพในการเปิดเผยธรรมชาติที่แท้จริงของคู่สนทนาของพวกเขา ความสั้นของกรอบเวลาปฏิสัมพันธ์เพิ่มความท้าทายอีกชั้นหนึ่ง ทดสอบความสามารถของ AI ในการสร้างบุคลิกที่น่าเชื่อถือได้อย่างรวดเร็วและรักษาไว้ภายใต้การตรวจสอบข้อเท็จจริง ในขณะเดียวกันก็ทดสอบความสามารถของมนุษย์ในการตัดสินใจที่รวดเร็วและแม่นยำโดยอาศัยข้อมูลการสนทนาที่จำกัด หลังจากช่วงเวลาปฏิสัมพันธ์ห้านาที ช่วงเวลาแห่งความจริงก็มาถึง: ผู้เข้าร่วมที่เป็นมนุษย์ลงคะแนนเสียง ระบุว่าพวกเขาเชื่อว่าสิ่งใดคือ AI

นักวิจัยไม่ได้พึ่งพาระบบ AI เพียงระบบเดียว แต่พวกเขากลับคัดสรรกลุ่มที่หลากหลายซึ่งเป็นตัวแทนของยุคสมัยและความสามารถที่แตกต่างกันในการพัฒนา AI:

  • ELIZA: แชทบอทผู้บุกเบิกที่พัฒนาโดย Joseph Weizenbaum เมื่อเกือบหกทศวรรษที่แล้ว (ไม่ใช่ 80 ตามที่ระบุในแหล่งที่มา ELIZA มีอายุย้อนไปถึงกลางทศวรรษ 1960) แม้ว่าจะดูโบราณตามมาตรฐานปัจจุบัน โดยอาศัยการจับคู่รูปแบบและสคริปต์ง่ายๆ แต่ ELIZA ก็ทำหน้าที่เป็นเกณฑ์ทางประวัติศาสตร์ ซึ่งเป็นตัวแทนของความพยายามในช่วงแรกๆ ในการสร้าง AI เชิงสนทนา
  • Meta’s Llama 3.1-405B: โมเดลภาษาขนาดใหญ่ (LLM) ร่วมสมัยที่ทรงพลังจาก Meta AI ซึ่งเป็นที่รู้จักในด้านความสามารถในการสร้างข้อความและการให้เหตุผลที่ซับซ้อน การรวมเข้ามานี้แสดงถึงสถานะปัจจุบันของเทคโนโลยีจากห้องปฏิบัติการวิจัย AI รายใหญ่แห่งหนึ่ง
  • OpenAI’s GPT-4o: โมเดลหลายรูปแบบ (multimodal) ที่เผยแพร่ต่อสาธารณะล่าสุดจาก OpenAI ณ เวลาที่ทำการศึกษา ซึ่งเป็นที่ยอมรับในด้านความเร็ว ประสิทธิภาพ และความสามารถในการสนทนาที่เพิ่มขึ้นเมื่อเทียบกับ GPT รุ่นก่อนหน้า
  • OpenAI’s GPT-4.5: ดูเหมือนจะเป็นเวอร์ชันที่ล้ำหน้ากว่า อาจจะยังไม่เผยแพร่หรือเป็นเวอร์ชันภายในของซีรีส์โมเดลเรือธงของ OpenAI การรวมเข้ามานี้ชี้ให้เห็นถึงการเข้าถึงโมเดลที่อาจผลักดันขอบเขตให้เหนือกว่าระบบที่มีอยู่ทั่วไป

การคัดเลือกนี้ทำให้นักวิจัยสามารถเปรียบเทียบไม่เพียงแต่ AI สมัยใหม่กับมนุษย์เท่านั้น แต่ยังเปรียบเทียบกับเกณฑ์ทางประวัติศาสตร์และเปรียบเทียบกับระดับความซับซ้อนของ AI ร่วมสมัยที่แตกต่างกัน คำถามหลักยังคงอยู่: เครื่องจักรเหล่านี้ โดยเฉพาะอย่างยิ่ง LLM ขั้นสูง สามารถนำทางปริศนาการสนทนาสามทางนี้ได้สำเร็จและผ่านการทดสอบว่าเป็นมนุษย์ได้หรือไม่?

กลยุทธ์บุคลิกภาพ: GPT-4.5 ประสบความสำเร็จอย่างน่าทึ่งได้อย่างไร

การศึกษาได้รวมสถานการณ์การทำงานที่แตกต่างกันสองแบบสำหรับโมเดล AI เพิ่มมิติอีกด้านให้กับการสืบสวน นักวิจัยต้องการทำความเข้าใจว่า เป้าหมายที่ชัดเจน ของ AI มีอิทธิพลต่อความสามารถในการหลอกลวงผู้เข้าร่วมที่เป็นมนุษย์หรือไม่

  • สถานการณ์ที่ 1: ภารกิจหลอกลวงอย่างชัดเจน: ในการตั้งค่านี้ AI ได้รับคำสั่งโดยตรงและชัดเจน: ทำให้ผู้เข้าร่วมที่เป็นมนุษย์เข้าใจผิด วัตถุประสงค์ที่ตั้งโปรแกรมไว้คือการทำทุกอย่างที่เป็นไปได้ในเชิงสนทนาเพื่อโน้มน้าวผู้พิพากษาที่เป็นมนุษย์ว่าพวกเขากำลังโต้ตอบกับบุคคลจริงอีกคนหนึ่ง สิ่งนี้ทดสอบความสามารถของ AI ในการวางกลยุทธ์และอาจถึงขั้นควบคุมการสนทนาไปสู่เป้าหมายของการดูเหมือนมนุษย์เมื่อได้รับคำสั่งอย่างชัดเจนให้ทำเช่นนั้น

  • สถานการณ์ที่ 2: ภารกิจเลียนแบบบุคลิกภาพ: ในที่นี้ AI ได้รับพรอมต์ประเภทอื่น ไม่ได้บอกอย่างชัดเจนให้หลอกลวง แต่ได้รับคำสั่งให้ สวมบทบาทบุคลิกภาพเฉพาะ – ของคนหนุ่มสาวที่หมกมุ่นอยู่กับวัฒนธรรมอินเทอร์เน็ตอย่างลึกซึ้ง พร้อมด้วยการใช้คำแสลงร่วมสมัยและรูปแบบการสื่อสารที่เป็นแบบฉบับของกลุ่มประชากรนั้น AI เพียงแค่ถูกขอให้ เป็น ตัวละครนี้ โดยไม่มีคำสั่งที่ชัดเจนให้หลอกผู้สอบสวน

ผลลัพธ์ในสองสถานการณ์นี้แตกต่างกันอย่างน่าทึ่ง โดยเฉพาะอย่างยิ่งสำหรับผู้แสดงที่โดดเด่น GPT-4.5 เมื่อทำงานภายใต้คำสั่งที่ชัดเจนให้ทำให้เข้าใจผิด (สถานการณ์ที่ 1) GPT-4.5 ประสบความสำเร็จในอัตรา 36% แม้ว่าจะไม่ใช่ตัวเลขที่เล็กน้อย แต่ตัวเลขนี้ชี้ให้เห็นว่าเมื่อพยายามหลอกลวงอย่างเปิดเผย AI อาจน่าเชื่อถือน้อยกว่า หรือบางทีความพยายามของมันอาจถูกตรวจจับได้ง่ายกว่าโดยผู้พิพากษาที่เป็นมนุษย์ซึ่งอาจระมัดระวังความเป็นเทียมเท็จมากขึ้น

อย่างไรก็ตาม เรื่องราวพลิกผันอย่างมากในภารกิจเลียนแบบบุคลิกภาพ (สถานการณ์ที่ 2) เมื่อเพียงแค่ถูกขอให้สวมบทบาทเป็นคนหนุ่มสาวที่เชี่ยวชาญอินเทอร์เน็ต ประสิทธิภาพของ GPT-4.5 ก็พุ่งสูงขึ้น มันสามารถโน้มน้าวผู้เข้าร่วมที่เป็นมนุษย์ถึงความเป็นมนุษย์ของตนได้สำเร็จในอัตราที่น่าทึ่งถึง 73% ของการโต้ตอบ สิ่งนี้ชี้ให้เห็นว่าการสวมบทบาทตัวละครที่ดูเป็นธรรมชาติ แม้จะเป็นตัวละครที่มีสไตล์ ก็เป็นกลยุทธ์ที่มีประสิทธิภาพมากกว่าในการกลมกลืนมากกว่าการพยายามหลอกลวงโดยตรง มันบ่งบอกว่าจุดแข็งของ AI ไม่ได้อยู่ที่การจัดการที่คำนวณมาอย่างดี แต่อยู่ที่ความสามารถในการสังเคราะห์และจำลองรูปแบบการสื่อสารของมนุษย์ที่เกี่ยวข้องกับข้อมูลประชากรหรือบุคลิกภาพเฉพาะได้อย่างสมจริง ซึ่งเรียนรู้จากข้อมูลการฝึกอบรมจำนวนมหาศาล AI ไม่ได้ พยายาม ที่จะเป็นมนุษย์ มัน แสดง เป็นมนุษย์ประเภทหนึ่ง และทำได้อย่างมีประสิทธิภาพอย่างน่าอัศจรรย์

ประสิทธิภาพเปรียบเทียบ: สเปกตรัมของการหลอกลวง

ในขณะที่ GPT-4.5 ขโมยซีนไป ประสิทธิภาพของโมเดล AI อื่นๆ ก็ให้บริบทที่มีค่าและความประหลาดใจที่น่าสนใจบางอย่าง

Meta’s Llama 3.1-405B ยังแสดงให้เห็นถึงความสามารถที่น่าพิจารณา มันประสบความสำเร็จในอัตรา 56% ในการโน้มน้าวให้มนุษย์เชื่อในความถูกต้องของมัน ผลลัพธ์นี้ดีกว่าโอกาสสุ่มอย่างมีนัยสำคัญ (ซึ่งจะเป็น 50% ในสถานการณ์สองตัวเลือก แม้ว่าพลวัตการทดสอบสามทางจะทำให้ความน่าจะเป็นง่ายๆ ซับซ้อนขึ้นเล็กน้อย) มันจัดให้ Llama 3.1 อยู่ในหมวดหมู่ของนักเลียนแบบการสนทนาที่มีความสามารถสูง สามารถหลอกผู้พิพากษาที่เป็นมนุษย์ได้บ่อยครั้ง แม้ว่าจะยังไม่ถึงระดับที่ไม่ธรรมดาที่ GPT-4.5 แสดงให้เห็นในสถานการณ์ที่เหมาะสมที่สุด ประสิทธิภาพที่แข็งแกร่งนี้ตอกย้ำความก้าวหน้าโดยทั่วไปของโมเดลภาษาขนาดใหญ่ชั้นนำในการจำลองบทสนทนาของมนุษย์ที่ละเอียดอ่อน

บางทีการค้นพบที่ไม่คาดคิดที่สุดอาจเกิดขึ้นจากการเปรียบเทียบระหว่าง GPT-4o และโปรแกรม ELIZA ในอดีต โมเดล GPT-4o ขั้นสูงของ OpenAI สามารถโน้มน้าวผู้เข้าร่วมว่าเป็นมนุษย์ได้เพียง 21% ของกรณีเท่านั้น ในทางตรงกันข้าม โปรแกรม ELIZA ที่ใช้สคริปต์ที่ง่ายกว่ามากกลับทำได้ดีกว่าเล็กน้อย โดยมีอัตราความสำเร็จ 23% แม้ว่าทั้งสองเปอร์เซ็นต์จะต่ำ ซึ่งบ่งชี้ว่าไม่มีใครน่าเชื่อถือเป็นพิเศษในการตั้งค่าการทดสอบเฉพาะนี้ แต่ความได้เปรียบของ ELIZA แม้จะเล็กน้อย ก็น่าสังเกต มันทำให้เกิดคำถามเกี่ยวกับธรรมชาติของการรับรู้และการตัดสินของมนุษย์ในการโต้ตอบสั้นๆ เหล่านี้ อาจเป็นไปได้ว่าความเรียบง่ายและความสามารถในการคาดเดาของ ELIZA ซึ่งอาจถูกมองว่าแปลกหรือมีลักษณะเฉพาะตัว บางครั้งถูกตีความผิดว่าเป็นการสื่อสารที่ไม่เป็นมาตรฐานของมนุษย์ ในขณะที่การตอบสนองที่ซับซ้อนกว่าของ GPT-4o แต่อาจดูไร้ชีวิตชีวาหรือเป็นทางการเกินไป (ขึ้นอยู่กับการกระตุ้นและพฤติกรรมเฉพาะในการทดสอบ) ถูกระบุว่าเป็นสิ่งประดิษฐ์ได้ง่ายกว่าหรือไม่? หรืออีกทางหนึ่ง อาจสะท้อนถึงความแตกต่างเล็กน้อยในการโต้ตอบเฉพาะหรือความคาดหวังของผู้เข้าร่วมที่เอื้อต่อสไตล์ของ ELIZA ในบางกรณี ผลลัพธ์นี้สมควรได้รับการตรวจสอบเพิ่มเติมเกี่ยวกับวิธีที่มนุษย์รับรู้ ประเภท ต่างๆ ของความเป็นเทียมเท็จหรือการสื่อสารที่ไม่เป็นมาตรฐาน

อย่างไรก็ตาม ผลลัพธ์ที่โดดเด่นยังคงเป็นประสิทธิภาพของ GPT-4.5 ซึ่งเน้นย้ำเป็นพิเศษโดยผู้เขียนนำของการศึกษา Cameron Jones นักวิจัยที่ Language and Cognition Laboratory ที่ UC San Diego Jones เน้นย้ำถึงแง่มุมที่น่าตกใจที่สุด: ‘ผู้คนไม่สามารถแยกแยะระหว่างคนจาก GPT-4.5 และ LLaMa และ 4.5 ยังถูกจัดอันดับว่าเป็นมนุษย์บ่อยกว่าคนจริงๆ เสียอีก!’ นี่เป็นคำกล่าวที่ลึกซึ้ง เป็นเรื่องหนึ่งที่ AI จะผ่านการทดสอบว่าเป็นมนุษย์ เป็นอีกเรื่องหนึ่งที่มันจะถูกรับรู้ว่า เป็นมนุษย์มากกว่า มนุษย์จริงๆ ที่เข้าร่วมในการทดสอบเดียวกัน สิ่งนี้ชี้ให้เห็นว่า GPT-4.5 อย่างน้อยในสถานการณ์บุคลิกภาพ อาจสร้างการตอบสนองที่สอดคล้องกับ ความคาดหวัง ของผู้เข้าร่วมเกี่ยวกับการโต้ตอบออนไลน์ของมนุษย์ทั่วไป (อาจมีส่วนร่วม สอดคล้อง หรือเป็นแบบแผน ‘มนุษย์’ มากกว่า) มากกว่าการตอบสนองที่แท้จริง ซึ่งอาจหลากหลายกว่าหรือไม่สามารถคาดเดาได้ ของคู่สนทนาที่เป็นมนุษย์จริงๆ

เหนือกว่า Turing: นัยยะของการเลียนแบบ AI ที่สมจริงเกินจริง

ในขณะที่นักวิจัยยอมรับว่า Turing Test เอง ในรูปแบบดั้งเดิมและอาจจะแม้แต่ในรูปแบบที่แก้ไขนี้ อาจเป็นตัวชี้วัดที่ล้าสมัยสำหรับการประเมินความฉลาดหรือความเข้าใจของเครื่องจักรที่แท้จริง แต่ผลการศึกษาของพวกเขาก็มีน้ำหนักอย่างมีนัยสำคัญ พวกเขาเสนอหลักฐานที่ชัดเจนว่าระบบ AI โดยเฉพาะอย่างยิ่งระบบที่สร้างขึ้นบนโมเดลภาษาขนาดใหญ่ที่ฝึกฝนบนชุดข้อมูลข้อความและการสนทนาของมนุษย์จำนวนมหาศาล ได้ก้าวหน้าไปไกลเพียงใดในความสามารถในการ เชี่ยวชาญศิลปะแห่งการเลียนแบบ

ผลลัพธ์แสดงให้เห็นว่าระบบเหล่านี้สามารถสร้างผลลัพธ์การสนทนาที่ไม่เพียงแต่ถูกต้องตามหลักไวยากรณ์หรือเกี่ยวข้องตามบริบทเท่านั้น แต่ยัง แยกไม่ออกจากผลลัพธ์ของมนุษย์ในเชิงการรับรู้ อย่างน้อยก็ภายใต้ข้อจำกัดของการโต้ตอบสั้นๆ ผ่านข้อความ แม้ว่า AI ที่อยู่เบื้องหลังจะไม่ได้มีความเข้าใจอย่างแท้จริง มีสติ หรือมีประสบการณ์เชิงอัตวิสัยที่แจ้งการสื่อสารของมนุษย์ แต่ความสามารถในการสังเคราะห์การตอบสนองที่น่าเชื่อถือ มีส่วนร่วม และสอดคล้องกับตัวละครก็กำลังพัฒนาอย่างรวดเร็ว มันสามารถสร้างภาพลักษณ์ของความเข้าใจที่น่าเชื่อถือพอที่จะหลอกผู้พิพากษาที่เป็นมนุษย์ได้เป็นส่วนใหญ่ โดยเฉพาะอย่างยิ่งเมื่อสวมบทบาทบุคลิกภาพที่เข้าถึงได้

ความสามารถนี้มีนัยยะสำคัญอย่างยิ่ง ขยายไปไกลกว่าความอยากรู้อยากเห็นทางวิชาการของ Turing Test Cameron Jones ชี้ให้เห็นถึงการเปลี่ยนแปลงทางสังคมที่อาจเกิดขึ้นหลายประการซึ่งขับเคลื่อนโดยการเลียนแบบขั้นสูงนี้:

  • ระบบอัตโนมัติในงาน: ความสามารถของ AI ในการแทนที่มนุษย์อย่างราบรื่นในการโต้ตอบระยะสั้น โดยอาจตรวจไม่พบ เปิดประตูให้กว้างขึ้นสำหรับระบบอัตโนมัติในบทบาทที่ต้องพึ่งพาการสื่อสารผ่านข้อความเป็นอย่างมาก การแชทบริการลูกค้า การสร้างเนื้อหา การป้อนข้อมูล การจัดตารางเวลา และความช่วยเหลือดิจิทัลรูปแบบต่างๆ อาจเห็นการนำ AI มาใช้เพิ่มขึ้น แทนที่พนักงานที่เป็นมนุษย์หาก AI พิสูจน์ได้ว่าน่าเชื่อถือและคุ้มค่าเพียงพอ การศึกษาชี้ให้เห็นว่าเกณฑ์ ‘ความน่าเชื่อถือ’ กำลังบรรลุหรือเกินกว่านั้น
  • วิศวกรรมสังคมที่เพิ่มขึ้น: ศักยภาพในการใช้ในทางที่ผิดนั้นมีนัยสำคัญ ผู้ไม่หวังดีสามารถใช้ประโยชน์จากแชทบอท AI ที่สมจริงเกินจริงสำหรับการหลอกลวงฟิชชิ่งที่ซับซ้อน การเผยแพร่ข้อมูลที่บิดเบือน การบิดเบือนความคิดเห็นของสาธารณชน หรือการปลอมตัวเป็นบุคคลเพื่อวัตถุประสงค์ในการฉ้อโกง AI ที่ถูกรับรู้ว่าเป็นมนุษย์บ่อยกว่ามนุษย์จริงๆ อาจเป็นเครื่องมือหลอกลวงที่ทรงพลังอย่างเหลือเชื่อ ทำให้บุคคลไว้วางใจการโต้ตอบออนไลน์ได้ยากขึ้น ประสิทธิภาพของกลยุทธ์ ‘บุคลิกภาพ’ เป็นเรื่องที่น่ากังวลเป็นพิเศษในที่นี้ เนื่องจาก AI สามารถปรับแต่งให้ปลอมตัวเป็นบุคคลที่น่าเชื่อถือหรือบุคคลที่มีอำนาจประเภทต่างๆ ได้
  • ความปั่นป่วนทางสังคมโดยทั่วไป: นอกเหนือจากการใช้งานเฉพาะ การนำ AI ที่สามารถเลียนแบบมนุษย์โดยตรวจไม่พบมาใช้อย่างแพร่หลายอาจเปลี่ยนแปลงพลวัตทางสังคมโดยพื้นฐาน เราจะสร้างความไว้วางใจในสภาพแวดล้อมออนไลน์ได้อย่างไร? จะเกิดอะไรขึ้นกับธรรมชาติของความสัมพันธ์ของมนุษย์เมื่อสื่อสารผ่านคู่สนทนาที่อาจเป็นสิ่งประดิษฐ์? มันอาจนำไปสู่ความโดดเดี่ยวที่เพิ่มขึ้น หรือในทางตรงกันข้าม รูปแบบใหม่ของความเป็นเพื่อนระหว่าง AI กับมนุษย์หรือไม่? เส้นแบ่งที่พร่ามัวระหว่างการสื่อสารของมนุษย์และเครื่องจักรจำเป็นต้องมีการพิจารณาทางสังคมเกี่ยวกับคำถามเหล่านี้ มันท้าทายคำจำกัดความของเราเกี่ยวกับความถูกต้องและการโต้ตอบในยุคดิจิทัล

การศึกษาซึ่งกำลังรอการตรวจสอบโดยผู้ทรงคุณวุฒิ ทำหน้าที่เป็นจุดข้อมูลที่สำคัญซึ่งแสดงให้เห็นถึงความก้าวหน้าอย่างรวดเร็วของความสามารถของ AI ในการจำลองพฤติกรรมการสนทนาของมนุษย์ มันตอกย้ำว่าในขณะที่การถกเถียงเกี่ยวกับปัญญาประดิษฐ์ทั่วไปที่แท้จริงยังคงดำเนินต่อไป ความสามารถในทางปฏิบัติของ AI ในการ แสดง เป็นมนุษย์ในบริบทเฉพาะได้มาถึงจุดเปลี่ยนที่สำคัญแล้ว เรากำลังเข้าสู่ยุคที่ภาระการพิสูจน์อาจเปลี่ยนไป – แทนที่จะถามว่าเครื่องจักร สามารถ ดูเหมือนมนุษย์ได้หรือไม่ เราอาจต้องตั้งคำถามมากขึ้นเรื่อยๆ ว่า ‘มนุษย์’ ที่เรากำลังโต้ตอบด้วยทางออนไลน์นั้นเป็นสิ่งมีชีวิตทางชีวภาพจริงๆ หรือไม่ เกมเลียนแบบได้มาถึงระดับใหม่แล้ว และผลที่ตามมาของมันเพิ่งจะเริ่มเปิดเผยออกมา