เกมเลียนแบบ: AI สนทนาเหมือนมนุษย์ได้หรือยัง?

ภารกิจในการสร้างเครื่องจักรที่สามารถคิด หรืออย่างน้อยก็สนทนา ได้เหมือนมนุษย์ เป็นความทะเยอทะยานที่มีมาอย่างยาวนานในแวดวงปัญญาประดิษฐ์ (AI) เป็นเวลาหลายทศวรรษแล้วที่เกณฑ์มาตรฐาน แม้จะเป็นที่ถกเถียงกันอยู่ มักจะเป็น Turing Test ซึ่งคิดค้นโดยนักคณิตศาสตร์อัจฉริยะ Alan Turing ในช่วงกลางศตวรรษที่ 20 หลักการนั้นเรียบง่ายแต่ลึกซึ้ง: เครื่องจักรสามารถโต้ตอบกับผู้ซักถามที่เป็นมนุษย์ได้อย่างน่าเชื่อถือจนผู้พิพากษาไม่สามารถแยกแยะความแตกต่างระหว่างเครื่องจักรกับมนุษย์อีกคนได้อย่างน่าเชื่อถือหรือไม่? พัฒนาการล่าสุดชี้ให้เห็นว่าแบบจำลองภาษาขนาดใหญ่ (LLMs) ที่ซับซ้อนที่สุดบางตัวอาจบรรลุถึง หรืออาจจะก้าวข้าม หลักชัยที่น่าสนใจนี้ไปแล้ว ทำให้เกิดการถกเถียงกันใหม่เกี่ยวกับธรรมชาติของความฉลาด การเลียนแบบ และทิศทางในอนาคตของ AI

การเตรียมเวที: ความท้าทายด้านการสนทนารอบใหม่

การศึกษาชิ้นหนึ่งจาก University of California San Diego ได้นำคำถามนี้กลับมาสู่ความสนใจอย่างเข้มข้น นักวิจัย Cameron R. Jones และ Benjamin K. Bergen ได้ออกแบบการทดสอบ Turing Test แบบร่วมสมัยเพื่อประเมินความสามารถในการสนทนาของระบบ AI ที่ล้ำสมัย การทดลองของพวกเขาให้ผู้เข้าร่วมที่เป็นมนุษย์แข่งขันกับโมเดล AI หลายตัว รวมถึง GPT-4.5 ที่ได้รับการยกย่องอย่างสูงของ OpenAI และ LLaMa-3.1-405B ที่น่าเกรงขามของ Meta การตั้งค่าเกี่ยวข้องกับผู้พิพากษาที่เป็นมนุษย์ซึ่งมีส่วนร่วมในการสนทนาผ่านข้อความนานห้านาทีพร้อมกัน – บทสนทนาหนึ่งกับผู้เข้าร่วมที่เป็นมนุษย์ที่ซ่อนอยู่ และอีกบทสนทนาหนึ่งกับโมเดล AI ที่ซ่อนอยู่ หลังจากการโต้ตอบสั้นๆ เหล่านี้ งานของผู้พิพากษาก็ตรงไปตรงมา: ระบุว่าคู่สนทนาใดเป็นเครื่องจักรและคู่สนทนาใดเป็นมนุษย์

ผลลัพธ์ โดยเฉพาะอย่างยิ่งสำหรับโมเดลที่ได้รับแจ้งให้สวมบทบาทเฉพาะนั้นน่าทึ่งมาก

  • ประสิทธิภาพของ GPT-4.5: เมื่อได้รับคำสั่งให้ทำตัวเหมือนมนุษย์ มีรายงานว่า GPT-4.5 หลอกผู้พิพากษาได้ถึง 73% ตัวเลขนี้มีความสำคัญเนื่องจากบ่งชี้ว่าผู้พิพากษามีแนวโน้มที่จะระบุว่า AI เป็นมนุษย์มากกว่าผู้เข้าร่วมที่เป็นมนุษย์จริงๆ ที่เกี่ยวข้องในการสนทนา
  • การแสดงของ LLaMa-3.1-405B: โมเดลขนาดใหญ่ของ Meta, LLaMa-3.1-405B (โดย 405B หมายถึงจำนวนพารามิเตอร์มหาศาลที่กำหนดความสามารถของมัน) ก็ทำงานได้อย่างน่าเชื่อถือภายใต้เงื่อนไข ‘บทบาท’ เดียวกัน มันถูกระบุว่าเป็นมนุษย์ 56% ของเวลาทั้งหมด แม้ว่าจะต่ำกว่าคะแนนของ GPT-4.5 แต่ผลลัพธ์นี้ก็ยังคงสูงกว่าเกณฑ์ 50% ที่สำคัญ ซึ่งมักถือเป็นตัวบ่งชี้ว่าผ่านการทดสอบ ซึ่งชี้ให้เห็นว่าการตอบสนองของมันยากที่จะแยกแยะทางสถิติจากการตอบสนองของผู้เข้าร่วมที่เป็นมนุษย์
  • การเปรียบเทียบพื้นฐาน: เพื่อให้บริบทและเพื่อให้แน่ใจว่าผู้พิพากษาไม่ได้เดาสุ่ม นักวิจัยได้รวมโมเดลพื้นฐานไว้ด้วย ELIZA ซึ่งเป็นแชทบอทชื่อดังยุคแรกๆ จากทศวรรษ 1960 ที่ออกแบบโดย Joseph Weizenbaum ที่ MIT ถูกรวมไว้เป็นกลุ่มควบคุม ไม่น่าแปลกใจที่ประสิทธิภาพของมันสะท้อนให้เห็นถึงความก้าวหน้าอย่างมากใน AI นับตั้งแต่การสร้าง โดยได้คะแนน ‘ความเป็นมนุษย์’ เพียง 23% ที่น่าสนใจคือ GPT-4o ซึ่งเป็นโมเดล OpenAI ที่ใหม่กว่าซึ่งเปิดตัวในปี 2024 ก็ทำงานในระดับพื้นฐานที่คล้ายกันในการตั้งค่าการทดสอบเฉพาะนี้ โดยถูกตัดสินว่าเป็นมนุษย์เพียง 21% ของเวลาทั้งหมด สิ่งนี้เน้นย้ำว่าการกำหนดค่า การฝึกอบรม หรืออาจจะเป็นกลยุทธ์การแจ้งเตือน (prompting strategy) เอง มีบทบาทสำคัญในการบรรลุประสิทธิภาพการสนทนาที่เหมือนมนุษย์

ระเบียบวิธีวิจัยของการศึกษา ซึ่งใช้การตั้งค่าแบบสามฝ่าย (ผู้พิพากษา, มนุษย์ที่ซ่อนอยู่, AI ที่ซ่อนอยู่) ได้รับการกล่าวถึงในเรื่องความเข้มงวดเมื่อเทียบกับความพยายามก่อนหน้านี้บางส่วนในการประเมิน AI เทียบกับเกณฑ์มาตรฐาน Turing มีจุดมุ่งหมายเพื่อสร้างสถานการณ์ที่ท้าทายและสมจริงมากขึ้นสำหรับการประเมินความไม่สามารถแยกแยะได้ในการสนทนา

พลังแห่งบทบาท: AI ในฐานะนักแสดงตามบทบาท

ปัจจัยสำคัญที่มีอิทธิพลต่ออัตราความสำเร็จของ GPT-4.5 และ LLaMa-3.1-405B ในการศึกษาเฉพาะนี้คือการใช้ ‘บทบาท’ (persona) ที่เฉพาะเจาะจง นักวิจัยทดสอบโมเดลทั้งแบบมีและไม่มีคำแนะนำให้สวมบทบาทหรือน้ำเสียงที่เหมือนมนุษย์ การก้าวกระโดดอย่างมีนัยสำคัญในประสิทธิภาพเมื่อใช้การแจ้งเตือนบทบาท (persona prompt) ตอกย้ำแง่มุมสำคัญของ LLMs สมัยใหม่: ความสามารถที่น่าทึ่งในการปรับเปลี่ยนผลลัพธ์ตามคำแนะนำ

‘การสวมบทบาท’ หมายถึงอะไรสำหรับ AI? หมายความว่าโมเดลปรับเปลี่ยน:

  1. น้ำเสียงและสไตล์: เลียนแบบภาษาพูดทั่วไป ใช้ภาษาพูด หรือแม้กระทั่งจำลองความลังเลหรือการไตร่ตรอง
  2. จุดเน้นของเนื้อหา: อาจอ้างอิงถึงประสบการณ์ส่วนตัว (แม้ว่าจะสร้างขึ้น) แสดงความคิดเห็น หรือมีส่วนร่วมในการพูดคุยเล็กๆ น้อยๆ ที่เกี่ยวข้องกับตัวละครที่สวมบทบาท
  3. รูปแบบการโต้ตอบ: ตอบสนองในลักษณะที่ให้ความรู้สึกโต้ตอบได้มากขึ้นและไม่เหมือนระบบดึงข้อมูลล้วนๆ

ความสามารถนี้เกิดจากวิธีการฝึกโมเดลเหล่านี้โดยตรง LLMs เรียนรู้รูปแบบ สไตล์ และข้อมูลจากชุดข้อมูลขนาดมหึมาที่ป้อนเข้าไป ซึ่งส่วนใหญ่ประกอบด้วยข้อความและโค้ดที่สร้างโดยมนุษย์ทั่วอินเทอร์เน็ตและวรรณกรรมดิจิทัล เมื่อได้รับแจ้งให้ทำตัวเหมือนคนประเภทใดประเภทหนึ่ง โมเดลจะดึงตัวอย่างการสนทนาของมนุษย์จำนวนมหาศาลภายในข้อมูลการฝึกอบรมที่สอดคล้องกับบทบาทนั้น มันเกี่ยวกับ การจับคู่รูปแบบและการสร้างที่ซับซ้อน มากกว่าบุคลิกภาพที่แท้จริง

สิ่งนี้นำไปสู่แนวคิด ดังที่ผู้สังเกตการณ์อย่าง John Nosta ผู้ก่อตั้ง NostaLab ซึ่งเป็น think-tank ด้านนวัตกรรม ได้กล่าวไว้ว่า บางทีสิ่งที่เรากำลังเห็นอยู่นี้อาจไม่ใช่ ปัญญา ประดิษฐ์ในความหมายของมนุษย์ แต่เป็น ความเห็นอกเห็นใจ ประดิษฐ์ขั้นสูง หรืออย่างน้อยก็เป็นการจำลองที่น่าเชื่อถือ AI ไม่ได้รู้สึกเห็นอกเห็นใจ แต่มันได้เรียนรู้รูปแบบทางภาษาที่เกี่ยวข้องกับการแสดงออก ความสำเร็จขึ้นอยู่กับการเลียนแบบพฤติกรรม การปรับแต่งการตอบสนองด้วยไหวพริบที่สะท้อนความเป็นมนุษย์ โดยเฉพาะอย่างยิ่งในระหว่างการโต้ตอบสั้นๆ เช่น การสนทนาห้านาทีที่ใช้ในการทดสอบ

นักวิจัยเองก็เน้นย้ำถึงความสามารถในการปรับตัวนี้: ‘อาจกล่าวได้ว่าเป็นความง่ายดายที่ LLMs สามารถได้รับแจ้งให้ปรับเปลี่ยนพฤติกรรมให้เข้ากับสถานการณ์ต่างๆ ซึ่งทำให้พวกมันมีความยืดหยุ่นมาก: และดูเหมือนว่าจะสามารถผ่านการทดสอบว่าเป็นมนุษย์ได้’ ความยืดหยุ่นนี้เป็นดาบสองคม ทำให้เกิดความคล่องแคล่วในการสนทนาที่น่าทึ่ง ในขณะเดียวกันก็ทำให้เกิดคำถามเกี่ยวกับความถูกต้องและศักยภาพในการชักจูง

ความสำเร็จครั้งสำคัญหรือตัวชี้วัดที่บกพร่อง? การประเมิน Turing Test ใหม่

ในขณะที่พาดหัวข่าวอาจประกาศว่า AI ‘ผ่าน’ Turing Test ความสำคัญของความสำเร็จนี้จำเป็นต้องได้รับการพิจารณาอย่างรอบคอบ การโน้มน้าวผู้พิพากษาส่วนใหญ่ในการแชทข้อความสั้นๆ เทียบเท่ากับความฉลาดระดับมนุษย์จริงหรือ? ผู้เชี่ยวชาญส่วนใหญ่ รวมถึงผู้เขียนการศึกษาโดยปริยาย จะโต้แย้งว่า ไม่

Turing Test ซึ่งคิดค้นขึ้นนานก่อนการถือกำเนิดของ LLMs ที่ฝึกฝนบนข้อมูลขนาดอินเทอร์เน็ต วัด ประสิทธิภาพการสนทนา เป็นหลัก ไม่ใช่ความสามารถทางปัญญาที่ลึกซึ้งกว่า เช่น:

  • ความเข้าใจ: AI เข้าใจความแตกต่างและความหมายโดยนัยของการสนทนาอย่างแท้จริง หรือเป็นเพียงการคาดการณ์คำถัดไปที่น่าจะเป็นไปได้ทางสถิติมากที่สุด?
  • จิตสำนึก: ประสบการณ์ส่วนตัวของการรับรู้และความคิดยังคงอยู่ในขอบเขตของมนุษย์ (และอาจรวมถึงสิ่งมีชีวิตทางชีวภาพอื่นๆ) โมเดล AI ในปัจจุบันไม่แสดงหลักฐานว่ามีสิ่งนี้
  • การให้เหตุผล: ในขณะที่ AI สามารถดำเนินการตามขั้นตอนเชิงตรรกะในโดเมนเฉพาะได้ ความสามารถในการให้เหตุผลทั่วไป สามัญสำนึก และความเข้าใจเหตุและผลในสถานการณ์ใหม่ๆ ยังคงจำกัดเมื่อเทียบกับมนุษย์
  • เจตนา: การตอบสนองของ AI ถูกสร้างขึ้นตามอัลกอริทึมและข้อมูล พวกมันขาดความเชื่อ ความปรารถนา หรือเจตนาที่แท้จริงซึ่งขับเคลื่อนการสื่อสารของพวกมัน

ดังนั้น คะแนนสูงใน Turing Test แสดงให้เห็นว่า AI สามารถ เล่นเกมเลียนแบบ ได้ดีเป็นพิเศษ โดยเฉพาะอย่างยิ่งเมื่อได้รับคำแนะนำจากข้อความแจ้งเตือนเฉพาะ มันได้เรียนรู้ที่จะสร้างข้อความที่สอดคล้องอย่างใกล้ชิดกับรูปแบบการสนทนาของมนุษย์ Sinead Bovell ผู้ก่อตั้งบริษัทการศึกษาด้านเทคโนโลยี Waye สะท้อนถึงเรื่องนี้ โดยตั้งคำถามว่าน่าแปลกใจจริงหรือที่ AI ซึ่งฝึกฝนจาก ‘ข้อมูลมนุษย์มากกว่าที่คนๆ หนึ่งจะอ่านหรือดูได้หมด’ จะเก่งกาจในการ ‘ฟังดูเหมือนมนุษย์’ ในที่สุด

สิ่งนี้ทำให้เกิดคำถามพื้นฐาน: Turing Test ยังคงเป็นเกณฑ์มาตรฐานที่เกี่ยวข้องหรือเพียงพอสำหรับความก้าวหน้าของ AI ในศตวรรษที่ 21 หรือไม่? บางคนโต้แย้งว่าการมุ่งเน้นไปที่การหลอกลวงผ่านการสนทนานั้นแคบเกินไปและอาจทำให้เข้าใจผิดได้ มันไม่ได้ประเมินความสามารถที่เรามักเชื่อมโยงกับความฉลาดที่แท้จริงอย่างเพียงพอ เช่น การแก้ปัญหา ความคิดสร้างสรรค์ การตัดสินทางจริยธรรม หรือความสามารถในการปรับตัวเข้ากับสภาพแวดล้อมทางกายภาพหรือแนวคิดใหม่ๆ ทั้งหมด

บริบททางประวัติศาสตร์ก็มีความเกี่ยวข้องเช่นกัน การอ้างว่า AI ผ่าน Turing Test เคยเกิดขึ้นมาก่อน ในปี 2014 แชทบอทชื่อ ‘Eugene Goostman’ ซึ่งออกแบบมาเพื่อจำลองเด็กชายชาวยูเครนอายุ 13 ปี มีรายงานว่าสามารถโน้มน้าวผู้พิพากษาได้ 33% ในระหว่างการทดสอบที่คล้ายกัน แม้ว่าสิ่งนี้จะได้รับการยกย่องจากบางคนในขณะนั้น แต่อัตราความสำเร็จ 33% นั้นต่ำกว่าเกณฑ์ 50% ที่อ้างถึงกันโดยทั่วไป และทำได้โดยใช้บทบาท (วัยรุ่นที่ไม่ใช่เจ้าของภาษาอังกฤษ) ซึ่งสามารถใช้เป็นข้ออ้างสำหรับข้อผิดพลาดทางไวยากรณ์หรือช่องว่างความรู้ได้ เมื่อเปรียบเทียบกับผลลัพธ์ล่าสุดที่เกิน 50% และสูงถึง 73% ด้วยโมเดลที่ซับซ้อนกว่า ความคืบหน้าใน AI เชิงสนทนานั้นไม่อาจปฏิเสธได้ แต่ข้อจำกัดของการทดสอบเองก็ยังคงมีความเกี่ยวข้อง

การมองเข้าไปในเครื่องยนต์: ปัจจัยขับเคลื่อนความสามารถในการสนทนา

ประสิทธิภาพที่น่าประทับใจของโมเดลอย่าง GPT-4.5 ไม่ใช่เรื่องบังเอิญ มันเป็นผลมาจากนวัตกรรมและการปรับปรุงอย่างไม่หยุดยั้งในการพัฒนา AI โดยเฉพาะอย่างยิ่งในขอบเขตของแบบจำลองภาษาขนาดใหญ่ มีหลายปัจจัยที่ส่งผลต่อความสามารถในการสร้างข้อความที่เหมือนมนุษย์:

  1. ชุดข้อมูลขนาดใหญ่: LLMs สมัยใหม่ได้รับการฝึกฝนจากข้อความและโค้ดจำนวนมหาศาลอย่างแท้จริง การเปิดรับข้อมูลจำนวนมากนี้ช่วยให้พวกมันเรียนรู้โครงสร้างไวยากรณ์ที่ซับซ้อน คำศัพท์ที่หลากหลาย ความแตกต่างทางสไตล์ ข้อมูลข้อเท็จจริง (แม้ว่าจะไม่ถูกต้องเสมอไป) และลำดับการสนทนาทั่วไป
  2. สถาปัตยกรรมที่ซับซ้อน: เทคโนโลยีพื้นฐาน ซึ่งมักจะใช้สถาปัตยกรรม Transformer ใช้กลไกเช่น ‘attention’ ที่ช่วยให้โมเดลสามารถให้น้ำหนักความสำคัญของคำต่างๆ ในข้อความแจ้งเตือนอินพุตเมื่อสร้างเอาต์พุต สิ่งนี้ช่วยรักษาบริบทและความสอดคล้องกันในข้อความที่ยาวขึ้น
  3. เทคนิคการฝึกขั้นสูง: เทคนิคต่างๆ เช่น Reinforcement Learning from Human Feedback (RLHF) ถูกนำมาใช้เพื่อปรับแต่งโมเดล มนุษย์ให้คะแนนการตอบสนองต่างๆ ของ AI เพื่อนำทางโมเดลไปสู่การสร้างผลลัพธ์ที่เป็นประโยชน์มากขึ้น ไม่เป็นอันตราย และเป็นจริงมากขึ้น – และบ่อยครั้ง ฟังดูเหมือนมนุษย์มากขึ้น
  4. ขนาดพารามิเตอร์: โมเดลอย่าง LLaMa-3.1-405B ซึ่งมีพารามิเตอร์หลายแสนล้านตัว มีความจุมากขึ้นในการจัดเก็บและประมวลผลข้อมูลที่เรียนรู้ระหว่างการฝึก ทำให้สามารถสร้างข้อความที่ซับซ้อนและละเอียดอ่อนมากขึ้น
  5. การรักษาบริบท: โมเดลรุ่นใหม่แสดงความสามารถที่ดีขึ้นในการ ‘จดจำ’ ส่วนก่อนหน้าของการสนทนา นำไปสู่การโต้ตอบที่สอดคล้องและเกี่ยวข้องมากขึ้น ซึ่งเป็นลักษณะสำคัญของการสนทนาของมนุษย์
  6. รากฐานแบบหลายรูปแบบ (Multimodal Foundations): การต่อยอดจากรุ่นก่อนหน้าอย่าง GPT-4 ซึ่งรวมความสามารถนอกเหนือจากข้อความ (เช่น การทำความเข้าใจภาพ) ทำให้โมเดลรุ่นใหม่มีศักยภาพในการแสดงแทนภายในที่สมบูรณ์ยิ่งขึ้น แม้ว่าการโต้ตอบในการทดสอบจะเป็นแบบข้อความล้วนก็ตาม

เมื่อ OpenAI เปิดตัว GPT-4.5 ตัวอย่าง CEO Sam Altman กล่าวว่า ‘มันเป็นโมเดลแรกที่ให้ความรู้สึกเหมือนกำลังคุยกับคนที่มีความคิดสำหรับผม’ แม้จะเป็นเรื่องส่วนตัว แต่ความรู้สึกนี้สะท้อนถึงการก้าวกระโดดเชิงคุณภาพในความสามารถในการสนทนาที่ความก้าวหน้าทางเทคนิคเหล่านี้ได้ทำให้เกิดขึ้น การแจ้งเตือนบทบาท (persona prompt) จึงทำหน้าที่เป็นคันโยกที่ทรงพลัง ชี้นำความสามารถเหล่านี้ไปสู่การเลียนแบบสไตล์การสนทนาของมนุษย์ที่เฉพาะเจาะจงซึ่งดึงมาจากข้อมูลที่เรียนรู้

ผลกระทบต่อความเป็นจริง: ข้อพิจารณาทางสังคมและเศรษฐกิจ

การแสดงให้เห็นว่า AI สามารถเลียนแบบการสนทนาของมนุษย์ได้อย่างน่าเชื่อถือ แม้ว่าจะไม่เท่ากับความฉลาดที่แท้จริงก็ตาม แต่ก็ส่งผลกระทบอย่างมีนัยสำคัญในโลกแห่งความเป็นจริงซึ่งขยายไปไกลกว่าการทดสอบทางวิชาการ ดังที่ Sinead Bovell ตั้งข้อสังเกต ความก้าวหน้าเหล่านี้มี ‘ผลกระทบทางเศรษฐกิจและสังคมที่ยิ่งใหญ่’ ที่อาจเกิดขึ้น

  • การเปลี่ยนแปลงในตลาดงาน: สาขาที่ต้องพึ่งพาการสื่อสารอย่างมากเป็นเป้าหมายหลักสำหรับการบูรณาการ AI และการทดแทนที่อาจเกิดขึ้น บทบาทการบริการลูกค้า การสร้างเนื้อหา (การเขียนบทความ ข้อความทางการตลาด) บริการแปลภาษา และแม้กระทั่งบางแง่มุมของการสอนพิเศษหรือความช่วยเหลือส่วนบุคคล อาจถูกจัดการโดยแชทบอทและตัวแทน AI ที่ซับซ้อนมากขึ้นเรื่อยๆ การผลักดันล่าสุดไปสู่ ‘Agentic AI’ – ระบบที่ออกแบบมาเพื่อดำเนินเวิร์กโฟลว์โดยอัตโนมัติในด้านต่างๆ เช่น การวิเคราะห์ข้อมูล การสนับสนุนการขาย หรือการจัดการด้านการดูแลสุขภาพ – ได้รับแรงผลักดันเพิ่มเติมหากตัวแทนเหล่านี้สามารถสื่อสารด้วยความคล่องแคล่วเหมือนมนุษย์ได้
  • ความสัมพันธ์และความไว้วางใจของมนุษย์: เมื่อ AI มีความเชี่ยวชาญในการเลียนแบบความเห็นอกเห็นใจและบุคลิกภาพมากขึ้น มันอาจเปลี่ยนแปลงพลวัตการปฏิสัมพันธ์ของมนุษย์ ผู้คนจะสร้างความผูกพันทางอารมณ์กับเพื่อน AI หรือไม่? เราจะแน่ใจได้อย่างไรถึงความถูกต้องในการโต้ตอบออนไลน์เมื่อการแยกแยะระหว่างมนุษย์กับ AI กลายเป็นเรื่องยากขึ้น? ศักยภาพในการหลอกลวง ไม่ว่าจะเป็นการหลอกลวง การเผยแพร่ข้อมูลที่ผิด หรือการชักจูงความคิดเห็น ก็เพิ่มขึ้นอย่างมีนัยสำคัญ
  • การเพิ่มขึ้นของ ‘Deeper Fakes’: Susan Schneider ผู้อำนวยการผู้ก่อตั้ง Center for the Future Mind ที่ FAU แสดงความกังวลเกี่ยวกับทิศทางดังกล่าว โดยคาดการณ์ถึงสถานการณ์ ‘ฝันร้าย’ ที่อาจเกิดขึ้นซึ่งเกี่ยวข้องกับ ‘deeper fakes’ และแม้กระทั่ง ‘สงครามไซเบอร์แชทบอท’ หาก AI สามารถเลียนแบบบุคคลในข้อความได้อย่างน่าเชื่อถือ ศักยภาพในการแอบอ้างบุคคลอื่นโดยมีเจตนาร้ายก็จะเพิ่มสูงขึ้นอย่างมาก
  • การปรับแนวทางจริยธรรม (Ethical Alignment): Schneider ยังเน้นย้ำถึงประเด็นสำคัญของการปรับแนวทาง: การทำให้แน่ใจว่าระบบ AI ทำงานตามค่านิยมของมนุษย์ AI ที่สามารถเลียนแบบการสนทนาของมนุษย์ได้อย่างสมบูรณ์แบบ แต่ขาดเข็มทิศทางจริยธรรมหรือทำงานบนข้อมูลที่มีอคติซึ่งเรียนรู้ระหว่างการฝึก อาจ увековечить стереотипы หรือให้คำแนะนำที่ผิดจริยธรรม ทั้งหมดนี้ในขณะที่ฟังดูสมเหตุสมผลอย่างสมบูรณ์แบบ ข้อเท็จจริงที่ว่าโมเดลเหล่านี้ผ่านการทดสอบโดยไม่จำเป็นต้อง ‘ปรับแนวทางอย่างเหมาะสม’ เป็นประเด็นที่น่ากังวลสำหรับนักวิจัยหลายคน

ความสามารถในการ ‘ผ่าน’ การทดสอบว่าเป็นมนุษย์ในการสนทนาไม่ใช่แค่ความอยากรู้อยากเห็นทางเทคนิคเท่านั้น มันตัดกันโดยตรงกับวิธีที่เราทำงาน สื่อสาร ไว้วางใจ และสัมพันธ์ซึ่งกันและกันในโลกดิจิทัลที่เพิ่มมากขึ้น

การวางแผนอนาคต: ก้าวข้ามการเลียนแบบไปสู่ความสามารถที่แท้จริง

ในขณะที่ผลการทดสอบ Turing Test ล่าสุดที่เกี่ยวข้องกับ GPT-4.5 และ LLaMa-3.1 เป็นเหตุการณ์สำคัญที่น่าสังเกตในประวัติศาสตร์การพัฒนา AI แต่ส่วนใหญ่เน้นย้ำถึงความก้าวหน้าที่น่าทึ่งใน การสร้างภาษาธรรมชาติและการเลียนแบบ ความเห็นพ้องต้องกันในหมู่ผู้เชี่ยวชาญหลายคนคือ ขณะนี้ต้องเปลี่ยนจุดสนใจไปที่การพัฒนา AI ที่แสดงให้เห็นถึงความเข้าใจ การให้เหตุผล และพฤติกรรมทางจริยธรรมอย่างแท้จริง แทนที่จะเป็นเพียงการเก่งกาจในการเลียนแบบการสนทนา

สิ่งนี้จำเป็นต้องก้าวข้าม Turing Test แบบดั้งเดิมไปสู่ เกณฑ์มาตรฐานและวิธีการประเมินใหม่ สิ่งเหล่านี้อาจมีลักษณะอย่างไร?

  • การทดสอบที่เน้น การแก้ปัญหาที่ซับซ้อน ในสถานการณ์ใหม่ๆ
  • การประเมิน การให้เหตุผลตามสามัญสำนึกที่แข็งแกร่ง
  • การประเมิน การตัดสินใจทางจริยธรรม ในสถานการณ์ที่คลุมเครือ
  • การวัด ความคิดสร้างสรรค์และความคิดริเริ่ม ไม่ใช่แค่การรวมรูปแบบที่มีอยู่ใหม่
  • การทดสอบที่ต้องใช้ การวางแผนระยะยาวและการคิดเชิงกลยุทธ์

เป้าหมายสูงสุดสำหรับหลายๆ คนในสาขานี้ไม่ใช่แค่การสร้างนักสนทนาที่น่าเชื่อถือ แต่เป็นการพัฒนา AI ที่สามารถทำหน้าที่เป็นเครื่องมือที่เชื่อถือได้และไว้วางใจได้เพื่อแก้ปัญหาในโลกแห่งความเป็นจริงและเพิ่มขีดความสามารถของมนุษย์ ดังที่ข้อคิดสรุปในรายงานต้นฉบับได้เสนอแนะ อนาคตของ AI น่าจะอยู่ใน ประโยชน์ใช้สอยในทางปฏิบัติ มากกว่า – การช่วยเหลือในการค้นพบทางวิทยาศาสตร์ การปรับปรุงการดูแลสุขภาพ การจัดการระบบที่ซับซ้อน – มากกว่าความสามารถในการสนทนาอย่างน่าเชื่อถือเพียงอย่างเดียว

การเดินทางสู่ปัญญาประดิษฐ์ทั่วไป (Artificial General Intelligence - AGI) หากทำได้สำเร็จนั้นยาวนานและซับซ้อน เหตุการณ์สำคัญเช่นการผ่าน Turing Test เป็นเครื่องหมายสำคัญตลอดเส้นทาง ซึ่งแสดงให้เห็นถึงพลังของเทคนิคในปัจจุบัน อย่างไรก็ตาม สิ่งเหล่านี้ยังทำหน้าที่เป็นเครื่องเตือนใจที่สำคัญถึงข้อจำกัดของตัวชี้วัดปัจจุบันของเรา และคำถามทางจริยธรรมและสังคมที่ลึกซึ้งที่เราต้องจัดการในขณะที่เทคโนโลยีที่ทรงพลังเหล่านี้ยังคงพัฒนาต่อไป เกมเลียนแบบอาจมีแชมป์เปี้ยนใหม่ แต่ความท้าทายในการสร้าง AI ที่ชาญฉลาด มีประโยชน์ และสอดคล้องอย่างแท้จริงเพิ่งเริ่มต้นขึ้นเท่านั้น