ภูมิทัศน์ของปัญญาประดิษฐ์ (AI) กำลังเปลี่ยนแปลงอยู่ตลอดเวลา โดยมีเหตุการณ์สำคัญต่างๆ ที่ครั้งหนึ่งเคยถูกจำกัดอยู่ในขอบเขตของนิยายวิทยาศาสตร์ การพัฒนาล่าสุดได้สร้างแรงกระเพื่อมไปทั่วชุมชนเทคโนโลยีและวงการอื่นๆ: มีรายงานว่าโมเดล AI ที่ซับซ้อนสองรุ่นประสบความสำเร็จในการผ่านความซับซ้อนของ Turing Test เกณฑ์มาตรฐานอันเป็นสัญลักษณ์นี้ ซึ่งคิดค้นโดย Alan Turing นักคณิตศาสตร์ชาวอังกฤษผู้ปราดเปรื่องในช่วงกลางศตวรรษที่ 20 ได้ยืนหยัดมายาวนานในฐานะยอดเขาเอเวอเรสต์เชิงแนวคิดสำหรับความฉลาดของเครื่องจักร – เป็นเครื่องวัดว่าเครื่องจักรสามารถสนทนาได้อย่างน่าเชื่อถือจนแยกไม่ออกจากมนุษย์ได้หรือไม่ ข่าวที่ว่าโมเดล GPT-4.5 ของ OpenAI และ Llama-3.1 ของ Meta อาจจะไปถึงจุดสูงสุดนี้ส่งสัญญาณถึงช่วงเวลาสำคัญที่อาจเกิดขึ้นในการวิวัฒนาการของ AI บังคับให้ต้องมีการตรวจสอบขอบเขตที่พร่ามัวมากขึ้นเรื่อยๆ ระหว่างการรับรู้ของมนุษย์และความสามารถของปัญญาประดิษฐ์อีกครั้ง
การทดลองครั้งสำคัญ: การออกแบบและผลลัพธ์ที่น่าตกใจ
การยืนยันว่าระบบ AI เหล่านี้ผ่าน Turing Test มาจากการวิจัยที่ดำเนินการโดย Cameron R. Jones และ Benjamin K. Bergen ที่ University of California San Diego การศึกษาของพวกเขา ซึ่งขณะนี้กำลังรอการตรวจสอบโดยผู้ทรงคุณวุฒิ (peer review) ได้ใช้วิธีการที่ออกแบบมาเพื่อให้สอดคล้องกับเจตนารมณ์ดั้งเดิมของ Turing อย่างใกล้ชิด ในขณะที่ผสมผสานความเข้มงวดสมัยใหม่เข้าไปด้วย Jones และ Bergen ตระหนักถึงข้อจำกัดของการทดสอบแบบสองฝ่ายที่ง่ายกว่า จึงได้นำ โมเดลปฏิสัมพันธ์แบบสามฝ่าย (three-party interaction model) ที่ท้าทายยิ่งกว่ามาใช้
ในการตั้งค่านี้ ผู้เข้าร่วมที่เป็นมนุษย์ (ผู้สอบสวน) จะสนทนาผ่านข้อความแยกกันสองบทสนทนาพร้อมกันเป็นเวลาห้านาที คู่สนทนาคนหนึ่งเป็นมนุษย์อีกคน ในขณะที่อีกคนเป็นระบบ AI สิ่งสำคัญคือ ผู้สอบสวนไม่ทราบว่าใครเป็นใคร หลังจากแลกเปลี่ยนกันห้านาที ภารกิจของผู้สอบสวนก็ชัดเจน: ระบุเครื่องจักร โครงสร้างนี้บังคับให้เกิดการเปรียบเทียบโดยตรงและถือเป็นการประเมินที่แข็งแกร่งกว่าการถามเพียงว่า AI ดูเหมือน มนุษย์หรือไม่เมื่ออยู่โดดเดี่ยว
เพื่อให้แน่ใจว่าผลการวิจัยไม่ได้เอนเอียงไปตามกลุ่มประชากรเฉพาะ นักวิจัยได้ทดสอบการตั้งค่าของพวกเขากับประชากรสองกลุ่มที่แตกต่างกัน:
- นักศึกษาระดับปริญญาตรี ซึ่งเป็นตัวแทนของกลุ่มประชากรที่อายุน้อยกว่าและโดยทั่วไปคุ้นเคยกับการสื่อสารดิจิทัล
- คนทำงานที่มีประสบการณ์สูง (คัดเลือกจากแพลตฟอร์มออนไลน์) ซึ่งเป็นตัวแทนของกลุ่มประชากรที่กว้างขึ้นและคุ้นเคยกับการโต้ตอบออนไลน์ที่หลากหลาย
ผลลัพธ์ที่ได้จากแนวทางที่พิถีพิถันนี้โดดเด่นมาก
- GPT-4.5 ของ OpenAI ปรากฏว่ามีความน่าเชื่อถืออย่างน่าทึ่ง เมื่อได้รับคำสั่งเฉพาะให้สวมบทบาท (persona) บางอย่าง (จะกล่าวถึงรายละเอียดเพิ่มเติมในภายหลัง) มันไม่เพียงแต่น่าเชื่อถือเท่านั้น แต่ยังน่าเชื่อถือ มากกว่า มนุษย์จริงๆ ที่เกี่ยวข้องด้วยซ้ำ ผู้สอบสวนระบุว่า GPT-4.5 เป็นผู้เข้าร่วมที่เป็นมนุษย์ถึง 73% ของเวลาทั้งหมด ตัวเลขนี้สูงกว่าเกณฑ์การผ่าน 50% ตามแบบแผนอย่างมีนัยสำคัญ และยังสูงกว่าอัตราที่ผู้สอบสวนระบุคู่สนทนาที่เป็นมนุษย์ จริงๆ ได้อย่างถูกต้องอีกด้วย
- Llama-3.1-405B ของ Meta ซึ่งเป็นแบบจำลองภาษาขนาดใหญ่ (large language model) ที่ล้ำสมัยอีกตัวหนึ่ง ก็ทำผลงานได้อย่างน่าประทับใจเช่นกัน โดยมี อัตราความสำเร็จ 56% ในการถูกระบุว่าเป็นมนุษย์ ซึ่งเทียบเท่ากับประสิทธิภาพพื้นฐานที่คาดหวังหากการเลือกเป็นแบบสุ่ม (ประมาณ 50%) และแสดงให้เห็นถึงความสามารถที่แข็งแกร่งในการเลียนแบบรูปแบบการสนทนาของมนุษย์
อัตราความสำเร็จที่สูงเหล่านี้แตกต่างอย่างชัดเจนกับประสิทธิภาพของโมเดลพื้นฐานและโมเดลควบคุมที่รวมอยู่ในการทดลอง:
- GPT-4o ซึ่งเป็นโมเดล OpenAI ที่มีความสามารถแต่อาจจะล้ำสมัยน้อยกว่า มีอัตราการชนะเพียง 21%
- ELIZA ซึ่งเป็น chatbot พื้นฐานที่พัฒนาขึ้นในทศวรรษ 1960 ทำหน้าที่เป็นตัวควบคุม การรวม ELIZA เข้ามามีความสำคัญเพื่อยืนยันว่าผู้สอบสวนสามารถแยกแยะการตอบสนองที่ไม่ใช่มนุษย์ได้จริงเมื่อเผชิญกับระบบที่ซับซ้อนน้อยกว่า ตามที่คาดไว้ ELIZA ทำผลงานได้ไม่ดี โดยถูกระบุอย่างถูกต้องว่าเป็นสิ่งที่ไม่ใช่มนุษย์เป็นส่วนใหญ่ (มีอัตราการชนะเพียง 23% ซึ่งโดยพื้นฐานแล้วเป็นการวัดระดับสัญญาณรบกวนพื้นฐานหรือข้อผิดพลาดของผู้เข้าร่วม)
ช่องว่างที่สำคัญระหว่างประสิทธิภาพของ GPT-4.5 และ Llama-3.1 เมื่อเทียบกับ GPT-4o และ ELIZA เน้นย้ำถึงความก้าวหน้าที่เกิดขึ้นในการพัฒนา AI ล่าสุด นักวิจัยยืนยันว่าการศึกษาของพวกเขาให้ “หลักฐานที่แข็งแกร่งชิ้นแรกที่แสดงว่ามีระบบใดๆ ผ่านการทดสอบ Turing แบบสามฝ่ายดั้งเดิม” ซึ่งเป็นคำกล่าวอ้างที่ หากผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิ จะถือเป็นช่วงเวลาสำคัญในประวัติศาสตร์ AI
บทบาทสำคัญของ Persona และ Prompting
อย่างไรก็ตาม เรื่องราวชัยชนะของ AI มาพร้อมกับหมายเหตุสำคัญ ซึ่งเน้นย้ำถึงความเป็นจริงที่ซับซ้อนเบื้องหลังตัวเลขพาดหัวข่าว อัตราความสำเร็จที่น่าประทับใจของ GPT-4.5 และ Llama-3.1 นั้น ไม่ได้ เกิดขึ้นจากความสามารถโดยธรรมชาติของพวกมันเพียงอย่างเดียว แต่ความสามารถในการหลอกลวงผู้สอบสวนที่เป็นมนุษย์นั้นขึ้นอยู่กับคำสั่งเฉพาะ – prompts – ที่มอบให้กับพวกมันก่อนที่การโต้ตอบจะเริ่มขึ้นอย่างมาก
นักวิจัยได้สั่งให้โมเดล AI สวมบทบาท (persona) ที่กำหนดไว้อย่างรอบคอบ: นั่นคือ คนหนุ่มสาวที่ค่อนข้างเก็บตัวและมีความรู้เกี่ยวกับวัฒนธรรมอินเทอร์เน็ต การกำหนดลักษณะเฉพาะนี้ดูเหมือนจะเป็นกุญแจสู่ความสำเร็จของพวกมัน เมื่อโมเดล AI ขั้นสูง เดียวกัน (GPT-4.5 และ Llama-3.1) ถูกนำไปทดสอบ โดยไม่มี prompt persona นี้ ประสิทธิภาพของพวกมันก็ลดลงอย่างมาก พวกมันถูกระบุว่าเป็นเครื่องจักรโดยผู้สอบสวนที่เป็นมนุษย์ได้ง่ายขึ้นมาก
การค้นพบนี้มีความสำคัญอย่างยิ่งด้วยเหตุผลหลายประการ:
- มันเน้นย้ำถึงพลังของ prompt engineering: ความสามารถในการสร้าง prompt ที่มีประสิทธิภาพกำลังกลายเป็นศูนย์กลางมากขึ้นในการใช้ประโยชน์จากความสามารถของแบบจำลองภาษาขนาดใหญ่ การศึกษานี้แสดงให้เห็นว่าการ prompting ไม่ใช่แค่การได้รับข้อมูลที่ถูกต้อง ออกมา จาก AI เท่านั้น แต่ยังเกี่ยวกับการกำหนดพฤติกรรม น้ำเสียง และบุคลิกที่ปรากฏเพื่อให้เข้ากับบริบทเฉพาะอีกด้วย ความสำเร็จในที่นี้อาจถูกมองว่าเป็นเครื่องพิสูจน์ถึงการ prompting ที่มีทักษะพอๆ กับที่เป็นเครื่องพิสูจน์ถึงสถาปัตยกรรม AI พื้นฐาน
- มันทำให้เกิดคำถามว่า ‘การผ่าน’ หมายถึงอะไร: หาก AI สามารถผ่าน Turing Test ได้ก็ต่อเมื่อได้รับการฝึกสอนโดยเฉพาะให้ทำตัวเหมือนมนุษย์ประเภทใดประเภทหนึ่ง มันตอบสนองต่อความท้าทายดั้งเดิมของ Turing อย่างแท้จริงหรือไม่? หรือเป็นเพียงการแสดงให้เห็นถึงความยืดหยุ่นของโมเดลและความสามารถในการเลียนแบบที่ซับซ้อนเมื่อได้รับคำแนะนำบนเวทีอย่างชัดเจน?
- มันเน้นย้ำถึงความสามารถในการปรับตัวเป็นลักษณะสำคัญ: ดังที่ Jones และ Bergen กล่าวไว้ในบทความของพวกเขา “อาจกล่าวได้ว่าเป็นความง่ายดายที่ LLMs สามารถถูก prompted ให้ปรับเปลี่ยนพฤติกรรมให้เข้ากับสถานการณ์ต่างๆ ซึ่งทำให้พวกมันมีความยืดหยุ่นมาก: และดูเหมือนว่าจะสามารถผ่านการทดสอบว่าเป็นมนุษย์ได้” ความสามารถในการปรับตัวนี้เป็นคุณสมบัติที่ทรงพลังอย่างไม่ต้องสงสัย แต่มันเปลี่ยนจุดสนใจจาก ‘ความฉลาด’ โดยธรรมชาติไปสู่ประสิทธิภาพที่สามารถตั้งโปรแกรมได้
การพึ่งพา persona บ่งชี้ว่า AI ในปัจจุบัน แม้จะอยู่ในระดับที่ก้าวหน้าที่สุด อาจไม่ได้มีคุณสมบัติ ‘เหมือนมนุษย์’ โดยทั่วไปและโดยธรรมชาติ แต่กลับเก่งในการสวมหน้ากากที่เหมือนมนุษย์เฉพาะเมื่อได้รับคำสั่งให้ทำเช่นนั้น
เหนือกว่าการเลียนแบบ: ตั้งคำถามถึงความฉลาดที่แท้จริง
นักวิจัยเองก็ระมัดระวังในการตีความผลการวิจัยของพวกเขา การผ่านการทดสอบการสนทนาเฉพาะนี้ แม้จะอยู่ภายใต้เงื่อนไขที่เข้มงวด ไม่ควรถูกตีความโดยอัตโนมัติว่าเป็นการมาถึงของความฉลาดของเครื่องจักรที่แท้จริง สติ หรือความเข้าใจ Turing Test แม้จะมีความสำคัญทางประวัติศาสตร์ แต่ส่วนใหญ่ประเมิน ความไม่สามารถแยกแยะทางพฤติกรรม (behavioral indistinguishability) ในบริบทที่จำกัด (การสนทนาทางข้อความสั้นๆ) มันไม่จำเป็นต้องตรวจสอบความสามารถทางปัญญาที่ลึกซึ้งกว่า เช่น การให้เหตุผล สามัญสำนึก การตัดสินทางจริยธรรม หรือการตระหนักรู้ในตนเองอย่างแท้จริง
แบบจำลองภาษาขนาดใหญ่ (LLMs) สมัยใหม่ เช่น GPT-4.5 และ Llama-3.1 ได้รับการฝึกฝนบนชุดข้อมูลขนาดใหญ่อย่างไม่น่าเชื่อ ซึ่งประกอบด้วยข้อความและโค้ดที่รวบรวมมาจากอินเทอร์เน็ต พวกมันเก่งในการระบุรูปแบบ การทำนายคำถัดไปในลำดับ และการสร้างข้อความที่คล้ายกับการสื่อสารของมนุษย์ทางสถิติ ดังที่ Sinead Bovell ผู้ก่อตั้งบริษัทการศึกษาด้านเทคโนโลยี Waye ตั้งคำถามอย่างเหมาะสมว่า “มันน่าประหลาดใจทั้งหมดหรือไม่ที่… AI จะเอาชนะเราในการ ‘ฟังดูเหมือนมนุษย์’ ในที่สุด เมื่อมันได้รับการฝึกฝนจากข้อมูลมนุษย์มากกว่าที่คนๆ หนึ่งจะสามารถอ่านหรือดูได้?”
มุมมองนี้ชี้ให้เห็นว่า AI ไม่จำเป็นต้อง ‘คิด’ เหมือนมนุษย์ แต่เป็นการใช้รูปแบบการจับคู่รูปแบบและการเลียนแบบที่ซับซ้อนอย่างเหลือเชื่อ ซึ่งได้รับการขัดเกลาจากการสัมผัสกับคำศัพท์หลายล้านล้านคำที่เป็นตัวแทนของการสนทนา บทความ และปฏิสัมพันธ์ของมนุษย์นับไม่ถ้วน ความสำเร็จในการทดสอบจึงอาจสะท้อนถึงปริมาณและความกว้างของข้อมูลการฝึกอบรมมากกว่าการก้าวกระโดดพื้นฐานไปสู่การรับรู้ที่เหมือนมนุษย์
ดังนั้น ผู้เชี่ยวชาญหลายคน รวมถึงผู้เขียนการศึกษา โต้แย้งว่า Turing Test แม้จะเป็นเครื่องหมายทางประวัติศาสตร์ที่มีคุณค่า อาจไม่ใช่เกณฑ์มาตรฐานที่เหมาะสมที่สุดสำหรับการวัดความก้าวหน้าที่มีความหมายใน AI อีกต่อไป มีความเห็นพ้องต้องกันมากขึ้นว่าการประเมินในอนาคตควรมุ่งเน้นไปที่เกณฑ์ที่ต้องการมากขึ้น เช่น:
- การให้เหตุผลที่แข็งแกร่ง (Robust Reasoning): การประเมินความสามารถของ AI ในการแก้ปัญหาที่ซับซ้อน การสรุปเชิงตรรกะ และการทำความเข้าใจเหตุและผล
- การสอดคล้องทางจริยธรรม (Ethical Alignment): การประเมินว่ากระบวนการตัดสินใจของ AI สอดคล้องกับค่านิยมและหลักการทางจริยธรรมของมนุษย์หรือไม่
- สามัญสำนึก (Common Sense): การทดสอบความเข้าใจของ AI เกี่ยวกับความรู้โดยนัยเกี่ยวกับโลกทางกายภาพและสังคมที่มนุษย์มองว่าเป็นเรื่องปกติ
- ความสามารถในการปรับตัวเข้ากับสถานการณ์ใหม่ (Adaptability to Novel Situations): การวัดว่า AI ทำงานได้ดีเพียงใดเมื่อเผชิญกับสถานการณ์ที่แตกต่างอย่างมีนัยสำคัญจากข้อมูลการฝึกอบรม
การถกเถียงเปลี่ยนจาก “มันพูดเหมือนเราได้ไหม?” ไปเป็น “มันสามารถให้เหตุผล เข้าใจ และประพฤติตนอย่างรับผิดชอบเหมือนเราได้หรือไม่?”
บริบททางประวัติศาสตร์และความพยายามครั้งก่อนๆ
การแสวงหาเพื่อสร้างเครื่องจักรที่สามารถผ่าน Turing Test ได้ดึงดูดนักวิทยาศาสตร์คอมพิวเตอร์และสาธารณชนมานานหลายทศวรรษ การศึกษาล่าสุดนี้ไม่ใช่ครั้งแรกที่มีการอ้างความสำเร็จเกิดขึ้น แม้ว่ากรณีที่ผ่านมามักจะถูกมองด้วยความสงสัยหรือมีเงื่อนไข
บางทีการอ้างสิทธิ์ก่อนหน้านี้ที่มีชื่อเสียงที่สุดอาจเกี่ยวข้องกับ Eugene Goostman chatbot ในปี 2014 โปรแกรมนี้มีเป้าหมายเพื่อจำลองเด็กชายชาวยูเครนอายุ 13 ปี ในการแข่งขันเพื่อรำลึกถึงวันครบรอบ 60 ปีการเสียชีวิตของ Alan Turing นั้น Goostman สามารถโน้มน้าวผู้ตัดสิน 33% ในระหว่างการสนทนาห้านาทีว่าเป็นมนุษย์ แม้ว่าจะมีการรายงานอย่างกว้างขวางว่า ‘ผ่าน’ Turing Test แต่คำกล่าวอ้างนี้ก็เป็นที่ถกเถียงกัน หลายคนโต้แย้งว่าอัตราความสำเร็จ 33% นั้นต่ำกว่าเกณฑ์ 50% ที่มักจะถือว่าจำเป็น (แม้ว่า Turing เองไม่เคยระบุเปอร์เซ็นต์ที่แน่นอน) นอกจากนี้ นักวิจารณ์ชี้ให้เห็นว่าการจำลองวัยรุ่นที่ไม่ใช่เจ้าของภาษาอังกฤษอาจทำให้ข้อผิดพลาดทางไวยากรณ์และช่องว่างความรู้ดูเหมือนเป็นสิ่งที่ให้อภัยได้มากขึ้น ซึ่งอาจเป็นการลดมาตรฐานสำหรับการหลอกลวง
การรวม ELIZA ไว้ในการศึกษาของ Jones และ Bergen ให้พื้นฐานทางประวัติศาสตร์ที่มีคุณค่า ELIZA พัฒนาโดย Joseph Weizenbaum ที่ MIT ในทศวรรษ 1960 ทำงานโดยใช้การจับคู่รูปแบบอย่างง่ายและการแทนที่คำหลัก โดยมักจะสะท้อนคำพูดของผู้ใช้กลับเป็นคำถาม (เช่น ผู้ใช้: “ฉันรู้สึกเศร้า” ELIZA: “ทำไมคุณถึงรู้สึกเศร้า?”) แม้จะมีความเรียบง่าย แต่ผู้ใช้บางคนก็มีชื่อเสียงในการให้ความเข้าใจเหมือนมนุษย์แก่มัน ประสิทธิภาพที่ไม่ดี (อัตราการชนะ 23%) ในการทดสอบแบบสามฝ่ายที่เข้มงวดกว่าล่าสุดยืนยันว่าการออกแบบการทดลองมีความไวเพียงพอที่จะแยกแยะระหว่างการเลียนแบบพื้นฐานและความสามารถในการสนทนาที่ซับซ้อนของ LLMs สมัยใหม่ การเดินทางจาก ELIZA ไปสู่ GPT-4.5 แสดงถึงการก้าวกระโดดครั้งใหญ่ในด้านพลังการประมวลผล ความซับซ้อนของอัลกอริทึม และความพร้อมใช้งานของข้อมูล
องค์ประกอบของมนุษย์: กลยุทธ์การสอบสวนและการรับรู้
การศึกษาของ UC San Diego ยังให้ข้อมูลเชิงลึกที่น่าสนใจเกี่ยวกับวิธีที่มนุษย์พยายามแยกแยะความเป็นปัญญาประดิษฐ์ในการสนทนา การวิเคราะห์กลยุทธ์ของผู้สอบสวนเผยให้เห็นแนวทางทั่วไป:
- การพูดคุยเล็กน้อย (Small Talk) (61% ของเกม): การพูดคุยเกี่ยวกับกิจกรรมประจำวัน งานอดิเรก หรือรายละเอียดส่วนตัวที่ธรรมดาเป็นกลยุทธ์ที่พบบ่อย อาจขึ้นอยู่กับสมมติฐานที่ว่า AI อาจมีปัญหากับความแตกต่างเล็กน้อยของประสบการณ์มนุษย์ในชีวิตประจำวัน หรือขาดประวัติส่วนตัวที่น่าเชื่อถือ
- การตรวจสอบคุณสมบัติทางสังคมและอารมณ์ (50%): ผู้สอบสวนมักจะพยายามกระตุ้นการตอบสนองที่เกี่ยวข้องกับความรู้สึก ความคิดเห็น ความเห็นอกเห็นใจ หรือความเข้าใจทางสังคม ซึ่งเป็นด้านที่ถือว่าเป็นเอกลักษณ์ของมนุษย์ตามแบบแผน
- การทดสอบด้วยความแปลกประหลาด: กลยุทธ์ที่มีประสิทธิภาพที่สุดบางอย่างเกี่ยวข้องกับการเบี่ยงเบนไปจากการสนทนาปกติ ซึ่งรวมถึงการพูดสิ่งที่แปลกประหลาดหรือไม่คาดคิดเพื่อวัดปฏิกิริยา ทดสอบความสามารถของ AI ในการจัดการกับความแปลกใหม่หรือความไร้สาระอย่างสง่างาม
- การพยายาม ‘Jailbreaking’: ผู้สอบสวนที่มีความเชี่ยวชาญทางเทคนิคมากขึ้นพยายามใช้ prompt หรือคำถามเฉพาะที่ออกแบบมาเพื่อหลีกเลี่ยงโปรโตคอลความปลอดภัยของ AI หรือบังคับให้เปิดเผยธรรมชาติที่แท้จริงของมันในฐานะเครื่องจักร
กลยุทธ์เหล่านี้ชี้ให้เห็นว่ามนุษย์มักจะพึ่งพาความลึกซึ้งทางอารมณ์ที่รับรู้ ความสอดคล้องในเรื่องราวส่วนตัว และความสามารถในการจัดการกับสถานการณ์ที่พลิกผันในการสนทนาเป็นเครื่องหมายของความเป็นมนุษย์
น่าสนใจที่ความสำเร็จของ GPT-4.5 โดยเฉพาะอย่างยิ่งการให้คะแนนที่สูงแม้เมื่อเทียบกับมนุษย์จริงๆ ทำให้นักคิดด้านนวัตกรรม John Nosta กล่าวว่า “เราไม่ได้แพ้ให้กับปัญญาประดิษฐ์ เรากำลังแพ้ให้กับความเห็นอกเห็นใจประดิษฐ์ (artificial empathy)” ความคิดเห็นนี้ชี้ไปที่ความเชี่ยวชาญที่เพิ่มขึ้นของ AI ไม่เพียงแต่ในการเลียนแบบรูปแบบภาษาเท่านั้น แต่ยังรวมถึงการจำลองคุณสมบัติ ทางอารมณ์ ของปฏิสัมพันธ์ของมนุษย์ด้วย – การแสดงความเข้าใจ ความห่วงใย หรือความรู้สึกร่วมกันที่ปรากฏ แม้ว่าสิ่งเหล่านี้จะถูกสร้างขึ้นโดยอัลกอริทึมมากกว่าที่จะรู้สึกจริงๆ ความสามารถในการสร้างการตอบสนองที่ฟังดูเห็นอกเห็นใจดูเหมือนจะเป็นเครื่องมือที่ทรงพลังในการโน้มน้าวให้มนุษย์เชื่อในความถูกต้องของ AI
ผลกระทบในวงกว้าง: เศรษฐกิจ สังคม และอนาคต
ความสำเร็จในการผ่านเกณฑ์มาตรฐาน Turing Test โดยโมเดลอย่าง GPT-4.5 และ Llama-3.1 แม้จะมีข้อแม้เรื่องการ prompting ก็ตาม ส่งผลกระทบไปไกลกว่าขอบเขตทางวิชาการหรือทางเทคนิค มันส่งสัญญาณถึงระดับความคล่องแคล่วในการสนทนาและความสามารถในการปรับตัวทางพฤติกรรมใน AI ที่สามารถปรับเปลี่ยนแง่มุมต่างๆ ของชีวิตได้อย่างมีนัยสำคัญ
การหยุดชะงักทางเศรษฐกิจ (Economic Disruption): ความสามารถของ AI ในการโต้ตอบในลักษณะที่เหมือนมนุษย์ทำให้เกิดความกังวลเพิ่มเติมเกี่ยวกับการแทนที่งาน บทบาทที่ต้องพึ่งพาการสื่อสาร การบริการลูกค้า การสร้างเนื้อหา และแม้แต่รูปแบบบางอย่างของการเป็นเพื่อนหรือการฝึกสอน อาจถูกทำให้เป็นอัตโนมัติหรือเปลี่ยนแปลงอย่างมีนัยสำคัญโดยระบบ AI ที่สามารถสนทนาได้อย่างเป็นธรรมชาติและมีประสิทธิภาพ
ความกังวลทางสังคม (Social Concerns): ความซับซ้อนที่เพิ่มขึ้นของการเลียนแบบของ AI ก่อให้เกิดความท้าทายต่อความสัมพันธ์ของมนุษย์และความไว้วางใจทางสังคม
- การมีปฏิสัมพันธ์อย่างกว้างขวางกับ AI chatbots ที่น่าเชื่อถือสูงอาจนำไปสู่การลดคุณค่าของการเชื่อมต่อของมนุษย์อย่างแท้จริงหรือไม่?
- เราจะมั่นใจในความโปร่งใสได้อย่างไร เพื่อให้ผู้คนรู้ว่าพวกเขากำลังโต้ตอบกับมนุษย์หรือ AI โดยเฉพาะอย่างยิ่งในบริบทที่ละเอียดอ่อน เช่น บริการสนับสนุนหรือความสัมพันธ์ออนไลน์?
- ศักยภาพในการนำไปใช้ในทางที่ผิดในการสร้าง persona ‘deepfake’ ที่น่าเชื่อถือสูงสำหรับการหลอกลวง การรณรงค์ข้อมูลเท็จ หรือวิศวกรรมสังคมที่เป็นอันตรายจะยิ่งใหญ่ขึ้นอย่างมีนัยสำคัญ
การเพิ่มขึ้นของ Agentic AI: การพัฒนาเหล่านี้สอดคล้องกับแนวโน้มที่กว้างขึ้นไปสู่ Agentic AI – ระบบที่ออกแบบมาไม่เพียงเพื่อตอบสนองต่อ prompt เท่านั้น แต่ยังเพื่อติดตามเป้าหมาย ดำเนินงาน และโต้ตอบกับสภาพแวดล้อมดิจิทัลโดยอัตโนมัติ บริษัทต่างๆ เช่น Microsoft, Adobe, Zoom และ Slack กำลังพัฒนา AI agents อย่างแข็งขัน โดยมีเป้าหมายเพื่อให้ทำหน้าที่เป็นเพื่อนร่วมงานเสมือนจริง ทำให้งานต่างๆ เป็นอัตโนมัติ ตั้งแต่การจัดตารางการประชุมและการสรุปเอกสาร ไปจนถึงการจัดการโครงการและการโต้ตอบกับลูกค้า AI ที่สามารถผ่านการทดสอบว่าเป็นมนุษย์ในการสนทนาได้อย่างน่าเชื่อถือเป็นองค์ประกอบพื้นฐานสำหรับการสร้าง AI agents ที่มีประสิทธิภาพและบูรณาการ
เสียงแห่งความระมัดระวัง: การสอดคล้องและผลกระทบที่ไม่คาดฝัน
ท่ามกลางความตื่นเต้นเกี่ยวกับความก้าวหน้าของ AI เสียงที่โดดเด่นเรียกร้องให้ระมัดระวัง โดยเน้นย้ำถึงความสำคัญอย่างยิ่งยวดของความปลอดภัยและการพิจารณาทางจริยธรรม Susan Schneider ผู้อำนวยการผู้ก่อตั้ง Center for the Future Mind ที่ Florida Atlantic University แสดงความกังวลเกี่ยวกับการสอดคล้อง (alignment) ของ chatbots ที่ทรงพลังเหล่านี้ “น่าเสียดายที่ AI chatbots เหล่านี้ไม่ได้ถูกปรับให้สอดคล้องกันอย่างเหมาะสม” เธอเตือน โดยเน้นถึงอันตรายที่อาจเกิดขึ้นหากการพัฒนา AI แซงหน้าความสามารถของเราในการรับรองว่าระบบเหล่านี้ทำงานอย่างปลอดภัยและสอดคล้องกับค่านิยมของมนุษย์
Schneider คาดการณ์อนาคตที่เต็มไปด้วยความท้าทายหากการสอดคล้องไม่ได้รับการจัดลำดับความสำคัญ: “ถึงกระนั้น ฉันคาดการณ์ว่า: พวกมันจะยังคงเพิ่มขีดความสามารถต่อไปและมันจะเป็นฝันร้าย—คุณสมบัติที่เกิดขึ้นใหม่ (emergent properties), ‘deeper fakes’, สงครามไซเบอร์ chatbot (chatbot cyberwars)”
- คุณสมบัติที่เกิดขึ้นใหม่ (Emergent properties) หมายถึงพฤติกรรมหรือความสามารถที่ไม่คาดคิดซึ่งสามารถเกิดขึ้นได้ในระบบที่ซับซ้อนเช่น AI ขั้นสูง ซึ่งอาจไม่ได้ถูกตั้งโปรแกรมไว้อย่างชัดเจนหรือคาดการณ์โดยผู้สร้าง
- ‘Deeper fakes’ ขยายไปไกลกว่าภาพหรือวิดีโอที่ถูกดัดแปลง ไปสู่การครอบคลุม persona ที่สร้างขึ้นทั้งหมดและโต้ตอบได้ ซึ่งใช้สำหรับการหลอกลวงในวงกว้าง
- ‘สงครามไซเบอร์ chatbot’ (Chatbot cyberwars) จินตนาการถึงสถานการณ์ที่ระบบ AI ถูกนำไปใช้ต่อสู้กันเองหรือต่อสู้กับระบบของมนุษย์เพื่อวัตถุประสงค์ที่เป็นอันตราย เช่น การเผยแพร่ข้อมูลเท็จขนาดใหญ่หรือการบงการทางสังคมโดยอัตโนมัติ
มุมมองที่ระมัดระวังนี้แตกต่างอย่างชัดเจนกับวิสัยทัศน์ในแง่ดีที่มักเกี่ยวข้องกับนักอนาคตศาสตร์อย่าง Ray Kurzweil (ซึ่ง Schneider อ้างถึง) ผู้ซึ่งมีชื่อเสียงในการทำนายอนาคตที่เปลี่ยนแปลงไป ส่วนใหญ่ในเชิงบวก โดย AI ที่ก้าวหน้าอย่างทวีคูณนำไปสู่ภาวะเอกฐานทางเทคโนโลยี (technological singularity) การถกเถียงนี้เน้นย้ำถึงความไม่แน่นอนอย่างลึกซึ้งและเดิมพันสูงที่เกี่ยวข้องกับการนำทางในระยะต่อไปของการพัฒนาปัญญาประดิษฐ์ ความสามารถในการเลียนแบบการสนทนาของมนุษย์ได้อย่างน่าเชื่อถือเป็นความสำเร็จทางเทคนิคที่น่าทึ่ง แต่ก็เป็นการเปิดกล่องแพนโดร่าของคำถามทางจริยธรรม สังคม และการดำรงอยู่ที่ต้องการการพิจารณาอย่างรอบคอบในขณะที่เราก้าวเข้าสู่ยุคใหม่นี้ต่อไป