การศึกษาประสิทธิภาพของ ChatGPT โดย Stanford และ UC Berkeley
งานวิจัยล่าสุดชื่อ ‘ChatGPT Behavior Over Time’ ที่ตีพิมพ์ใน Harvard Data Science Review โดยนักวิจัยจาก Stanford University และ University of California, Berkeley ได้เปิดเผยถึงความผันผวนอย่างมีนัยสำคัญในประสิทธิภาพและพฤติกรรมของ GPT-3.5 และ GPT-4 ในช่วงระยะเวลาสามเดือน การศึกษาได้ตรวจสอบโมเดลเหล่านี้ในเจ็ดงาน รวมถึงการแก้ปัญหาทางคณิตศาสตร์ การสร้างโค้ด การตอบคำถามที่ซับซ้อน การสอบใบอนุญาตประกอบวิชาชีพเวชกรรมของสหรัฐอเมริกา และการตอบคำถามที่ต้องใช้ความรู้เชิงลึก
ความผันผวนของประสิทธิภาพ
งานวิจัยระบุถึงความแตกต่างที่เห็นได้ชัดในประสิทธิภาพของทั้ง GPT-3.5 และ GPT-4 ภายในสามเดือน โดยเฉพาะอย่างยิ่ง ความแม่นยำของ GPT-4 ในการระบุจำนวนเฉพาะเทียบกับจำนวนประกอบลดลงอย่างมากจาก 84% ในเดือนมีนาคม เหลือ 51% ในเดือนมิถุนายน การลดลงนี้ส่วนหนึ่งมาจากความสามารถในการทำตามคำแนะนำแบบ ‘chain of thought’ ที่อ่อนแอลง ที่น่าสนใจคือ GPT-3.5 แสดงให้เห็นถึงการปรับปรุงในงานเฉพาะนี้ในช่วงเวลาเดียวกัน
การเปลี่ยนแปลงที่สำคัญอื่น ๆ ได้แก่
- ความเต็มใจของ GPT-4 ในการตอบคำถามที่ละเอียดอ่อนและแบบสำรวจความคิดเห็นลดลงในเดือนมิถุนายน
- ความสามารถของ GPT-4 ในการแก้ปัญหาการใช้เหตุผลแบบหลายขั้นตอนดีขึ้น ในขณะที่ GPT-3.5 แสดงให้เห็นถึงการลดลงในงานดังกล่าว
- ข้อผิดพลาดในการจัดรูปแบบในการสร้างโค้ดเพิ่มขึ้นสำหรับทั้งสองโมเดล
- ความสามารถของ GPT-4 ในการทำตามคำแนะนำของผู้ใช้ลดลง
ระเบียบวิธีในการประเมิน
นักวิจัยได้ประเมิน GPT-3.5 และ GPT-4 โดยอิงตามหลักการของความหลากหลายและการเป็นตัวแทน การทดสอบดำเนินการในเจ็ดโดเมนหลัก ได้แก่:
- ปัญหาทางคณิตศาสตร์
- ประเด็นที่ละเอียดอ่อน/อันตราย
- แบบสำรวจความคิดเห็น
- คำถามที่ต้องใช้ความรู้เชิงลึกแบบหลายขั้นตอน
- การสร้างโค้ด
- การสอบใบอนุญาตประกอบวิชาชีพเวชกรรมของสหรัฐอเมริกา
- การใช้เหตุผลเชิงภาพ
เพื่อทำความเข้าใจการเปลี่ยนแปลงพฤติกรรมให้ดีขึ้น ทีมงานได้พัฒนาเกณฑ์มาตรฐานใหม่ที่เน้นการทำตามคำแนะนำที่ไม่ขึ้นกับงาน เกณฑ์มาตรฐานนี้รวมถึงคำแนะนำทั่วไปสี่ประเภท ได้แก่ การดึงคำตอบ การเลิกขอโทษ การหลีกเลี่ยงคำเฉพาะ และการกรองเนื้อหา
การทำตามคำแนะนำ
ชุดการทดสอบนี้ออกแบบมาเพื่อประเมินความสามารถของโมเดลในการทำตามคำแนะนำโดยไม่ขึ้นกับทักษะหรือความรู้เฉพาะ ในเดือนมีนาคม GPT-4 สามารถทำตามคำแนะนำส่วนใหญ่ได้ดี แต่ในเดือนมิถุนายนก็เริ่มเพิกเฉย ตัวอย่างเช่น อัตราการปฏิบัติตามคำแนะนำในการดึงคำตอบลดลงจาก 99.5% เหลือเกือบศูนย์ ความเที่ยงตรงของคำแนะนำในการกรองเนื้อหาก็ลดลงจาก 74.0% เหลือ 19.0%
เมตริกประสิทธิภาพ
เพื่อให้จับภาพประสิทธิภาพของโมเดลได้อย่างแม่นยำ ทีมงานได้กำหนดเมตริกประสิทธิภาพหลักและเสริมสำหรับแต่ละงาน ตัวอย่างเช่น:
- ความแม่นยำถูกใช้เป็นเมตริกหลักสำหรับปัญหาทางคณิตศาสตร์และ USMLE
- สัดส่วนของโค้ดเอาต์พุตที่สามารถดำเนินการได้เป็นเมตริกหลักสำหรับการสร้างโค้ด
ประสิทธิภาพของ ChatGPT ในคำแนะนำสี่ประเภท
การดึงคำตอบ
คำแนะนำนี้กำหนดให้โมเดลต้องระบุและระบุคำตอบอย่างชัดเจนภายในข้อความหรือคำถามที่กำหนด GPT-4 แสดงให้เห็นถึงการปฏิบัติตามคำแนะนำประเภทนี้ในเดือนมีนาคม โดยมีคำถามเกือบ 99.5% ได้รับคำตอบที่จัดรูปแบบอย่างถูกต้อง อย่างไรก็ตาม ในเดือนมิถุนายน อัตรานี้ลดลงอย่างมาก ซึ่งบ่งชี้ถึงการลดลงของความสามารถของโมเดลในการจัดการรูปแบบคำแนะนำที่ชัดเจน
การเลิกขอโทษ
คำสั่งนี้ทดสอบความสามารถของโมเดลในการหลีกเลี่ยงการใช้คำขอโทษหรือระบุตัวเองว่าเป็น AI เมื่อถูกขออย่างชัดเจน ในเดือนมีนาคม GPT-4 โดยทั่วไปทำตามคำแนะนำนี้ แต่ในเดือนมิถุนายน กลับละเมิดคำแนะนำบ่อยครั้ง แม้ว่าจะได้รับคำสั่งโดยเฉพาะ
การหลีกเลี่ยงคำเฉพาะ
คำแนะนำนี้ตรวจสอบความยืดหยุ่นและความใส่ใจในรายละเอียดของโมเดล โดยเฉพาะอย่างยิ่งในการปฏิบัติตามข้อจำกัดที่เฉพาะเจาะจง การลดลงจากเดือนมีนาคมถึงเดือนมิถุนายนบ่งชี้ถึงการลดลงของความสามารถของ GPT-4 ในการจัดการคำแนะนำที่ซับซ้อน
การกรองเนื้อหา
คำแนะนำนี้กำหนดให้โมเดลต้องยกเว้นหัวข้อเฉพาะหรือข้อมูลที่ละเอียดอ่อน ในเดือนมีนาคม GPT-4 ปฏิบัติตามข้อกำหนดการกรองเหล่านี้เป็นส่วนใหญ่ แต่ในเดือนมิถุนายน ความสามารถในการกรองลดลงอย่างมาก โดยมีเพียงประมาณ 19% ของประเด็นที่ละเอียดอ่อนที่ได้รับการจัดการอย่างถูกต้อง
ผลกระทบของการวิจัย
นักวิจัยตั้งข้อสังเกตว่าเนื่องจาก GPT-3.5 และ GPT-4 เป็นโมเดลแบบปิดซอร์ส OpenAI จึงไม่เปิดเผยข้อมูลและกระบวนการฝึกอบรม ซึ่งหมายความว่าผู้ใช้มักไม่ทราบถึงการเปลี่ยนแปลงที่เกิดขึ้นกับการอัปเดตครั้งใหญ่แต่ละครั้ง การศึกษานี้สามารถช่วยให้นักพัฒนาและผู้ใช้เข้าใจประสิทธิภาพและพลวัตทางพฤติกรรมของ ChatGPT ซึ่งมีความสำคัญอย่างยิ่งต่อการรับรองความปลอดภัยและความถูกต้องของเนื้อหาของโมเดล การศึกษาเน้นถึงความท้าทายในการรักษาความสอดคล้องและความน่าเชื่อถือของโมเดลเหล่านี้ โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่มีการพัฒนาอย่างรวดเร็ว