การเรียนรู้แบบเสริมกำลัง (reinforcement learning) เสริมด้วยการตรวจสอบเพิ่มเติม จะสามารถยกระดับความสามารถของแบบจำลองภาษาขนาดใหญ่ (LLMs) ได้มากเพียงใด? ทีม Qwen ของ Alibaba กำลังอยู่ในภารกิจเพื่อค้นหาคำตอบด้วยผลงานล่าสุดของพวกเขา นั่นคือ QwQ
QwQ ซึ่งเป็นแบบจำลอง “การให้เหตุผล” มีพารามิเตอร์ 32 พันล้านพารามิเตอร์ ซึ่งถือว่าค่อนข้างเล็ก แต่ Alibaba อ้างว่ามันมีประสิทธิภาพเหนือกว่า DeepSeek R1 ซึ่งมีพารามิเตอร์มากถึง 671 พันล้านพารามิเตอร์ ในเกณฑ์มาตรฐานเฉพาะที่เกี่ยวข้องกับคณิตศาสตร์ การเขียนโค้ด และการเรียกใช้ฟังก์ชัน
ทีม Qwen ใช้แนวทางที่คล้ายกับที่ใช้กับ R1 โดยใช้การเรียนรู้แบบเสริมกำลังเพื่อปรับแต่งการให้เหตุผลแบบ chain-of-thought ของ QwQ วิธีนี้ช่วยเพิ่มความสามารถในการวิเคราะห์และแจกแจงปัญหา การเรียนรู้แบบเสริมกำลังโดยทั่วไปจะเสริมสร้างการให้เหตุผลทีละขั้นตอนโดยให้รางวัลแก่แบบจำลองสำหรับคำตอบที่ถูกต้อง ซึ่งจะช่วยส่งเสริมการตอบสนองที่แม่นยำยิ่งขึ้น อย่างไรก็ตาม QwQ ก้าวไปอีกขั้นด้วยการรวมตัวตรวจสอบความถูกต้องและเซิร์ฟเวอร์การดำเนินการโค้ด สิ่งนี้ทำให้มั่นใจได้ว่ารางวัลจะมอบให้เฉพาะโซลูชันทางคณิตศาสตร์ที่ถูกต้องและโค้ดที่ใช้งานได้เท่านั้น
ทีม Qwen ยืนยันว่าแนวทางนี้ส่งผลให้แบบจำลองมีประสิทธิภาพเหนือกว่าขนาดของมัน ทำให้ได้ประสิทธิภาพที่เทียบเท่ากับ และบางครั้งก็เหนือกว่า แบบจำลองที่ใหญ่กว่ามาก
อย่างไรก็ตาม เกณฑ์มาตรฐาน AI อาจทำให้เข้าใจผิดได้ ดังนั้น เรามาตรวจสอบกันว่าคำกล่าวอ้างเหล่านี้แปลเป็นสถานการณ์จริงได้อย่างไร และจากนั้นเราจะแนะนำคุณเกี่ยวกับวิธีการเริ่มต้นใช้งาน QwQ อย่างอิสระ
การประเมินประสิทธิภาพ
เราได้ทดสอบ QwQ ด้วยชุดข้อความแจ้งทดสอบ ซึ่งครอบคลุมความรู้ทั่วไป การให้เหตุผลเชิงพื้นที่ การแก้ปัญหา คณิตศาสตร์ และคำถามอื่นๆ ที่ทราบกันดีว่าท้าทายแม้แต่ LLM ที่ล้ำหน้าที่สุด
เนื่องจากข้อกำหนดด้านหน่วยความจำจำนวนมากของแบบจำลองเต็มรูปแบบ เราจึงทำการทดสอบในสองรูปแบบเพื่อรองรับผู้ใช้ที่มีความจุ RAM ที่แตกต่างกัน ในขั้นต้น เราได้ประเมินแบบจำลองเต็มรูปแบบโดยใช้การสาธิต QwQ บน Hugging Face ต่อมา เราได้ทดสอบเวอร์ชัน quantized 4 บิตบน GPU 24 GB (Nvidia 3090 หรือ AMD Radeon RX 7900XTX) เพื่อวัดผลกระทบของ quantization ต่อความแม่นยำ
สำหรับคำถามความรู้ทั่วไปส่วนใหญ่ QwQ แสดงประสิทธิภาพที่คล้ายคลึงกับ R1 พารามิเตอร์ 671 พันล้านของ DeepSeek และแบบจำลองการให้เหตุผลอื่นๆ เช่น o3-mini ของ OpenAI โดยหยุดชั่วครู่เพื่อสร้างความคิดก่อนที่จะให้คำตอบ
จุดแข็งของแบบจำลองนี้ อาจจะไม่น่าแปลกใจ ที่จะปรากฏชัดเจนเมื่อต้องรับมือกับตรรกะที่ซับซ้อนยิ่งขึ้น การเขียนโค้ด หรือความท้าทายทางคณิตศาสตร์ ลองเจาะลึกในด้านเหล่านี้ก่อนที่จะกล่าวถึงข้อจำกัดบางประการ
ความสามารถในการให้เหตุผลเชิงพื้นที่
เราเริ่มต้นด้วยการทดสอบการให้เหตุผลเชิงพื้นที่ที่ค่อนข้างแปลกใหม่ ซึ่งคิดค้นโดย Homebrew Research ซึ่งเป็นส่วนหนึ่งของโครงการ AlphaMaze
การทดสอบนำเสนอแบบจำลองด้วยเขาวงกตในรูปแบบข้อความ ดังที่แสดงด้านล่าง งานของแบบจำลองคือการนำทางจากจุดเริ่มต้น “O” ไปยังเป้าหมาย “T”