DeepSeek-R1 ในแพ็คเกจ 32B? เจาะลึก QwQ ของ Alibaba

การเรียนรู้แบบเสริมกำลัง (reinforcement learning) เสริมด้วยการตรวจสอบเพิ่มเติม จะสามารถยกระดับความสามารถของแบบจำลองภาษาขนาดใหญ่ (LLMs) ได้มากเพียงใด? ทีม Qwen ของ Alibaba กำลังอยู่ในภารกิจเพื่อค้นหาคำตอบด้วยผลงานล่าสุดของพวกเขา นั่นคือ QwQ

QwQ ซึ่งเป็นแบบจำลอง “การให้เหตุผล” มีพารามิเตอร์ 32 พันล้านพารามิเตอร์ ซึ่งถือว่าค่อนข้างเล็ก แต่ Alibaba อ้างว่ามันมีประสิทธิภาพเหนือกว่า DeepSeek R1 ซึ่งมีพารามิเตอร์มากถึง 671 พันล้านพารามิเตอร์ ในเกณฑ์มาตรฐานเฉพาะที่เกี่ยวข้องกับคณิตศาสตร์ การเขียนโค้ด และการเรียกใช้ฟังก์ชัน

ทีม Qwen ใช้แนวทางที่คล้ายกับที่ใช้กับ R1 โดยใช้การเรียนรู้แบบเสริมกำลังเพื่อปรับแต่งการให้เหตุผลแบบ chain-of-thought ของ QwQ วิธีนี้ช่วยเพิ่มความสามารถในการวิเคราะห์และแจกแจงปัญหา การเรียนรู้แบบเสริมกำลังโดยทั่วไปจะเสริมสร้างการให้เหตุผลทีละขั้นตอนโดยให้รางวัลแก่แบบจำลองสำหรับคำตอบที่ถูกต้อง ซึ่งจะช่วยส่งเสริมการตอบสนองที่แม่นยำยิ่งขึ้น อย่างไรก็ตาม QwQ ก้าวไปอีกขั้นด้วยการรวมตัวตรวจสอบความถูกต้องและเซิร์ฟเวอร์การดำเนินการโค้ด สิ่งนี้ทำให้มั่นใจได้ว่ารางวัลจะมอบให้เฉพาะโซลูชันทางคณิตศาสตร์ที่ถูกต้องและโค้ดที่ใช้งานได้เท่านั้น

ทีม Qwen ยืนยันว่าแนวทางนี้ส่งผลให้แบบจำลองมีประสิทธิภาพเหนือกว่าขนาดของมัน ทำให้ได้ประสิทธิภาพที่เทียบเท่ากับ และบางครั้งก็เหนือกว่า แบบจำลองที่ใหญ่กว่ามาก

อย่างไรก็ตาม เกณฑ์มาตรฐาน AI อาจทำให้เข้าใจผิดได้ ดังนั้น เรามาตรวจสอบกันว่าคำกล่าวอ้างเหล่านี้แปลเป็นสถานการณ์จริงได้อย่างไร และจากนั้นเราจะแนะนำคุณเกี่ยวกับวิธีการเริ่มต้นใช้งาน QwQ อย่างอิสระ

การประเมินประสิทธิภาพ

เราได้ทดสอบ QwQ ด้วยชุดข้อความแจ้งทดสอบ ซึ่งครอบคลุมความรู้ทั่วไป การให้เหตุผลเชิงพื้นที่ การแก้ปัญหา คณิตศาสตร์ และคำถามอื่นๆ ที่ทราบกันดีว่าท้าทายแม้แต่ LLM ที่ล้ำหน้าที่สุด

เนื่องจากข้อกำหนดด้านหน่วยความจำจำนวนมากของแบบจำลองเต็มรูปแบบ เราจึงทำการทดสอบในสองรูปแบบเพื่อรองรับผู้ใช้ที่มีความจุ RAM ที่แตกต่างกัน ในขั้นต้น เราได้ประเมินแบบจำลองเต็มรูปแบบโดยใช้การสาธิต QwQ บน Hugging Face ต่อมา เราได้ทดสอบเวอร์ชัน quantized 4 บิตบน GPU 24 GB (Nvidia 3090 หรือ AMD Radeon RX 7900XTX) เพื่อวัดผลกระทบของ quantization ต่อความแม่นยำ

สำหรับคำถามความรู้ทั่วไปส่วนใหญ่ QwQ แสดงประสิทธิภาพที่คล้ายคลึงกับ R1 พารามิเตอร์ 671 พันล้านของ DeepSeek และแบบจำลองการให้เหตุผลอื่นๆ เช่น o3-mini ของ OpenAI โดยหยุดชั่วครู่เพื่อสร้างความคิดก่อนที่จะให้คำตอบ

จุดแข็งของแบบจำลองนี้ อาจจะไม่น่าแปลกใจ ที่จะปรากฏชัดเจนเมื่อต้องรับมือกับตรรกะที่ซับซ้อนยิ่งขึ้น การเขียนโค้ด หรือความท้าทายทางคณิตศาสตร์ ลองเจาะลึกในด้านเหล่านี้ก่อนที่จะกล่าวถึงข้อจำกัดบางประการ

ความสามารถในการให้เหตุผลเชิงพื้นที่

เราเริ่มต้นด้วยการทดสอบการให้เหตุผลเชิงพื้นที่ที่ค่อนข้างแปลกใหม่ ซึ่งคิดค้นโดย Homebrew Research ซึ่งเป็นส่วนหนึ่งของโครงการ AlphaMaze

การทดสอบนำเสนอแบบจำลองด้วยเขาวงกตในรูปแบบข้อความ ดังที่แสดงด้านล่าง งานของแบบจำลองคือการนำทางจากจุดเริ่มต้น “O” ไปยังเป้าหมาย “T”