พลังของ Reinforcement Learning
แนวทางดั้งเดิมในการพัฒนาโมเดล AI นั้นพึ่งพาการฝึกอบรมล่วงหน้า (pretraining) และวิธีการหลังการฝึกอบรม (post-training) เป็นอย่างมาก อย่างไรก็ตาม ทีม Qwen ได้ก้าวข้ามเทคนิคทั่วไปเหล่านี้โดยการรวมความสามารถของ agent เข้ากับโมเดลการให้เหตุผลโดยตรง การรวมนี้ช่วยให้ QwQ-32B สามารถมีส่วนร่วมในการคิดเชิงวิพากษ์ ใช้เครื่องมือภายนอก และปรับกระบวนการให้เหตุผลแบบไดนามิกตามผลตอบรับจากสภาพแวดล้อม นี่แสดงถึงความก้าวหน้าครั้งสำคัญในการสร้างระบบ AI ที่ปรับตัวได้และชาญฉลาดมากขึ้น
ทีม Qwen เน้นย้ำว่าการปรับขนาด RL มีศักยภาพในการปลดล็อกการปรับปรุงประสิทธิภาพที่เหนือกว่าความสามารถของวิธีการแบบดั้งเดิม งานวิจัยล่าสุดได้แสดงให้เห็นถึงความสามารถของ RL ในการเพิ่มความสามารถในการให้เหตุผลของโมเดล AI อย่างมีนัยสำคัญ และ QwQ-32B ทำหน้าที่เป็นตัวอย่างที่น่าสนใจของศักยภาพนี้ในการดำเนินการ
การเชื่อมช่องว่างระหว่างขนาดและประสิทธิภาพ
หนึ่งในแง่มุมที่โดดเด่นที่สุดของ QwQ-32B คือประสิทธิภาพเมื่อเทียบกับขนาดของมัน DeepSeek-R1 ซึ่งเป็นโมเดลที่ QwQ-32B แข่งขันด้วย มีพารามิเตอร์มากถึง 671 พันล้านพารามิเตอร์ (โดยมี 37 พันล้านพารามิเตอร์ที่เปิดใช้งาน) QwQ-32B ซึ่งมีพารามิเตอร์เพียง 32 พันล้านพารามิเตอร์ สามารถทำงานได้เทียบเท่า ซึ่งเน้นให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้นอย่างน่าทึ่งที่ทำได้ผ่านการใช้งาน RL เชิงกลยุทธ์ ความสำเร็จนี้ท้าทายสมมติฐานที่มีมายาวนานว่าขนาดของโมเดลเป็นตัวกำหนดประสิทธิภาพหลัก ซึ่งชี้ให้เห็นว่าเทคนิคการฝึกอบรมที่ซับซ้อนสามารถเชื่อมช่องว่างระหว่างขนาดและความสามารถได้
การวัดประสิทธิภาพที่เป็นเลิศ
เพื่อประเมินความสามารถของ QwQ-32B อย่างเข้มงวด ทีม Qwen ได้นำโมเดลไปทดสอบกับชุดเกณฑ์มาตรฐานที่ครอบคลุม เกณฑ์มาตรฐานเหล่านี้ ได้แก่ AIME24, LiveCodeBench, LiveBench, IFEval และ BFCL ได้รับการออกแบบมาโดยเฉพาะเพื่อประเมินแง่มุมต่างๆ ของประสิทธิภาพ AI รวมถึงการให้เหตุผลทางคณิตศาสตร์ ความสามารถในการเขียนโค้ด และความสามารถในการแก้ปัญหาทั่วไป ผลลัพธ์ของการประเมินเหล่านี้แสดงให้เห็นภาพที่น่าสนใจเกี่ยวกับจุดแข็งของ QwQ-32B
ต่อไปนี้คือรายละเอียดเพิ่มเติมเกี่ยวกับประสิทธิภาพของ QwQ-32B ในแต่ละเกณฑ์มาตรฐาน:
AIME24: เกณฑ์มาตรฐานนี้เน้นที่การให้เหตุผลทางคณิตศาสตร์ QwQ-32B ทำคะแนนได้ 79.5 ซึ่งน้อยกว่าคะแนนของ DeepSeek-R1-671B เล็กน้อยที่ 79.8 ที่น่าสังเกตคือ ทั้งสองรุ่นมีประสิทธิภาพเหนือกว่า OpenAl-o1-mini ซึ่งทำคะแนนได้ 63.6 รวมถึงรุ่นที่กลั่นแล้ว (distilled models)
LiveCodeBench: เกณฑ์มาตรฐานนี้ประเมินความสามารถในการเขียนโค้ด QwQ-32B ทำคะแนนได้ 63.4 ซึ่งใกล้เคียงกับคะแนนของ DeepSeek-R1-671B ที่ 65.9 อีกครั้งที่ทั้งสองรุ่นมีประสิทธิภาพเหนือกว่ารุ่นที่กลั่นแล้วและ OpenAl-o1-mini (53.8)
LiveBench: ออกแบบมาเพื่อประเมินความสามารถในการแก้ปัญหาทั่วไป LiveBench พบว่า QwQ-32B ทำคะแนนได้ 73.1 ซึ่งสูงกว่าคะแนนของ DeepSeek-R1-671B ที่ 71.6 ผลลัพธ์นี้ตอกย้ำตำแหน่งของ QwQ-32B ในฐานะคู่แข่งที่แข็งแกร่งในงาน AI ทั่วไป
IFEval: เกณฑ์มาตรฐานนี้เน้นที่การปฏิบัติตามคำสั่งและการจัดตำแหน่งให้สอดคล้องกับความชอบของมนุษย์ QwQ-32B ทำคะแนนได้น่าประทับใจที่ 83.9 ซึ่งเกือบจะเท่ากับคะแนนของ DeepSeek-R1-671B ที่ 83.3 ทั้งสองรุ่นมีประสิทธิภาพเหนือกว่า OpenAl-o1-mini (59.1) และรุ่นที่กลั่นแล้วอย่างมีนัยสำคัญ
BFCL: เกณฑ์มาตรฐานนี้ทดสอบความสามารถของโมเดลในการจัดการกับสถานการณ์ที่ซับซ้อนในโลกแห่งความเป็นจริง QwQ-32B ทำคะแนนได้ 66.4 ซึ่งสูงกว่าคะแนนของ DeepSeek-R1-671B ที่ 62.8 ผลลัพธ์นี้แสดงให้เห็นถึงศักยภาพของ QwQ-32B สำหรับการใช้งานจริงนอกเหนือจากเกณฑ์มาตรฐานทางวิชาการ
ผลลัพธ์เหล่านี้แสดงให้เห็นถึงความสามารถของ QwQ-32B อย่างสม่ำเสมอในการแข่งขันกับ และในบางกรณี มีประสิทธิภาพเหนือกว่าโมเดลที่ใหญ่กว่ามาก สิ่งนี้เน้นให้เห็นถึงประสิทธิภาพของแนวทางของทีม Qwen และศักยภาพในการเปลี่ยนแปลงของ RL ในการพัฒนา AI
แนวทางที่เป็นนวัตกรรมของทีม Qwen
ความสำเร็จของ QwQ-32B มีสาเหตุมาจากกระบวนการ RL หลายขั้นตอนที่เป็นนวัตกรรมของทีม Qwen กระบวนการนี้เริ่มต้นด้วย ‘cold-start’ checkpoint ซึ่งหมายความว่าโมเดลเริ่มต้นด้วย foundation ที่ได้รับการฝึกอบรมล่วงหน้า แต่จะได้รับการปรับปรุงอย่างมีนัยสำคัญผ่าน RL กระบวนการฝึกอบรมขับเคลื่อนด้วยรางวัลตามผลลัพธ์ (outcome-based rewards) ซึ่งจูงใจให้โมเดลปรับปรุงประสิทธิภาพในงานเฉพาะ
ขั้นตอนเริ่มต้นของการฝึกอบรมมุ่งเน้นไปที่การปรับขนาด RL สำหรับงานคณิตศาสตร์และการเขียนโค้ด ซึ่งเกี่ยวข้องกับการใช้ตัวตรวจสอบความถูกต้อง (accuracy verifiers) และเซิร์ฟเวอร์การดำเนินการโค้ด (code execution servers) เพื่อให้ข้อเสนอแนะและแนะนำการเรียนรู้ของโมเดล โมเดลเรียนรู้ที่จะสร้างวิธีแก้ปัญหาทางคณิตศาสตร์ที่ถูกต้องและเขียนโค้ดที่ใช้งานได้โดยได้รับรางวัลสำหรับผลลัพธ์ที่ประสบความสำเร็จ
ขั้นตอนที่สองขยายขอบเขตของการฝึกอบรม RL เพื่อให้ครอบคลุมความสามารถทั่วไป ขั้นตอนนี้รวมรางวัลจากโมเดลรางวัลทั่วไป (general reward models) และตัวตรวจสอบตามกฎ (rule-based verifiers) ซึ่งขยายความเข้าใจของโมเดลเกี่ยวกับงานและคำแนะนำต่างๆ ขั้นตอนนี้มีความสำคัญอย่างยิ่งต่อการพัฒนาโมเดล AI ที่มีความรอบด้านซึ่งสามารถจัดการกับความท้าทายต่างๆ ได้หลากหลาย
ทีม Qwen ค้นพบว่าขั้นตอนที่สองของการฝึกอบรม RL นี้ แม้จะมีจำนวนขั้นตอนที่ค่อนข้างน้อย แต่ก็สามารถปรับปรุงประสิทธิภาพของโมเดลได้อย่างมีนัยสำคัญในความสามารถทั่วไปต่างๆ ซึ่งรวมถึงการปฏิบัติตามคำสั่ง การจัดตำแหน่งให้สอดคล้องกับความชอบของมนุษย์ และประสิทธิภาพของ agent โดยรวม ที่สำคัญ การปรับปรุงความสามารถทั่วไปนี้ไม่ได้เกิดขึ้นโดยแลกกับประสิทธิภาพในด้านคณิตศาสตร์และการเขียนโค้ด ซึ่งแสดงให้เห็นถึงประสิทธิภาพของแนวทางแบบหลายขั้นตอน
Open-Weight และเข้าถึงได้
ในการเคลื่อนไหวที่ส่งเสริมการทำงานร่วมกันและการวิจัยเพิ่มเติม ทีม Qwen ได้ทำให้ QwQ-32B เป็น open-weight ซึ่งหมายความว่าพารามิเตอร์ของโมเดลนั้นเปิดเผยต่อสาธารณะ ทำให้ นักวิจัยและนักพัฒนาสามารถเข้าถึง ศึกษา และต่อยอดจากงานของทีม Qwen ได้ โมเดลนี้มีอยู่ใน Hugging Face และ ModelScope ภายใต้ใบอนุญาต Apache 2.0 ซึ่งเป็นใบอนุญาตที่อนุญาตให้ใช้งานและแก้ไขได้อย่างกว้างขวาง นอกจากนี้ QwQ-32B ยังสามารถเข้าถึงได้ผ่าน Qwen Chat ซึ่งมีอินเทอร์เฟซที่ใช้งานง่ายสำหรับการโต้ตอบกับโมเดล
ก้าวสู่ AGI
การพัฒนา QwQ-32B แสดงถึงความก้าวหน้าครั้งสำคัญในการแสวงหา Artificial General Intelligence (AGI) ทีม Qwen มองว่าโมเดลนี้เป็นการสำรวจเบื้องต้นเกี่ยวกับการปรับขนาด RL เพื่อเพิ่มความสามารถในการให้เหตุผล และพวกเขาวางแผนที่จะตรวจสอบการรวม agent เข้ากับ RL สำหรับการให้เหตุผลในระยะยาว (long-horizon reasoning) ซึ่งเกี่ยวข้องกับการพัฒนาระบบ AI ที่สามารถวางแผนและดำเนินงานที่ซับซ้อนในช่วงเวลาที่ยาวนาน ซึ่งเป็นความสามารถที่สำคัญสำหรับการบรรลุ AGI
ทีมงานมั่นใจว่าการรวม foundation models ที่แข็งแกร่งขึ้นกับ RL ซึ่งขับเคลื่อนโดยทรัพยากรการคำนวณที่ปรับขนาดได้ จะเป็นตัวขับเคลื่อนสำคัญในการพัฒนา AGI QwQ-32B ทำหน้าที่เป็นเครื่องพิสูจน์ศักยภาพนี้ได้อย่างทรงพลัง โดยแสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้นอย่างน่าทึ่งที่สามารถทำได้ผ่านการใช้งาน RL เชิงกลยุทธ์ ความพยายามในการวิจัยและพัฒนาอย่างต่อเนื่องของทีม Qwen พร้อมกับลักษณะ open-source ของ QwQ-32B สัญญาว่าจะเร่งความก้าวหน้าในสาขา AI และนำเราเข้าใกล้การสร้างเครื่องจักรที่ชาญฉลาดอย่างแท้จริง จุดสนใจไม่ได้อยู่ที่การสร้างแบบจำลองที่ใหญ่ขึ้นเท่านั้น แต่ยังรวมถึงการสร้างระบบที่ชาญฉลาดและปรับตัวได้มากขึ้นผ่านเทคนิคการฝึกอบรมที่เป็นนวัตกรรมใหม่