Alibaba Unveils Qwen-32B: A Compact Powerhouse Challenging Larger Models
ในการประกาศช่วงดึกที่น่าประหลาดใจ Alibaba ได้โอเพนซอร์สโมเดลการให้เหตุผลล่าสุด Qwen-32B (QwQ-32B) โมเดลนี้มีพารามิเตอร์ 32 พันล้านพารามิเตอร์ แสดงประสิทธิภาพเทียบเท่ากับ DeepSeek-R1 ขนาด 67.1 พันล้านพารามิเตอร์ ซึ่งมีขนาดใหญ่กว่าอย่างมาก
ทีมงาน Qwen ได้เน้นย้ำถึงการวิจัยเกี่ยวกับเทคนิคการเรียนรู้แบบเสริมกำลัง (RL) พวกเขากล่าวว่า ‘เราได้สำรวจวิธีการขยาย RL และได้ผลลัพธ์ที่น่าประทับใจโดยอิงจาก Qwen2.5-32B ของเรา เราพบว่าการฝึกอบรม RL สามารถปรับปรุงประสิทธิภาพได้อย่างต่อเนื่อง โดยเฉพาะอย่างยิ่งในงานด้านคณิตศาสตร์และการเขียนโปรแกรม เราสังเกตว่าการปรับขนาด RL อย่างต่อเนื่องสามารถช่วยให้โมเดลขนาดกลางมีประสิทธิภาพเทียบเท่ากับโมเดล MoE ขนาดยักษ์ เรายินดีต้อนรับทุกคนให้สนทนากับโมเดลใหม่ของเราและให้ข้อเสนอแนะแก่เรา!’
QwQ-32B พร้อมใช้งานแล้วบน Hugging Face และ ModelScope ภายใต้ใบอนุญาตโอเพนซอร์ส Apache 2.0 ผู้ใช้ยังสามารถโต้ตอบกับโมเดลได้โดยตรงผ่าน Qwen Chat เครื่องมือปรับใช้ภายในเครื่องยอดนิยม Ollama ได้รวมการสนับสนุนแล้ว โดยเข้าถึงได้ผ่านคำสั่ง: ollama run qwq
พร้อมกับการเปิดตัว ทีมงาน Qwen ได้เผยแพร่บล็อกโพสต์ชื่อ ‘QwQ-32B: Harnessing the Power of Reinforcement Learning’ ซึ่งให้รายละเอียดเกี่ยวกับความก้าวหน้าครั้งสำคัญ
บล็อกโพสต์เน้นย้ำถึงศักยภาพอันยิ่งใหญ่ของการเรียนรู้แบบเสริมกำลัง (RL) ขนาดใหญ่ เพื่อเอาชนะวิธีการฝึกอบรมล่วงหน้าและหลังการฝึกอบรมแบบดั้งเดิมในการปรับปรุงประสิทธิภาพของโมเดล การวิจัยล่าสุด เช่น การรวมข้อมูล cold-start และการฝึกอบรมหลายขั้นตอนของ DeepSeek-R1 แสดงให้เห็นถึงความสามารถของ RL ในการเพิ่มขีดความสามารถในการให้เหตุผลอย่างมีนัยสำคัญ ทำให้สามารถคิดเชิงลึกและแก้ปัญหาที่ซับซ้อนได้
การสำรวจของทีม Qwen มุ่งเน้นไปที่การใช้ประโยชน์จาก RL ขนาดใหญ่เพื่อยกระดับความฉลาดของโมเดลภาษาขนาดใหญ่ ซึ่งนำไปสู่การสร้าง QwQ-32B โมเดลพารามิเตอร์ 32 พันล้านนี้มีความสามารถเทียบเท่ากับ DeepSeek-R1 ขนาด 67.1 พันล้านพารามิเตอร์ (โดยเปิดใช้งาน 37 พันล้าน) ทีมงานเน้นย้ำว่า ‘ความสำเร็จนี้เน้นย้ำถึงประสิทธิภาพของการใช้การเรียนรู้แบบเสริมกำลังกับโมเดลพื้นฐานที่ได้รับการฝึกอบรมล่วงหน้าที่มีประสิทธิภาพ’
QwQ-32B ยังรวมความสามารถที่เกี่ยวข้องกับตัวแทน (agent) ทำให้สามารถประเมินการกระทำของตนเองได้อย่างมีวิจารณญาณในขณะที่ใช้เครื่องมือ และปรับกระบวนการให้เหตุผลตามข้อเสนอแนะจากสภาพแวดล้อม ‘เราหวังว่าความพยายามของเราจะแสดงให้เห็นว่าการรวมโมเดลพื้นฐานที่ทรงพลังเข้ากับการเรียนรู้แบบเสริมกำลังขนาดใหญ่อาจเป็นเส้นทางที่เป็นไปได้สู่ Artificial General Intelligence (AGI)’ ทีมงานกล่าว
Model Performance: Benchmarking QwQ-32B
QwQ-32B ได้รับการประเมินอย่างเข้มงวดในเกณฑ์มาตรฐานต่างๆ ซึ่งครอบคลุมการให้เหตุผลทางคณิตศาสตร์ การเขียนโปรแกรม และความสามารถทั่วไป ผลลัพธ์แสดงให้เห็นถึงประสิทธิภาพของ QwQ-32B เมื่อเปรียบเทียบกับโมเดลชั้นนำอื่นๆ รวมถึง DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini และ DeepSeek-R1 ดั้งเดิม
ผลการวิจัยมีความโดดเด่น QwQ-32B แสดงประสิทธิภาพที่ยอดเยี่ยม แม้จะเหนือกว่า DeepSeek-R1-67B เล็กน้อยในเกณฑ์มาตรฐาน LiveBench, IFEval และ BFCL สิ่งนี้เน้นย้ำถึงประสิทธิภาพและพลังของแนวทางการเรียนรู้แบบเสริมกำลังที่ทีม Qwen นำมาใช้
Deep Dive into Reinforcement Learning
การพัฒนา QwQ-32B ใช้ประโยชน์จากการเรียนรู้แบบเสริมกำลังขนาดใหญ่ที่สร้างขึ้นบนพื้นฐาน cold-start ระยะเริ่มต้นมุ่งเน้นไปที่การฝึกอบรม RL สำหรับงานคณิตศาสตร์และการเขียนโปรแกรมโดยเฉพาะ ซึ่งแตกต่างจากแนวทางดั้งเดิมที่อาศัยโมเดลรางวัล ทีม Qwen ให้ข้อเสนอแนะสำหรับปัญหาทางคณิตศาสตร์โดยการตรวจสอบความถูกต้องของคำตอบที่สร้างขึ้น สำหรับงานเขียนโปรแกรม ข้อเสนอแนะได้มาจากเซิร์ฟเวอร์การดำเนินการโค้ด โดยประเมินว่าโค้ดที่สร้างขึ้นผ่านกรณีทดสอบได้สำเร็จหรือไม่
เมื่อการฝึกอบรมดำเนินไปหลายรอบ QwQ-32B แสดงให้เห็นถึงการปรับปรุงประสิทธิภาพอย่างสม่ำเสมอในทั้งสองโดเมน กระบวนการปรับแต่งซ้ำๆ นี้ ซึ่งได้รับคำแนะนำจากข้อเสนอแนะโดยตรงเกี่ยวกับความถูกต้องของโซลูชัน ได้พิสูจน์แล้วว่ามีประสิทธิภาพสูง
หลังจากระยะ RL เริ่มต้นที่เน้นคณิตศาสตร์และการเขียนโปรแกรม ระยะ RL ต่อมาได้ถูกนำมาใช้เพื่อเพิ่มขีดความสามารถทั่วไป ขั้นตอนนี้ใช้โมเดลรางวัลทั่วไปและตัวตรวจสอบตามกฎสำหรับการฝึกอบรม ผลลัพธ์ระบุว่าแม้แต่ขั้นตอนจำนวนเล็กน้อยใน RL ทั่วไปก็สามารถเพิ่มขีดความสามารถโดยรวมได้โดยไม่ส่งผลกระทบต่อประสิทธิภาพในงานคณิตศาสตร์และการเขียนโปรแกรมที่ได้รับการฝึกอบรมก่อนหน้านี้อย่างมีนัยสำคัญ สิ่งนี้แสดงให้เห็นถึงความสามารถในการปรับตัวและความทนทานของโมเดล
Future Directions: Expanding the Horizons of AI
ทีม Qwen ยังได้แบ่งปันแผนในอนาคต โดยกล่าวว่า ‘นี่เป็นก้าวแรกของ Qwen ในการใช้ประโยชน์จากการเรียนรู้แบบเสริมกำลัง (RL) ขนาดใหญ่เพื่อเพิ่มขีดความสามารถในการให้เหตุผล ตลอดการเดินทางนี้ เราไม่เพียงแต่ได้เห็นศักยภาพอันยิ่งใหญ่ของการปรับขนาด RL เท่านั้น แต่ยังตระหนักถึงความเป็นไปได้ที่ยังไม่ได้ใช้ภายในโมเดลภาษาที่ได้รับการฝึกอบรมล่วงหน้า ในขณะที่เราทำงานเพื่อพัฒนา Qwen รุ่นต่อไป เราเชื่อว่าการรวมโมเดลพื้นฐานที่ทรงพลังยิ่งขึ้นกับ RL ซึ่งขับเคลื่อนโดยทรัพยากรการคำนวณที่ปรับขนาดได้ จะนำเราเข้าใกล้การบรรลุ Artificial General Intelligence (AGI) มากขึ้น นอกจากนี้ เรากำลังสำรวจการรวมตัวแทน (agents) เข้ากับ RL อย่างแข็งขันเพื่อเปิดใช้งานการให้เหตุผลในระยะยาว โดยมีเป้าหมายเพื่อปลดล็อกความฉลาดที่ยิ่งใหญ่กว่าเดิมผ่านระยะเวลาการให้เหตุผลที่ขยายออกไป’ ความมุ่งมั่นในการปรับปรุงและสำรวจอย่างต่อเนื่องนี้เน้นย้ำถึงความทุ่มเทของทีมในการผลักดันขอบเขตของ AI
Community Reception: QwQ-32B Garners Widespread Acclaim
การเปิดตัว QwQ-32B ได้รับการตอบรับอย่างกระตือรือร้นและข้อเสนอแนะเชิงบวกอย่างกว้างขวาง ชุมชน AI รวมถึงผู้ใช้ Qwen จำนวนมากต่างรอคอยการเปิดตัวโมเดลใหม่นี้
ความตื่นเต้นเมื่อเร็วๆ นี้เกี่ยวกับ DeepSeek เน้นย้ำถึงความชอบของชุมชนสำหรับโมเดลเต็มรูปแบบ เนื่องจากข้อจำกัดของเวอร์ชันกลั่น อย่างไรก็ตาม โมเดลเต็มรูปแบบ 67.1B พารามิเตอร์นำเสนอความท้าทายในการปรับใช้ โดยเฉพาะอย่างยิ่งสำหรับอุปกรณ์ Edge ที่มีทรัพยากรจำกัด Qwen-32B ซึ่งมีขนาดลดลงอย่างมาก ช่วยแก้ปัญหานี้ได้ เปิดโอกาสในการปรับใช้ที่กว้างขึ้น
ผู้ใช้รายหนึ่งแสดงความคิดเห็นว่า ‘อาจจะยังไม่สามารถใช้งานได้บนโทรศัพท์มือถือ แต่ Mac ที่มี RAM เพียงพออาจจะสามารถจัดการได้’ ความคิดเห็นนี้สะท้อนถึงการมองโลกในแง่ดีเกี่ยวกับศักยภาพในการเรียกใช้ QwQ-32B บนอุปกรณ์ที่มีทรัพยากรจำกัด
ผู้ใช้รายอื่นกล่าวถึง Binyuan Hui นักวิทยาศาสตร์จาก Tongyi Laboratory ของ Alibaba โดยตรง เรียกร้องให้มีการพัฒนาโมเดลที่เล็กลง สิ่งนี้เน้นย้ำถึงความต้องการโมเดล AI ที่มีขนาดกะทัดรัดและมีประสิทธิภาพมากขึ้น
ผู้ใช้ยังได้แบ่งปันประสบการณ์ของพวกเขา โดยยกย่องความเร็วและการตอบสนองของโมเดล ผู้ใช้รายหนึ่งแสดงการสาธิต โดยเน้นถึงความสามารถในการประมวลผลที่รวดเร็วของ QwQ-32B
Awni Hannun นักวิจัยด้านการเรียนรู้ของเครื่องที่ Apple ยืนยันการดำเนินการ QwQ-32B บน M4 Max ได้สำเร็จ โดยสังเกตเห็นความเร็วที่น่าประทับใจ การตรวจสอบนี้จากนักวิจัยที่มีชื่อเสียงช่วยเสริมประสิทธิภาพของโมเดล
ทีม Qwen ยังได้เปิดตัว QwQ-32B เวอร์ชันตัวอย่างบนอินเทอร์เฟซการแชทอย่างเป็นทางการ Qwen Chat เพื่อกระตุ้นให้ผู้ใช้ทดสอบและให้ข้อเสนอแนะ แนวทางเชิงโต้ตอบนี้ส่งเสริมการมีส่วนร่วมของชุมชนและช่วยให้สามารถประเมินความสามารถของโมเดลในโลกแห่งความเป็นจริงได้
การนำ QwQ-32B ไปใช้อย่างรวดเร็วโดยชุมชนและการรวมเข้ากับเครื่องมือยอดนิยม เช่น Ollama แสดงให้เห็นถึงความสำคัญและผลกระทบของโมเดล การผสมผสานระหว่างประสิทธิภาพที่แข็งแกร่ง ขนาดโมเดลที่เล็กลง และการใช้การเรียนรู้แบบเสริมกำลังที่เป็นนวัตกรรมใหม่ ทำให้ QwQ-32B เป็นความก้าวหน้าครั้งสำคัญในสาขาโมเดลภาษาขนาดใหญ่ ลักษณะโอเพนซอร์สของโมเดลยังส่งเสริมความร่วมมือและนวัตกรรมภายในชุมชน AI ซึ่งปูทางไปสู่ความก้าวหน้าในอนาคต การมุ่งเน้นไปที่การปรับใช้จริงและการใช้งานจริงเน้นย้ำถึงศักยภาพของ QwQ-32B ที่จะมีผลกระทบอย่างมากนอกเหนือจากการตั้งค่าการวิจัย โดยนำความสามารถ AI ขั้นสูงมาสู่ผู้ใช้และอุปกรณ์ที่หลากหลายขึ้น ความพยายามในการวิจัยและพัฒนาอย่างต่อเนื่องของทีม Qwen สัญญาว่าจะมีความก้าวหน้าที่น่าตื่นเต้นยิ่งขึ้นในการแสวงหา AGI