Alibaba Unveils Qwen-32B: A Compact Powerhouse Challenging Larger Models
در یک اطلاعیه غیرمنتظره در اواخر شب، علیبابا آخرین مدل استدلال خود، Qwen-32B (QwQ-32B) را متنباز کرد. این مدل با 32 میلیارد پارامتر، عملکردی در حد مدل بسیار بزرگتر 67.1 میلیارد پارامتری DeepSeek-R1 ارائه میدهد.
تیم Qwen در اطلاعیه خود بر تحقیقاتشان در مورد مقیاسبندی تکنیکهای یادگیری تقویتی (RL) تاکید کردند. آنها اظهار داشتند: “ما در حال بررسی روشهایی برای گسترش RL بودهایم و به نتایج چشمگیری بر اساس Qwen2.5-32B خود دست یافتهایم. ما دریافتیم که آموزش RL میتواند به طور مداوم عملکرد را بهبود بخشد، به ویژه در وظایف ریاضی و کدنویسی. مشاهده کردیم که مقیاسبندی مداوم RL میتواند به مدلهای متوسط کمک کند تا به عملکردی قابل مقایسه با مدلهای غولپیکر MoE دست یابند. ما از همه استقبال میکنیم تا با مدل جدید ما گفتگو کنند و به ما بازخورد بدهند!”
QwQ-32B اکنون در Hugging Face و ModelScope تحت مجوز متنباز Apache 2.0 در دسترس است. کاربران همچنین میتوانند مستقیماً از طریق Qwen Chat با این مدل تعامل داشته باشند. ابزار محبوب استقرار محلی، Ollama، قبلاً پشتیبانی را یکپارچه کرده است که از طریق دستور ollama run qwq
قابل دسترسی است.
همراه با این انتشار، تیم Qwen یک پست وبلاگ با عنوان “QwQ-32B: Harnessing the Power of Reinforcement Learning” منتشر کرد که پیشرفتهای پیشگامانه را شرح میداد.
پست وبلاگ بر پتانسیل عظیم یادگیری تقویتی (RL) در مقیاس بزرگ برای پیشی گرفتن از روشهای سنتی پیشآموزش و پسآموزش در بهبود عملکرد مدل تاکید میکند. تحقیقات اخیر، مانند ادغام دادههای شروع سرد و آموزش چند مرحلهای DeepSeek-R1، توانایی RL را در تقویت قابل توجه قابلیتهای استدلال، امکان تفکر عمیقتر و حل مسئله پیچیده نشان میدهد.
تمرکز تیم Qwen بر بهرهگیری از RL در مقیاس بزرگ برای ارتقای هوش مدلهای زبانی بزرگ بود که در نهایت منجر به ایجاد QwQ-32B شد. این مدل 32 میلیارد پارامتری به طور قابل توجهی با عملکرد مدل 67.1 میلیارد پارامتری (با 37 میلیارد فعال) DeepSeek-R1 رقابت میکند. این تیم تاکید کرد: “این دستاورد بر اثربخشی استفاده از یادگیری تقویتی برای مدلهای پایه قوی و از پیش آموزشدیده تاکید میکند.”
QwQ-32B همچنین قابلیتهای مرتبط با عامل را در خود جای داده است و به آن امکان میدهد تا اقدامات خود را در حین استفاده از ابزارها به طور انتقادی ارزیابی کند و فرآیند استدلال خود را بر اساس بازخورد محیطی تطبیق دهد. این تیم اظهار داشت: “ما امیدواریم که تلاشهای ما نشان دهد که ترکیب مدلهای پایه قدرتمند با یادگیری تقویتی در مقیاس بزرگ ممکن است مسیری مناسب برای دستیابی به هوش مصنوعی عمومی (AGI) باشد.”
Model Performance: Benchmarking QwQ-32B
QwQ-32B در طیف وسیعی از معیارها، شامل استدلال ریاضی، برنامهنویسی و قابلیتهای عمومی، مورد ارزیابی دقیق قرار گرفت. نتایج، عملکرد QwQ-32B را در مقایسه با سایر مدلهای پیشرو، از جمله DeepSeek-R1-Distilled-Qwen-32B، DeepSeek-R1-Distilled-Llama-70B، o1-mini و DeepSeek-R1 اصلی نشان میدهد.
یافتهها قابل توجه هستند. QwQ-32B عملکرد استثناییای را نشان میدهد، حتی کمی از DeepSeek-R1-67B در معیارهای LiveBench، IFEval و BFCL پیشی میگیرد. این امر کارایی و قدرت رویکرد یادگیری تقویتی اتخاذ شده توسط تیم Qwen را برجسته میکند.
Deep Dive into Reinforcement Learning
توسعه QwQ-32B از یادگیری تقویتی در مقیاس بزرگ که بر اساس یک پایه شروع سرد ساخته شده بود، بهره برد. فاز اولیه به طور خاص بر آموزش RL برای وظایف ریاضی و برنامهنویسی متمرکز بود. برخلاف رویکردهای سنتی که به مدلهای پاداش متکی هستند، تیم Qwen برای مسائل ریاضی با تایید صحت پاسخهای تولید شده، بازخورد ارائه کرد. برای وظایف کدنویسی، بازخورد از یک سرور اجرای کد گرفته شد که ارزیابی میکرد آیا کد تولید شده با موفقیت موارد آزمایشی را پشت سر گذاشته است یا خیر.
با پیشرفت آموزش از طریق تکرارهای متعدد، QwQ-32B بهبود عملکرد ثابتی را در هر دو حوزه نشان داد. این فرآیند پالایش تکراری، که با بازخورد مستقیم در مورد دقت راهحل هدایت میشد، بسیار موثر بود.
پس از فاز اولیه RL که بر ریاضیات و برنامهنویسی متمرکز بود، یک فاز RL بعدی برای افزایش قابلیتهای عمومی معرفی شد. این مرحله از مدلهای پاداش عمومی و اعتبارسنجهای مبتنی بر قانون برای آموزش استفاده کرد. نتایج نشان داد که حتی تعداد کمی از مراحل در RL عمومی میتواند قابلیتهای کلی را بدون تأثیر قابل توجهی بر عملکرد وظایف ریاضی و برنامهنویسی که قبلاً آموزش داده شده بودند، افزایش دهد. این امر سازگاری و استحکام مدل را نشان میدهد.
Future Directions: Expanding the Horizons of AI
تیم Qwen همچنین برنامههای آینده خود را به اشتراک گذاشت و اظهار داشت: “این اولین قدم Qwen در بهرهگیری از یادگیری تقویتی (RL) در مقیاس بزرگ برای افزایش قابلیتهای استدلال است. از طریق این سفر، ما نه تنها شاهد پتانسیل عظیم مقیاسبندی RL بودهایم، بلکه امکانات دستنخورده در مدلهای زبانی از پیش آموزشدیده را نیز تشخیص دادهایم. همانطور که ما در جهت توسعه نسل بعدی Qwen کار میکنیم، معتقدیم که ترکیب مدلهای پایه حتی قدرتمندتر با RL، که توسط منابع محاسباتی مقیاسبندی شده پشتیبانی میشود، ما را به دستیابی به هوش مصنوعی عمومی (AGI) نزدیکتر میکند. علاوه بر این، ما به طور فعال در حال بررسی ادغام عاملها با RL هستیم تا استدلال بلندمدت را فعال کنیم و هدف آن باز کردن هوش بیشتر از طریق زمان استدلال طولانیتر است.” این تعهد به بهبود مستمر و اکتشاف، تعهد تیم به پیشبرد مرزهای هوش مصنوعی را نشان میدهد.
Community Reception: QwQ-32B Garners Widespread Acclaim
انتشار QwQ-32B با استقبال گسترده و بازخورد مثبت روبرو شده است. جامعه هوش مصنوعی، از جمله بسیاری از کاربران Qwen، مشتاقانه منتظر رونمایی از این مدل جدید بودند.
هیجان اخیر پیرامون DeepSeek، ترجیح جامعه را برای مدل کامل به دلیل محدودیتهای نسخه تقطیر شده برجسته کرد. با این حال، مدل کامل 67.1B پارامتری چالشهای استقراری را به ویژه برای دستگاههای لبه با منابع محدود ارائه میکرد. Qwen-32B، با اندازه به طور قابل توجهی کاهش یافته، این نگرانی را برطرف میکند و امکاناتی را برای استقرار گستردهتر باز میکند.
یکی از کاربران اظهار داشت: “احتمالاً هنوز در تلفنهای همراه امکانپذیر نیست، اما مکهایی با رم کافی ممکن است بتوانند آن را اجرا کنند.” این احساس، خوشبینی پیرامون پتانسیل اجرای QwQ-32B را در دستگاههای با منابع محدود منعکس میکند.
کاربر دیگری مستقیماً Binyuan Hui، دانشمند آزمایشگاه Tongyi علیبابا را خطاب قرار داد و خواستار توسعه مدلهای حتی کوچکتر شد. این امر تقاضا برای مدلهای هوش مصنوعی فشردهتر و کارآمدتر را برجسته میکند.
کاربران همچنین تجربیات خود را به اشتراک گذاشتهاند و سرعت و پاسخگویی مدل را تحسین کردهاند. یکی از کاربران نمایشی را به نمایش گذاشت که قابلیتهای پردازش سریع QwQ-32B را برجسته میکرد.
Awni Hannun، محقق یادگیری ماشین در اپل، اجرای موفقیتآمیز QwQ-32B را در M4 Max تایید کرد و به سرعت چشمگیر آن اشاره کرد. این تایید از سوی یک محقق برجسته، ادعاهای عملکرد مدل را بیشتر تثبیت میکند.
تیم Qwen همچنین یک نسخه پیشنمایش از QwQ-32B را در رابط چت رسمی خود، Qwen Chat، در دسترس قرار داده است و کاربران را تشویق میکند تا آزمایش کنند و بازخورد ارائه دهند. این رویکرد تعاملی، مشارکت جامعه را تقویت میکند و امکان ارزیابی دنیای واقعی قابلیتهای مدل را فراهم میکند.
پذیرش سریع QwQ-32B توسط جامعه و ادغام آن در ابزارهای محبوب مانند Ollama، اهمیت و تأثیر مدل را نشان میدهد. ترکیبی از عملکرد قوی، اندازه مدل کوچکتر و استفاده نوآورانه از یادگیری تقویتی، QwQ-32B را به عنوان یک پیشرفت بزرگ در زمینه مدلهای زبانی بزرگ قرار داده است. ماهیت متنباز این مدل، همکاری و نوآوری را در جامعه هوش مصنوعی تشویق میکند و راه را برای پیشرفتهای آینده هموار میکند. تمرکز بر استقرار عملی و کاربردهای دنیای واقعی، پتانسیل QwQ-32B را برای تأثیر قابل توجهی فراتر از تنظیمات تحقیقاتی برجسته میکند و قابلیتهای پیشرفته هوش مصنوعی را برای طیف وسیعتری از کاربران و دستگاهها به ارمغان میآورد. تلاشهای تحقیق و توسعه مداوم تیم Qwen نوید پیشرفتهای هیجانانگیزتری را در پیگیری AGI میدهد.
برای تشریح بیشتر، جزئیات بیشتری در مورد هر بخش اضافه می کنیم:
جزئیات بیشتر در مورد عملکرد مدل (Model Performance)
ارزیابی QwQ-32B نه تنها به معیارهای کلی محدود نشد، بلکه به طور خاص به تواناییهای مدل در حوزههای مختلف نیز پرداخته شد. این حوزهها شامل موارد زیر بودند:
- استدلال ریاضی (Mathematical Reasoning): در این بخش، توانایی مدل در حل مسائل ریاضی پیچیده، استنتاج منطقی و استفاده از مفاهیم ریاضی مورد ارزیابی قرار گرفت. معیارهایی مانند GSM8K و MATH برای سنجش این قابلیتها استفاده شدند.
- برنامهنویسی (Programming): در این بخش، توانایی مدل در تولید کد صحیح و کارآمد، درک منطق برنامهنویسی و حل مسائل الگوریتمی مورد بررسی قرار گرفت. معیارهایی مانند HumanEval و MBPP برای این منظور استفاده شدند.
- قابلیتهای عمومی (General Capabilities): این بخش شامل طیف وسیعی از وظایف زبانی عمومی مانند درک مطلب، پاسخ به سوالات، خلاصهسازی متن و ترجمه بود. معیارهایی مانند MMLU و HellaSwag برای ارزیابی این قابلیتها به کار رفتند.
نتایج نشان داد که QwQ-32B در تمام این حوزهها عملکرد بسیار خوبی دارد و در برخی موارد حتی از مدلهای بزرگتر نیز پیشی میگیرد. این امر نشاندهنده قدرت یادگیری تقویتی در بهبود عملکرد مدل در وظایف خاص و همچنین حفظ قابلیتهای عمومی آن است.
جزئیات بیشتر در مورد یادگیری تقویتی (Reinforcement Learning)
رویکرد یادگیری تقویتی مورد استفاده در QwQ-32B دارای ویژگیهای منحصر به فردی بود که آن را از روشهای سنتی متمایز میکرد:
- شروع سرد (Cold Start): مدل از یک پایه از پیش آموزشدیده شده شروع به کار کرد که به آن امکان میداد تا با سرعت بیشتری یادگیری تقویتی را آغاز کند. این امر به ویژه در مقایسه با روشهایی که از ابتدا شروع به آموزش میکنند، مزیت قابل توجهی دارد.
- بازخورد مستقیم (Direct Feedback): به جای استفاده از مدلهای پاداش که ممکن است دارای خطا باشند، تیم Qwen از بازخورد مستقیم برای آموزش مدل استفاده کرد. این بازخورد در مورد مسائل ریاضی از طریق بررسی صحت پاسخها و در مورد مسائل کدنویسی از طریق اجرای کد و بررسی نتایج آزمونها ارائه میشد.
- آموزش چند مرحلهای (Multi-Stage Training): آموزش مدل در چند مرحله انجام شد. مرحله اول بر روی وظایف ریاضی و برنامهنویسی متمرکز بود و مرحله دوم به بهبود قابلیتهای عمومی اختصاص داشت. این رویکرد به مدل اجازه میداد تا به طور تخصصی در حوزههای خاص مهارت پیدا کند و در عین حال قابلیتهای عمومی خود را نیز حفظ کند.
- استفاده از Rule-based validators: در مرحله دوم آموزش، علاوه بر general reward models از rule-based validators نیز استفاده شد. این ولیدیتورها به مدل کمک می کردند تا درک بهتری از قوانین و قواعد حاکم بر زبان طبیعی داشته باشد.
جزئیات بیشتر در مورد جهتگیریهای آینده (Future Directions)
تیم Qwen برنامههای بلندپروازانهای برای آینده دارد که شامل موارد زیر است:
- ادغام عاملها (Agent Integration): یکی از اهداف اصلی تیم Qwen، ادغام عاملها با یادگیری تقویتی است. عاملها به مدل اجازه میدهند تا به طور مستقل با محیط تعامل داشته باشند، تصمیمگیری کنند و اقدامات خود را بر اساس بازخورد محیطی تنظیم کنند. این امر میتواند به طور قابل توجهی قابلیتهای استدلال و حل مسئله مدل را افزایش دهد.
- استدلال بلندمدت (Long-Term Reasoning): تیم Qwen در حال بررسی روشهایی برای فعال کردن استدلال بلندمدت در مدلهای خود است. این امر به مدلها اجازه میدهد تا مسائل پیچیدهتری را که نیاز به تفکر و برنامهریزی طولانیمدت دارند، حل کنند.
- مقیاسبندی محاسباتی (Computational Scaling): تیم Qwen معتقد است که ترکیب مدلهای پایه قدرتمندتر با یادگیری تقویتی و استفاده از منابع محاسباتی بیشتر، میتواند به پیشرفتهای چشمگیری در زمینه هوش مصنوعی منجر شود.
- تمرکز بر AGI: هدف نهایی تیم Qwen، دستیابی به هوش مصنوعی عمومی (AGI) است. آنها معتقدند که ترکیب مدلهای پایه قدرتمند، یادگیری تقویتی و عاملها میتواند مسیری مناسب برای رسیدن به این هدف باشد.
جزئیات بیشتر در مورد استقبال جامعه (Community Reception)
انتشار QwQ-32B با استقبال گستردهای از سوی جامعه هوش مصنوعی روبرو شد. برخی از نکات برجسته این استقبال عبارتند از:
- رفع نیاز به مدلهای کوچکتر: بسیاری از کاربران به دلیل محدودیتهای سختافزاری، به دنبال مدلهای کوچکتر و کارآمدتر بودند. QwQ-32B با اندازه 32 میلیارد پارامتری خود، این نیاز را برآورده میکند و امکان استقرار مدل را در دستگاههای با منابع محدودتر فراهم میکند.
- سرعت و پاسخگویی: کاربران از سرعت و پاسخگویی بالای QwQ-32B در مقایسه با مدلهای بزرگتر ابراز رضایت کردند. این امر به ویژه برای کاربردهایی که نیاز به پاسخ سریع دارند، اهمیت دارد.
- تایید محققان برجسته: محققان برجستهای مانند Awni Hannun از اپل، عملکرد QwQ-32B را تایید کردند و این امر اعتبار مدل را افزایش داد.
- مشارکت جامعه: تیم Qwen با ارائه نسخه پیشنمایش مدل و تشویق کاربران به ارائه بازخورد، مشارکت جامعه را در توسعه و بهبود مدل تقویت کرد.
- ادغام سریع با ابزارهای محبوب: ادغام سریع QwQ-32B با ابزارهایی مانند Ollama نشاندهنده اهمیت و پذیرش سریع مدل در جامعه هوش مصنوعی است.
- پتانسیل کاربردهای گسترده: QwQ-32B نه تنها در محیطهای تحقیقاتی، بلکه در کاربردهای واقعی نیز پتانسیل بالایی دارد. این مدل میتواند در طیف وسیعی از حوزهها مانند پردازش زبان طبیعی، تولید محتوا، ترجمه ماشینی و دستیارهای هوشمند مورد استفاده قرار گیرد.
به طور کلی، QwQ-32B یک گام مهم در جهت توسعه مدلهای زبانی بزرگ کارآمدتر و قابل دسترستر است. این مدل با ترکیب قدرت یادگیری تقویتی، اندازه کوچکتر و رویکرد متنباز، نویدبخش پیشرفتهای چشمگیری در زمینه هوش مصنوعی است.