رونمایی علی‌بابا از Qwen-32B: قدرتمند و کم‌حجم

Alibaba Unveils Qwen-32B: A Compact Powerhouse Challenging Larger Models

در یک اطلاعیه غیرمنتظره در اواخر شب، علی‌بابا آخرین مدل استدلال خود، Qwen-32B (QwQ-32B) را متن‌باز کرد. این مدل با 32 میلیارد پارامتر، عملکردی در حد مدل بسیار بزرگتر 67.1 میلیارد پارامتری DeepSeek-R1 ارائه می‌دهد.

تیم Qwen در اطلاعیه خود بر تحقیقاتشان در مورد مقیاس‌بندی تکنیک‌های یادگیری تقویتی (RL) تاکید کردند. آن‌ها اظهار داشتند: “ما در حال بررسی روش‌هایی برای گسترش RL بوده‌ایم و به نتایج چشمگیری بر اساس Qwen2.5-32B خود دست یافته‌ایم. ما دریافتیم که آموزش RL می‌تواند به طور مداوم عملکرد را بهبود بخشد، به ویژه در وظایف ریاضی و کدنویسی. مشاهده کردیم که مقیاس‌بندی مداوم RL می‌تواند به مدل‌های متوسط کمک کند تا به عملکردی قابل مقایسه با مدل‌های غول‌پیکر MoE دست یابند. ما از همه استقبال می‌کنیم تا با مدل جدید ما گفتگو کنند و به ما بازخورد بدهند!”

QwQ-32B اکنون در Hugging Face و ModelScope تحت مجوز متن‌باز Apache 2.0 در دسترس است. کاربران همچنین می‌توانند مستقیماً از طریق Qwen Chat با این مدل تعامل داشته باشند. ابزار محبوب استقرار محلی، Ollama، قبلاً پشتیبانی را یکپارچه کرده است که از طریق دستور ollama run qwq قابل دسترسی است.

همراه با این انتشار، تیم Qwen یک پست وبلاگ با عنوان “QwQ-32B: Harnessing the Power of Reinforcement Learning” منتشر کرد که پیشرفت‌های پیشگامانه را شرح می‌داد.

پست وبلاگ بر پتانسیل عظیم یادگیری تقویتی (RL) در مقیاس بزرگ برای پیشی گرفتن از روش‌های سنتی پیش‌آموزش و پس‌آموزش در بهبود عملکرد مدل تاکید می‌کند. تحقیقات اخیر، مانند ادغام داده‌های شروع سرد و آموزش چند مرحله‌ای DeepSeek-R1، توانایی RL را در تقویت قابل توجه قابلیت‌های استدلال، امکان تفکر عمیق‌تر و حل مسئله پیچیده نشان می‌دهد.

تمرکز تیم Qwen بر بهره‌گیری از RL در مقیاس بزرگ برای ارتقای هوش مدل‌های زبانی بزرگ بود که در نهایت منجر به ایجاد QwQ-32B شد. این مدل 32 میلیارد پارامتری به طور قابل توجهی با عملکرد مدل 67.1 میلیارد پارامتری (با 37 میلیارد فعال) DeepSeek-R1 رقابت می‌کند. این تیم تاکید کرد: “این دستاورد بر اثربخشی استفاده از یادگیری تقویتی برای مدل‌های پایه قوی و از پیش آموزش‌دیده تاکید می‌کند.”

QwQ-32B همچنین قابلیت‌های مرتبط با عامل را در خود جای داده است و به آن امکان می‌دهد تا اقدامات خود را در حین استفاده از ابزارها به طور انتقادی ارزیابی کند و فرآیند استدلال خود را بر اساس بازخورد محیطی تطبیق دهد. این تیم اظهار داشت: “ما امیدواریم که تلاش‌های ما نشان دهد که ترکیب مدل‌های پایه قدرتمند با یادگیری تقویتی در مقیاس بزرگ ممکن است مسیری مناسب برای دستیابی به هوش مصنوعی عمومی (AGI) باشد.”

Model Performance: Benchmarking QwQ-32B

QwQ-32B در طیف وسیعی از معیارها، شامل استدلال ریاضی، برنامه‌نویسی و قابلیت‌های عمومی، مورد ارزیابی دقیق قرار گرفت. نتایج، عملکرد QwQ-32B را در مقایسه با سایر مدل‌های پیشرو، از جمله DeepSeek-R1-Distilled-Qwen-32B، DeepSeek-R1-Distilled-Llama-70B، o1-mini و DeepSeek-R1 اصلی نشان می‌دهد.

یافته‌ها قابل توجه هستند. QwQ-32B عملکرد استثنایی‌ای را نشان می‌دهد، حتی کمی از DeepSeek-R1-67B در معیارهای LiveBench، IFEval و BFCL پیشی می‌گیرد. این امر کارایی و قدرت رویکرد یادگیری تقویتی اتخاذ شده توسط تیم Qwen را برجسته می‌کند.

Deep Dive into Reinforcement Learning

توسعه QwQ-32B از یادگیری تقویتی در مقیاس بزرگ که بر اساس یک پایه شروع سرد ساخته شده بود، بهره برد. فاز اولیه به طور خاص بر آموزش RL برای وظایف ریاضی و برنامه‌نویسی متمرکز بود. برخلاف رویکردهای سنتی که به مدل‌های پاداش متکی هستند، تیم Qwen برای مسائل ریاضی با تایید صحت پاسخ‌های تولید شده، بازخورد ارائه کرد. برای وظایف کدنویسی، بازخورد از یک سرور اجرای کد گرفته شد که ارزیابی می‌کرد آیا کد تولید شده با موفقیت موارد آزمایشی را پشت سر گذاشته است یا خیر.

با پیشرفت آموزش از طریق تکرارهای متعدد، QwQ-32B بهبود عملکرد ثابتی را در هر دو حوزه نشان داد. این فرآیند پالایش تکراری، که با بازخورد مستقیم در مورد دقت راه‌حل هدایت می‌شد، بسیار موثر بود.

پس از فاز اولیه RL که بر ریاضیات و برنامه‌نویسی متمرکز بود، یک فاز RL بعدی برای افزایش قابلیت‌های عمومی معرفی شد. این مرحله از مدل‌های پاداش عمومی و اعتبارسنج‌های مبتنی بر قانون برای آموزش استفاده کرد. نتایج نشان داد که حتی تعداد کمی از مراحل در RL عمومی می‌تواند قابلیت‌های کلی را بدون تأثیر قابل توجهی بر عملکرد وظایف ریاضی و برنامه‌نویسی که قبلاً آموزش داده شده بودند، افزایش دهد. این امر سازگاری و استحکام مدل را نشان می‌دهد.

Future Directions: Expanding the Horizons of AI

تیم Qwen همچنین برنامه‌های آینده خود را به اشتراک گذاشت و اظهار داشت: “این اولین قدم Qwen در بهره‌گیری از یادگیری تقویتی (RL) در مقیاس بزرگ برای افزایش قابلیت‌های استدلال است. از طریق این سفر، ما نه تنها شاهد پتانسیل عظیم مقیاس‌بندی RL بوده‌ایم، بلکه امکانات دست‌نخورده در مدل‌های زبانی از پیش آموزش‌دیده را نیز تشخیص داده‌ایم. همانطور که ما در جهت توسعه نسل بعدی Qwen کار می‌کنیم، معتقدیم که ترکیب مدل‌های پایه حتی قدرتمندتر با RL، که توسط منابع محاسباتی مقیاس‌بندی شده پشتیبانی می‌شود، ما را به دستیابی به هوش مصنوعی عمومی (AGI) نزدیک‌تر می‌کند. علاوه بر این، ما به طور فعال در حال بررسی ادغام عامل‌ها با RL هستیم تا استدلال بلندمدت را فعال کنیم و هدف آن باز کردن هوش بیشتر از طریق زمان استدلال طولانی‌تر است.” این تعهد به بهبود مستمر و اکتشاف، تعهد تیم به پیشبرد مرزهای هوش مصنوعی را نشان می‌دهد.

Community Reception: QwQ-32B Garners Widespread Acclaim

انتشار QwQ-32B با استقبال گسترده و بازخورد مثبت روبرو شده است. جامعه هوش مصنوعی، از جمله بسیاری از کاربران Qwen، مشتاقانه منتظر رونمایی از این مدل جدید بودند.

هیجان اخیر پیرامون DeepSeek، ترجیح جامعه را برای مدل کامل به دلیل محدودیت‌های نسخه تقطیر شده برجسته کرد. با این حال، مدل کامل 67.1B پارامتری چالش‌های استقراری را به ویژه برای دستگاه‌های لبه با منابع محدود ارائه می‌کرد. Qwen-32B، با اندازه به طور قابل توجهی کاهش یافته، این نگرانی را برطرف می‌کند و امکاناتی را برای استقرار گسترده‌تر باز می‌کند.

یکی از کاربران اظهار داشت: “احتمالاً هنوز در تلفن‌های همراه امکان‌پذیر نیست، اما مک‌هایی با رم کافی ممکن است بتوانند آن را اجرا کنند.” این احساس، خوش‌بینی پیرامون پتانسیل اجرای QwQ-32B را در دستگاه‌های با منابع محدود منعکس می‌کند.

کاربر دیگری مستقیماً Binyuan Hui، دانشمند آزمایشگاه Tongyi علی‌بابا را خطاب قرار داد و خواستار توسعه مدل‌های حتی کوچکتر شد. این امر تقاضا برای مدل‌های هوش مصنوعی فشرده‌تر و کارآمدتر را برجسته می‌کند.

کاربران همچنین تجربیات خود را به اشتراک گذاشته‌اند و سرعت و پاسخگویی مدل را تحسین کرده‌اند. یکی از کاربران نمایشی را به نمایش گذاشت که قابلیت‌های پردازش سریع QwQ-32B را برجسته می‌کرد.

Awni Hannun، محقق یادگیری ماشین در اپل، اجرای موفقیت‌آمیز QwQ-32B را در M4 Max تایید کرد و به سرعت چشمگیر آن اشاره کرد. این تایید از سوی یک محقق برجسته، ادعاهای عملکرد مدل را بیشتر تثبیت می‌کند.

تیم Qwen همچنین یک نسخه پیش‌نمایش از QwQ-32B را در رابط چت رسمی خود، Qwen Chat، در دسترس قرار داده است و کاربران را تشویق می‌کند تا آزمایش کنند و بازخورد ارائه دهند. این رویکرد تعاملی، مشارکت جامعه را تقویت می‌کند و امکان ارزیابی دنیای واقعی قابلیت‌های مدل را فراهم می‌کند.

پذیرش سریع QwQ-32B توسط جامعه و ادغام آن در ابزارهای محبوب مانند Ollama، اهمیت و تأثیر مدل را نشان می‌دهد. ترکیبی از عملکرد قوی، اندازه مدل کوچکتر و استفاده نوآورانه از یادگیری تقویتی، QwQ-32B را به عنوان یک پیشرفت بزرگ در زمینه مدل‌های زبانی بزرگ قرار داده است. ماهیت متن‌باز این مدل، همکاری و نوآوری را در جامعه هوش مصنوعی تشویق می‌کند و راه را برای پیشرفت‌های آینده هموار می‌کند. تمرکز بر استقرار عملی و کاربردهای دنیای واقعی، پتانسیل QwQ-32B را برای تأثیر قابل توجهی فراتر از تنظیمات تحقیقاتی برجسته می‌کند و قابلیت‌های پیشرفته هوش مصنوعی را برای طیف وسیع‌تری از کاربران و دستگاه‌ها به ارمغان می‌آورد. تلاش‌های تحقیق و توسعه مداوم تیم Qwen نوید پیشرفت‌های هیجان‌انگیزتری را در پیگیری AGI می‌دهد.
برای تشریح بیشتر، جزئیات بیشتری در مورد هر بخش اضافه می کنیم:

جزئیات بیشتر در مورد عملکرد مدل (Model Performance)

ارزیابی QwQ-32B نه تنها به معیارهای کلی محدود نشد، بلکه به طور خاص به توانایی‌های مدل در حوزه‌های مختلف نیز پرداخته شد. این حوزه‌ها شامل موارد زیر بودند:

  • استدلال ریاضی (Mathematical Reasoning): در این بخش، توانایی مدل در حل مسائل ریاضی پیچیده، استنتاج منطقی و استفاده از مفاهیم ریاضی مورد ارزیابی قرار گرفت. معیارهایی مانند GSM8K و MATH برای سنجش این قابلیت‌ها استفاده شدند.
  • برنامه‌نویسی (Programming): در این بخش، توانایی مدل در تولید کد صحیح و کارآمد، درک منطق برنامه‌نویسی و حل مسائل الگوریتمی مورد بررسی قرار گرفت. معیارهایی مانند HumanEval و MBPP برای این منظور استفاده شدند.
  • قابلیت‌های عمومی (General Capabilities): این بخش شامل طیف وسیعی از وظایف زبانی عمومی مانند درک مطلب، پاسخ به سوالات، خلاصه‌سازی متن و ترجمه بود. معیارهایی مانند MMLU و HellaSwag برای ارزیابی این قابلیت‌ها به کار رفتند.

نتایج نشان داد که QwQ-32B در تمام این حوزه‌ها عملکرد بسیار خوبی دارد و در برخی موارد حتی از مدل‌های بزرگتر نیز پیشی می‌گیرد. این امر نشان‌دهنده قدرت یادگیری تقویتی در بهبود عملکرد مدل در وظایف خاص و همچنین حفظ قابلیت‌های عمومی آن است.

جزئیات بیشتر در مورد یادگیری تقویتی (Reinforcement Learning)

رویکرد یادگیری تقویتی مورد استفاده در QwQ-32B دارای ویژگی‌های منحصر به فردی بود که آن را از روش‌های سنتی متمایز می‌کرد:

  • شروع سرد (Cold Start): مدل از یک پایه از پیش آموزش‌دیده شده شروع به کار کرد که به آن امکان می‌داد تا با سرعت بیشتری یادگیری تقویتی را آغاز کند. این امر به ویژه در مقایسه با روش‌هایی که از ابتدا شروع به آموزش می‌کنند، مزیت قابل توجهی دارد.
  • بازخورد مستقیم (Direct Feedback): به جای استفاده از مدل‌های پاداش که ممکن است دارای خطا باشند، تیم Qwen از بازخورد مستقیم برای آموزش مدل استفاده کرد. این بازخورد در مورد مسائل ریاضی از طریق بررسی صحت پاسخ‌ها و در مورد مسائل کدنویسی از طریق اجرای کد و بررسی نتایج آزمون‌ها ارائه می‌شد.
  • آموزش چند مرحله‌ای (Multi-Stage Training): آموزش مدل در چند مرحله انجام شد. مرحله اول بر روی وظایف ریاضی و برنامه‌نویسی متمرکز بود و مرحله دوم به بهبود قابلیت‌های عمومی اختصاص داشت. این رویکرد به مدل اجازه می‌داد تا به طور تخصصی در حوزه‌های خاص مهارت پیدا کند و در عین حال قابلیت‌های عمومی خود را نیز حفظ کند.
  • استفاده از Rule-based validators: در مرحله دوم آموزش، علاوه بر general reward models از rule-based validators نیز استفاده شد. این ولیدیتورها به مدل کمک می کردند تا درک بهتری از قوانین و قواعد حاکم بر زبان طبیعی داشته باشد.

جزئیات بیشتر در مورد جهت‌گیری‌های آینده (Future Directions)

تیم Qwen برنامه‌های بلندپروازانه‌ای برای آینده دارد که شامل موارد زیر است:

  • ادغام عامل‌ها (Agent Integration): یکی از اهداف اصلی تیم Qwen، ادغام عامل‌ها با یادگیری تقویتی است. عامل‌ها به مدل اجازه می‌دهند تا به طور مستقل با محیط تعامل داشته باشند، تصمیم‌گیری کنند و اقدامات خود را بر اساس بازخورد محیطی تنظیم کنند. این امر می‌تواند به طور قابل توجهی قابلیت‌های استدلال و حل مسئله مدل را افزایش دهد.
  • استدلال بلندمدت (Long-Term Reasoning): تیم Qwen در حال بررسی روش‌هایی برای فعال کردن استدلال بلندمدت در مدل‌های خود است. این امر به مدل‌ها اجازه می‌دهد تا مسائل پیچیده‌تری را که نیاز به تفکر و برنامه‌ریزی طولانی‌مدت دارند، حل کنند.
  • مقیاس‌بندی محاسباتی (Computational Scaling): تیم Qwen معتقد است که ترکیب مدل‌های پایه قدرتمندتر با یادگیری تقویتی و استفاده از منابع محاسباتی بیشتر، می‌تواند به پیشرفت‌های چشمگیری در زمینه هوش مصنوعی منجر شود.
  • تمرکز بر AGI: هدف نهایی تیم Qwen، دستیابی به هوش مصنوعی عمومی (AGI) است. آن‌ها معتقدند که ترکیب مدل‌های پایه قدرتمند، یادگیری تقویتی و عامل‌ها می‌تواند مسیری مناسب برای رسیدن به این هدف باشد.

جزئیات بیشتر در مورد استقبال جامعه (Community Reception)

انتشار QwQ-32B با استقبال گسترده‌ای از سوی جامعه هوش مصنوعی روبرو شد. برخی از نکات برجسته این استقبال عبارتند از:

  • رفع نیاز به مدل‌های کوچکتر: بسیاری از کاربران به دلیل محدودیت‌های سخت‌افزاری، به دنبال مدل‌های کوچکتر و کارآمدتر بودند. QwQ-32B با اندازه 32 میلیارد پارامتری خود، این نیاز را برآورده می‌کند و امکان استقرار مدل را در دستگاه‌های با منابع محدودتر فراهم می‌کند.
  • سرعت و پاسخگویی: کاربران از سرعت و پاسخگویی بالای QwQ-32B در مقایسه با مدل‌های بزرگتر ابراز رضایت کردند. این امر به ویژه برای کاربردهایی که نیاز به پاسخ سریع دارند، اهمیت دارد.
  • تایید محققان برجسته: محققان برجسته‌ای مانند Awni Hannun از اپل، عملکرد QwQ-32B را تایید کردند و این امر اعتبار مدل را افزایش داد.
  • مشارکت جامعه: تیم Qwen با ارائه نسخه پیش‌نمایش مدل و تشویق کاربران به ارائه بازخورد، مشارکت جامعه را در توسعه و بهبود مدل تقویت کرد.
  • ادغام سریع با ابزارهای محبوب: ادغام سریع QwQ-32B با ابزارهایی مانند Ollama نشان‌دهنده اهمیت و پذیرش سریع مدل در جامعه هوش مصنوعی است.
  • پتانسیل کاربردهای گسترده: QwQ-32B نه تنها در محیط‌های تحقیقاتی، بلکه در کاربردهای واقعی نیز پتانسیل بالایی دارد. این مدل می‌تواند در طیف وسیعی از حوزه‌ها مانند پردازش زبان طبیعی، تولید محتوا، ترجمه ماشینی و دستیارهای هوشمند مورد استفاده قرار گیرد.

به طور کلی، QwQ-32B یک گام مهم در جهت توسعه مدل‌های زبانی بزرگ کارآمدتر و قابل دسترس‌تر است. این مدل با ترکیب قدرت یادگیری تقویتی، اندازه کوچکتر و رویکرد متن‌باز، نویدبخش پیشرفت‌های چشمگیری در زمینه هوش مصنوعی است.