علي بابا تكشف النقاب عن Qwen-32B: قوة مدمجة تتحدى النماذج الأكبر
في إعلان مفاجئ في وقت متأخر من الليل، أعلنت شركة علي بابا عن إطلاق نموذجها المنطقي الأحدث، Qwen-32B (QwQ-32B)، مفتوح المصدر. يضم هذا النموذج 32 مليار معيار، ويُظهر أداءً يضاهي نموذج DeepSeek-R1 الأكبر بكثير والذي يضم 67.1 مليار معيار.
أبرز إعلان فريق Qwen بحثهم في توسيع نطاق تقنيات التعلم المعزز (RL). وذكروا: “لقد كنا نستكشف طرقًا لتوسيع نطاق RL، وحققنا بعض النتائج الرائعة بناءً على Qwen2.5-32B الخاص بنا. وجدنا أن تدريب RL يمكن أن يحسن الأداء باستمرار، خاصة في المهام الرياضية والبرمجية. لاحظنا أن التوسع المستمر لـ RL يمكن أن يساعد النماذج متوسطة الحجم على تحقيق أداء مماثل لنماذج MoE العملاقة. نرحب بالجميع للدردشة مع نموذجنا الجديد وتزويدنا بتعليقاتهم!”
QwQ-32B متاح الآن على Hugging Face و ModelScope بموجب ترخيص Apache 2.0 مفتوح المصدر. يمكن للمستخدمين أيضًا التفاعل مع النموذج مباشرة من خلال Qwen Chat. أداة النشر المحلية الشهيرة، Ollama، قامت بالفعل بدمج الدعم، ويمكن الوصول إليها عبر الأمر: ollama run qwq
.
بالتزامن مع الإصدار، نشر فريق Qwen منشور مدونة بعنوان “QwQ-32B: Harnessing the Power of Reinforcement Learning”، يوضح بالتفصيل التطورات الرائدة.
يؤكد منشور المدونة على الإمكانات الهائلة للتعلم المعزز (RL) واسع النطاق لتجاوز طرق التدريب المسبق والتدريب اللاحق التقليدية في تحسين أداء النموذج. تُظهر الأبحاث الحديثة، مثل دمج DeepSeek-R1 لبيانات البدء البارد والتدريب متعدد المراحل، قدرة RL على تعزيز القدرات المنطقية بشكل كبير، مما يتيح التفكير الأعمق وحل المشكلات المعقدة.
ركز استكشاف فريق Qwen على الاستفادة من RL واسع النطاق لرفع مستوى ذكاء نماذج اللغات الكبيرة، وبلغت ذروتها في إنشاء QwQ-32B. هذا النموذج الذي يضم 32 مليار معيار ينافس بشكل ملحوظ أداء DeepSeek-R1 الذي يضم 67.1 مليار معيار (مع تنشيط 37 مليار). أكد الفريق: “يؤكد هذا الإنجاز فعالية تطبيق التعلم المعزز على نماذج أساسية قوية ومدربة مسبقًا.”
يتضمن QwQ-32B أيضًا إمكانات متعلقة بالوكيل، مما يمكنه من تقييم أفعاله بشكل نقدي أثناء استخدام الأدوات وتكييف عملية التفكير الخاصة به بناءً على ردود الفعل البيئية. صرح الفريق: “نأمل أن تُظهر جهودنا أن الجمع بين نماذج الأساس القوية والتعلم المعزز واسع النطاق قد يكون طريقًا قابلاً للتطبيق نحو الذكاء الاصطناعي العام (AGI)”.
أداء النموذج: قياس أداء QwQ-32B
خضع QwQ-32B لتقييم صارم عبر مجموعة من المعايير، تشمل الاستدلال الرياضي والبرمجة والقدرات العامة. تُظهر النتائج أداء QwQ-32B مقارنة بالنماذج الرائدة الأخرى، بما في ذلك DeepSeek-R1-Distilled-Qwen-32B، و DeepSeek-R1-Distilled-Llama-70B، و o1-mini، و DeepSeek-R1 الأصلي.
النتائج مذهلة. يُظهر QwQ-32B أداءً استثنائيًا، حتى أنه يتفوق قليلاً على DeepSeek-R1-67B في معايير LiveBench و IFEval و BFCL. يسلط هذا الضوء على كفاءة وقوة نهج التعلم المعزز الذي اعتمده فريق Qwen.
الغوص العميق في التعلم المعزز
استفاد تطوير QwQ-32B من التعلم المعزز واسع النطاق المبني على أساس البدء البارد. ركزت المرحلة الأولية بشكل خاص على تدريب RL للمهام الرياضية والبرمجية. على عكس الأساليب التقليدية التي تعتمد على نماذج المكافآت، قدم فريق Qwen ملاحظات حول المشكلات الرياضية من خلال التحقق من صحة الإجابات التي تم إنشاؤها. بالنسبة لمهام البرمجة، تم اشتقاق التعليقات من خادم تنفيذ التعليمات البرمجية، وتقييم ما إذا كانت التعليمات البرمجية التي تم إنشاؤها قد اجتازت حالات الاختبار بنجاح.
مع تقدم التدريب من خلال تكرارات متعددة، أظهر QwQ-32B تحسينات أداء متسقة في كلا المجالين. أثبتت عملية التحسين التكرارية هذه، الموجهة بردود الفعل المباشرة حول دقة الحل، فعاليتها العالية.
بعد مرحلة RL الأولية التي ركزت على الرياضيات والبرمجة، تم تقديم مرحلة RL لاحقة لتحسين القدرات العامة. استخدمت هذه المرحلة نماذج مكافآت عامة ومدققات قائمة على القواعد للتدريب. أشارت النتائج إلى أنه حتى عدد صغير من الخطوات في RL العام يمكن أن يعزز القدرات الإجمالية دون التأثير بشكل كبير على الأداء في المهام الرياضية والبرمجية التي تم تدريبها مسبقًا. يوضح هذا قدرة النموذج على التكيف وقوته.
التوجهات المستقبلية: توسيع آفاق الذكاء الاصطناعي
شارك فريق Qwen أيضًا خططهم المستقبلية، قائلين: “هذه هي الخطوة الأولى لـ Qwen في الاستفادة من التعلم المعزز واسع النطاق (RL) لتعزيز القدرات المنطقية. من خلال هذه الرحلة، لم نشهد فقط الإمكانات الهائلة لتوسيع نطاق RL ولكننا أدركنا أيضًا الإمكانات غير المستغلة داخل نماذج اللغات المدربة مسبقًا. بينما نعمل على تطوير الجيل التالي من Qwen، نعتقد أن الجمع بين نماذج أساسية أكثر قوة مع RL، مدعومة بموارد حسابية موسعة، سيقربنا من تحقيق الذكاء الاصطناعي العام (AGI). علاوة على ذلك، فإننا نستكشف بنشاط دمج الوكلاء مع RL لتمكين التفكير طويل الأجل، بهدف إطلاق العنان لمزيد من الذكاء من خلال وقت التفكير الممتد.” يؤكد هذا الالتزام بالتحسين المستمر والاستكشاف تفاني الفريق في دفع حدود الذكاء الاصطناعي.
استقبال المجتمع: QwQ-32B يحظى بإشادة واسعة النطاق
قوبل إصدار QwQ-32B بحماس واسع النطاق وردود فعل إيجابية. كان مجتمع الذكاء الاصطناعي، بما في ذلك العديد من مستخدمي Qwen، ينتظر بفارغ الصبر الكشف عن هذا النموذج الجديد.
أبرز الحماس الأخير المحيط بـ DeepSeek تفضيل المجتمع للنموذج الكامل بسبب قيود النسخة المقطرة. ومع ذلك، فإن النموذج الكامل الذي يضم 67.1 مليار معيار يمثل تحديات في النشر، خاصة بالنسبة للأجهزة الطرفية ذات الموارد المحدودة. يعالج Qwen-32B، بحجمه الأصغر بشكل ملحوظ، هذا القلق، مما يفتح إمكانيات لنشر أوسع.
علق أحد المستخدمين قائلاً: “ربما لا يزال غير ممكن على الهواتف المحمولة، ولكن أجهزة Mac ذات ذاكرة الوصول العشوائي (RAM) الواسعة قد تكون قادرة على التعامل معه.” يعكس هذا الشعور التفاؤل المحيط بإمكانية تشغيل QwQ-32B على الأجهزة محدودة الموارد.
خاطب مستخدم آخر Binyuan Hui، وهو عالم في مختبر Tongyi التابع لشركة Alibaba، مباشرة، وحث على تطوير نماذج أصغر. يسلط هذا الضوء على الطلب على نماذج ذكاء اصطناعي مدمجة وفعالة بشكل متزايد.
شارك المستخدمون أيضًا تجاربهم، مشيدين بسرعة النموذج واستجابته. عرض أحد المستخدمين عرضًا توضيحيًا، يسلط الضوء على قدرات المعالجة السريعة لـ QwQ-32B.
أكد Awni Hannun، باحث في التعلم الآلي في شركة Apple، التنفيذ الناجح لـ QwQ-32B على M4 Max، مشيرًا إلى سرعته الرائعة. هذا التحقق من صحة باحث بارز يعزز ادعاءات أداء النموذج.
أتاح فريق Qwen أيضًا إصدارًا تجريبيًا من QwQ-32B على واجهة الدردشة الرسمية الخاصة بهم، Qwen Chat، لتشجيع المستخدمين على الاختبار وتقديم التعليقات. يعزز هذا النهج التفاعلي مشاركة المجتمع ويسمح بتقييم قدرات النموذج في العالم الحقيقي.
يُظهر التبني السريع لـ QwQ-32B من قبل المجتمع ودمجه في الأدوات الشائعة مثل Ollama أهمية النموذج وتأثيره. إن الجمع بين الأداء القوي وحجم النموذج الأصغر والاستخدام المبتكر للتعلم المعزز قد وضع QwQ-32B كتقدم كبير في مجال نماذج اللغات الكبيرة. تشجع الطبيعة مفتوحة المصدر للنموذج أيضًا التعاون والابتكار داخل مجتمع الذكاء الاصطناعي، مما يمهد الطريق لتحقيق اختراقات مستقبلية. يسلط التركيز على النشر العملي والتطبيقات الواقعية الضوء على إمكانية أن يكون لـ QwQ-32B تأثير كبير يتجاوز إعدادات البحث، مما يوفر إمكانات ذكاء اصطناعي متقدمة لمجموعة واسعة من المستخدمين والأجهزة. تعد جهود البحث والتطوير المستمرة التي يبذلها فريق Qwen بمزيد من التطورات المثيرة في السعي لتحقيق AGI.