QwQ من علي بابا: أداء قوي في حزمة 32B؟ | ar

تحدي العمالقة: منافس مدمج

QwQ، على الرغم من امتلاكه 32 مليار معيار فقط مقارنة بـ 671 مليار معيار لـ DeepSeek R1، يتم تقديمه كنموذج ‘استدلال’. تؤكد Alibaba أن هذا النموذج الصغير نسبيًا يمكن أن يتفوق على R1 في معايير محددة، لا سيما في مجالات مثل الرياضيات والبرمجة واستدعاء الوظائف. هذا الادعاء الطموح يستدعي إلقاء نظرة فاحصة على الأعمال الداخلية والأداء الواقعي لـ QwQ.

التعلم المعزز: مفتاح براعة QwQ

على غرار DeepSeek R1، استخدم فريق Qwen التعلم المعزز (RL) لتحسين قدرات الاستدلال المتسلسل لـ QwQ. تعمل هذه الطريقة على تحسين قدرة النموذج على تحليل المشكلات المعقدة وتقسيمها خطوة بخطوة. يتضمن النهج التقليدي في RL مكافأة النموذج على الإجابات الصحيحة، وبالتالي تعزيز الاستجابات الدقيقة.

ومع ذلك، اتبع فريق Qwen نهجًا أكثر دقة مع QwQ. لقد قاموا بدمج مدقق دقة وخادم تنفيذ التعليمات البرمجية. تضمن هذه الإضافة الحاسمة منح المكافآت فقط للحلول السليمة رياضيًا والتعليمات البرمجية الوظيفية. من خلال تنفيذ عملية التحقق الصارمة هذه، يهدف الفريق إلى تطوير نموذج يُظهر درجة أعلى من الدقة والموثوقية.

ادعاءات الأداء: فحص الواقع

يزعم فريق Qwen أن جهودهم قد أسفرت عن نموذج يتفوق بشكل كبير على فئته الوزنية. يؤكدون أن QwQ يحقق مستويات أداء تضاهي، وفي بعض الحالات تتجاوز، نماذج أكبر بكثير.

ومع ذلك، يمكن أن يكون عالم معايير الذكاء الاصطناعي معقدًا. من الضروري تجاوز الأرقام المبلغ عنها وفحص كيفية ترجمة هذه الادعاءات إلى سيناريوهات عملية وواقعية.

الاختبار العملي: وضع QwQ في خطواته

لتقييم قدرات QwQ، تم تصميم سلسلة من مطالبات الاختبار، والتي تغطي مجموعة من المجالات. وشملت هذه المعرفة العامة، والاستدلال المكاني، وحل المشكلات، والرياضيات، والتحديات الأخرى المعروفة بأنها تشكل صعوبات حتى بالنسبة لنماذج اللغات الكبيرة (LLMs) الأكثر تقدمًا.

نظرًا لمتطلبات الذاكرة الكبيرة للنموذج الكامل، تم تنفيذ الاختبار في تكوينين. أولاً، تم تقييم النموذج الكامل باستخدام عرض QwQ التوضيحي على Hugging Face. سمح هذا بتقييم إمكاناته الكاملة. ثانيًا، تم اختبار نسخة كمية 4 بت على وحدة معالجة رسومات 24 جيجابايت (على وجه التحديد، Nvidia 3090 أو AMD Radeon RX 7900XTX). يهدف هذا التكوين إلى قياس تأثير التكميم على دقة النموذج، مما يجعله في متناول المستخدمين الذين لديهم أجهزة أقل قوة.

المعرفة العامة: الحفاظ على مكانتها

استجابة لمعظم أسئلة المعرفة العامة، أظهر QwQ أداءً مشابهًا لـ R1 ذي الـ 671 مليار معيار من DeepSeek ونماذج الاستدلال الأخرى مثل o3-mini من OpenAI. استغرق النموذج عادةً بضع ثوانٍ لصياغة أفكاره قبل تقديم إجابة على الاستعلام. هذا السلوك هو سمة من سمات نماذج الاستدلال، والتي تعطي الأولوية للتداول الدقيق على الاستجابات الفورية.

التفوق في التعقيد: المنطق والبرمجة والرياضيات

حيث يبدأ QwQ حقًا في تمييز نفسه هو في معالجة التحديات الأكثر تعقيدًا التي تنطوي على المنطق أو البرمجة أو الرياضيات. دعونا نتعمق في هذه المجالات، ونبرز نقاط قوتها ونعالج بعض المجالات التي يقصر فيها.

الاستدلال المكاني: التنقل في المتاهة

تم استخدام اختبار استدلال مكاني جديد نسبيًا، طورته Homebrew Research كجزء من مشروع AlphaMaze الخاص بهم، لتقييم QwQ.

نجح كل من مثيل QwQ المستضاف محليًا والنموذج بالحجم الكامل في حل هذه الألغاز باستمرار. ومع ذلك، تطلبت كل جولة بضع دقائق لإكمالها. يشير هذا إلى أنه في حين أن QwQ يمكنه التعامل مع الاستدلال المكاني بفعالية، إلا أنه ليس بالضرورة الأسرع فيه.

في المقابل، أظهر R1 من DeepSeek وتقطيره 32B سلوكيات مختلفة. نجح كلا النموذجين في حل المتاهة الأولى. ومع ذلك، كافح R1 مع الثانية، في حين حقق التقطير 32B معدل نجاح 90٪ في المتاهة الثانية. هذا التباين ليس غير متوقع تمامًا، نظرًا لأن R1 والتقطير يستخدمان نماذج أساسية متميزة.

بينما أظهر QwQ أداءً فائقًا مقارنة بـ DeepSeek في هذا الاختبار المحدد، لوحظ بعض السلوك غير المعتاد مع نموذج 4 بت. في البداية، تطلب ما يقرب من ضعف عدد الرموز المميزة ‘الفكرية’ لإكمال الاختبار. اقترح هذا في البداية خسائر محتملة بسبب التكميم. ومع ذلك، كشف المزيد من التحقيق أن النموذج الكمي كان، في حالته الأولية، يُظهر أداءً دون المستوى الأمثل. أدى ضبط المعلمات الفائقة وإعادة تشغيل الاختبارات إلى حل هذه المشكلة، مما يدل على أهمية التكوين المناسب.

البرمجة أحادية اللقطة: قوة محتملة

جذب QwQ اهتمامًا كبيرًا لإمكانياته في إنشاء التعليمات البرمجية ‘أحادية اللقطة’ - القدرة على إنتاج تعليمات برمجية قابلة للاستخدام في المحاولة الأولى. يبدو أن هذا المجال بالذات يمثل قوة كبيرة للنموذج.

تم تكليف النموذج بإعادة إنشاء العديد من الألعاب البسيطة نسبيًا في Python باستخدام مكتبة pygame. كانت الألعاب المختارة هي Pong و Breakout و Asteroids و Flappy Bird.

تعامل QwQ مع Pong و Breakout بسهولة نسبية. بعد بضع دقائق من المعالجة، أنتج النموذج إصدارات عاملة من كلتا اللعبتين.

ومع ذلك، عندما تم تكليفه بإعادة إنشاء Asteroids، واجه QwQ صعوبات. على الرغم من تشغيل التعليمات البرمجية التي تم إنشاؤها، كانت الرسومات وميكانيكا اللعبة مشوهة ومليئة بالأخطاء في كثير من الأحيان. في المقابل، قام R1، في محاولته الأولى، بإعادة إنشاء لعبة إطلاق النار الكلاسيكية بأمانة.

من المهم مراعاة بيانات التدريب لهذه النماذج. لقد تعرضوا لكمية هائلة من التعليمات البرمجية المصدرية المتاحة علنًا، والتي من المحتمل أن تتضمن نسخًا من الألعاب الكلاسيكية. يثير هذا السؤال عما إذا كانت النماذج تتذكر ببساطة المعلومات التي تم تعلمها بدلاً من اشتقاق ميكانيكا اللعبة بشكل مستقل من البداية. يؤكد هذا على الطبيعة الأساسية لهذه الشبكات العصبية الضخمة، حيث ينبع الذكاء الظاهر غالبًا من التعرف على الأنماط على نطاق واسع.

حتى مع هذه القيود، فإن أداء QwQ في إعادة إنشاء ألعاب الأركيد الكلاسيكية مثير للإعجاب، خاصة بالنظر إلى عدد معاييره. قد لا يتطابق مع R1 في كل اختبار، ولكنه يُظهر مستوى رائعًا من القدرة. قد تكون عبارة ‘لا يوجد بديل للإزاحة’، والتي تُستخدم غالبًا في عالم السيارات، ذات صلة هنا. قد يفسر هذا سبب قيام Alibaba بتطوير إصدار ‘Max’ من QwQ، على الرغم من أنه من غير المرجح أن يكون قابلاً للتشغيل على أجهزة المستهلك في أي وقت قريب.

مقارنةً بـ R1 Qwen 2.5 32B المقطر ذي الحجم المماثل من DeepSeek، ربما يكون قرار Alibaba بدمج خادم تنفيذ التعليمات البرمجية في مسار التعلم المعزز الخاص به قد منح ميزة في التحديات المتعلقة بالبرمجة.

الرياضيات: القدرة مع التحذير

تاريخيًا، عانت نماذج اللغات الكبيرة (LLMs) من الرياضيات، وهي نتيجة لتدريبها الذي يركز على اللغة. في حين أظهرت النماذج الأحدث تحسينات، لا يزال QwQ يواجه تحديات، وإن لم يكن بالضرورة للأسباب التي قد يتوقعها المرء.

نجح QwQ في حل جميع مسائل الرياضيات التي تم طرحها سابقًا على R1. يشير هذا إلى أن QwQ يمكنه التعامل مع العمليات الحسابية الأساسية وحتى بعض الجبر. ومع ذلك، تكمن المشكلة في كفاءتها. يبدو أن إشراك LLM في العمليات الحسابية أمر غير بديهي عندما تظل الآلات الحاسبة والحساب المباشر متاحين بسهولة وأسرع بكثير.
على سبيل المثال، تطلب حل معادلة بسيطة مثل 7 * 43 من QwQ إنشاء أكثر من 1000 رمز مميز، واستغرق حوالي 23 ثانية على RTX 3090 Ti. هذه مهمة يمكن إكمالها على آلة حاسبة جيب في جزء صغير من الوقت.

يصبح عدم الكفاءة أكثر وضوحًا مع العمليات الحسابية الأكبر. استغرق حل 3394 * 35979، وهي مشكلة ضرب تتجاوز قدرات معظم النماذج غير الاستدلالية، ثلاث دقائق وأكثر من 5000 رمز مميز لحسابها بواسطة مثيل QwQ المحلي.

قبل إصلاح المعلمات الفائقة، تطلبت نفس المعادلة تسع دقائق مذهلة وما يقرب من 12000 رمز مميز.

الاستنتاج الرئيسي هنا هو أنه في حين أن النموذج قد يكون قادرًا على استخدام القوة الغاشمة للوصول إلى الإجابة الصحيحة، فهذا لا يعني بالضرورة أنه الأداة المثلى لهذه المهمة. سيكون النهج الأكثر عملية هو تزويد QwQ بإمكانية الوصول إلى آلة حاسبة Python. يستفيد هذا من نقاط قوة النموذج مع تفريغ المهام المكثفة حسابيًا إلى أداة أكثر ملاءمة.

عند تكليفه بحل نفس المعادلة 3394 * 35979 باستخدام الأدوات، انخفض وقت استجابة QwQ إلى ثماني ثوانٍ، حيث تولت الآلة الحاسبة العبء الثقيل.

انتشار ‘الانتظار’: لمحة عن عملية التفكير

يكشف فحص ‘أفكار’ QwQ عن تكرار متكرر لكلمة ‘انتظر’، خاصة أثناء المهام المعقدة أو المشكلات الكلامية. يعكس هذا العملية الداخلية للنموذج للتحقق من عمله مقابل النتائج البديلة.

في حين أن هذا السلوك شائع في نماذج الاستدلال، إلا أنه قد يكون محبطًا بشكل خاص عندما يُنشئ QwQ إجابة غير صحيحة، حتى بعد إظهار فهم للإجابة الصحيحة أثناء عملية ‘التفكير’.

تمت مواجهة هذه المشكلة بشكل متكرر أثناء الاختبار. كان أحد أكثر الأمثلة التوضيحية هو تكييف AutoGen AI لمشكلة الذئب والماعز والملفوف الكلاسيكية. يقدم هذا اللغز تحديًا لتحسين النقل مع تطور:

الحل مضمن في الموجه: مع ثلاث حجرات آمنة، يمكن للمزارع نقل جميع العناصر في رحلة واحدة. ومع ذلك، نظرًا لتشابه اللغز مع النسخة الكلاسيكية، غالبًا ما تتجاهل النماذج المقصورات.

في الاختبار، فشل QwQ باستمرار في حل هذا اللغز بشكل صحيح. كشف فحص عملية تفكيره أنه لم يتجاهل المقصورات الثلاث. في الواقع، اعترف بها ولكنه رفضها باعتبارها بسيطة للغاية:

‘انتظر، إذا كان بإمكان المزارع أن يأخذ الثلاثة جميعًا في رحلة واحدة، فيمكنه فعل ذلك وينتهي الأمر. لكن هذا سيجعل المشكلة تافهة، وهو أمر غير مرجح. لذا ربما تكون المقصورات منفصلة ولكن القارب يمكنه حمل عنصرين فقط بالإضافة إلى المزارع؟’

بغض النظر عما إذا كان الاختبار قد تم إجراؤه على النموذج الكامل في السحابة أو محليًا، كافح QwQ لحل هذا باستمرار. يسلط هذا الضوء على قيد محتمل في قدراته الاستدلالية، حيث قد يبالغ في التفكير أو يسيء تفسير قيود المشكلة.

حساسية المعلمات الفائقة: توازن دقيق

مقارنة بالنماذج الأخرى، أظهر QwQ حساسية متزايدة لتكوينه. في البداية، أوصت Alibaba بمعلمات أخذ عينات محددة:

Temperature: 0.6
TopP: 0.95
TopK: بين 20 و 40

في وقت لاحق، تم تحديث هذه التوصيات لتشمل:

MinP: 0
Presence Penalty: بين 0 و 2

نظرًا لوجود خطأ واضح في معالجة Llama.cpp لمعلمات أخذ العينات (يتم استخدام Llama.cpp لتشغيل الاستدلال على النماذج)، كان من الضروري أيضًا تعطيل عقوبة التكرار عن طريق تعيينها على 1.

كما ذكرنا سابقًا، أدت معالجة مشكلات التكوين هذه إلى تحسن كبير، حيث تم تقليل عدد الرموز المميزة ‘للتفكير’ المطلوبة للوصول إلى إجابة بأكثر من النصف. ومع ذلك، يبدو أن هذا الخطأ خاص بإصدارات GGUF الكمية من النموذج عند التشغيل على محرك الاستدلال Llama.cpp، والذي تستخدمه التطبيقات الشائعة مثل Ollama و LM Studio.

بالنسبة للمستخدمين الذين يخططون لاستخدام Llama.cpp، يوصى بشدة بالرجوع إلى دليل Unsloth لتصحيح ترتيب أخذ العينات.

البدء مع QwQ: دليل عملي

بالنسبة لأولئك المهتمين بتجربة QwQ، فإن إعداده في Ollama بسيط نسبيًا. ومع ذلك، من المهم ملاحظة أنه يتطلب وحدة معالجة رسومات (GPU) بكمية كبيرة من vRAM. تم تشغيل النموذج بنجاح على 3090 Ti بسعة 24 جيجابايت مع نافذة سياق كبيرة بما يكفي للاستخدام العملي.

في حين أنه من الممكن تقنيًا تشغيل النموذج على وحدة معالجة مركزية (CPU) وذاكرة النظام، فمن المحتمل أن يؤدي ذلك إلى أوقات استجابة بطيئة للغاية ما لم يتم استخدام محطة عمل أو خادم متطور.

المتطلبات الأساسية:

جهاز قادر على تشغيل نماذج LLMs متوسطة الحجم بتكميم 4 بت. يوصى باستخدام وحدة معالجة رسومات متوافقة بسعة 24 جيجابايت على الأقل من vRAM. يمكن العثور على قائمة بالبطاقات المدعومة هنا.
بالنسبة لأجهزة Apple Silicon Mac، يوصى بحد أدنى 32 جيجابايت من الذاكرة.

يفترض هذا الدليل الإلمام الأساسي بواجهة سطر أوامر Linux-world و Ollama.

تثبيت Ollama

Ollama هو مشغل نماذج شائع يبسط عملية تنزيل وخدمة LLMs على أجهزة المستهلك. بالنسبة لمستخدمي Windows أو macOS، قم بتنزيله وتثبيته مثل أي تطبيق آخر من ollama.com.

بالنسبة لمستخدمي Linux، يوفر Ollama سطرًا واحدًا مناسبًا للتثبيت:

تم التحديث في ٢٠٢٥-٠٣-١٨

# AIGC # Qwen # Alibaba