DeepSeek-R1 في حزمة 32B؟

إلى أي مدى يمكن للتعلم المعزز، مدعومًا ببعض التحقق الإضافي، أن يرفع من قدرات نماذج اللغات الكبيرة (LLMs)؟ يسعى فريق Qwen في Alibaba إلى اكتشاف ذلك من خلال أحدث إبداعاتهم، QwQ.

QwQ، نموذج “الاستدلال”، يضم 32 مليار معيارًا مضغوطًا نسبيًا. ومع ذلك، تدعي Alibaba أنه يتفوق على DeepSeek R1، بمعاييره الضخمة البالغة 671 مليارًا، في معايير محددة تتعلق بالرياضيات والترميز واستدعاء الوظائف.

استخدم فريق Qwen، على غرار النهج المتبع مع R1، التعلم المعزز لتحسين استدلال سلسلة الفكر في QwQ. تعزز هذه الطريقة تحليل المشكلات وقدرات التجزئة. يعزز التعلم المعزز تقليديًا الاستدلال التدريجي من خلال مكافأة النماذج على الإجابات الصحيحة، وبالتالي تعزيز استجابات أكثر دقة. ومع ذلك، يخطو QwQ خطوة إلى الأمام من خلال دمج مدقق الدقة وخادم تنفيذ التعليمات البرمجية. يضمن ذلك منح المكافآت حصريًا للحلول الرياضية الدقيقة والتعليمات البرمجية الوظيفية.

يؤكد فريق Qwen أن هذا النهج ينتج عنه نموذج يتفوق على حجمه، ويحقق أداءً مشابهًا، بل ويتجاوز في بعض الأحيان، نماذج أكبر بكثير.

ومع ذلك، يمكن أن تكون معايير الذكاء الاصطناعي خادعة. لذلك، دعونا نفحص كيف تترجم هذه الادعاءات إلى سيناريوهات العالم الحقيقي، ثم سنوجهك حول كيفية تشغيل QwQ وتشغيله بشكل مستقل.

تقييم الأداء

أخضعنا QwQ لسلسلة من مطالبات الاختبار، التي تشمل المعرفة العامة، والاستدلال المكاني، وحل المشكلات، والرياضيات، والاستعلامات الأخرى المعروفة بتحدي حتى أكثر نماذج اللغات الكبيرة تقدمًا.

نظرًا لمتطلبات الذاكرة الكبيرة للنموذج الكامل، أجرينا اختباراتنا في تكوينين لتلبية احتياجات المستخدمين ذوي سعات ذاكرة الوصول العشوائي المتفاوتة. في البداية، قمنا بتقييم النموذج الكامل باستخدام العرض التوضيحي QwQ على Hugging Face. بعد ذلك، اختبرنا إصدارًا كميًا 4 بت على وحدة معالجة رسومات 24 جيجابايت (Nvidia 3090 أو AMD Radeon RX 7900XTX) لقياس تأثير التكميم على الدقة.

بالنسبة لمعظم أسئلة المعرفة العامة، أظهر QwQ أداءً مشابهًا لـ R1 بمعيار 671 مليار من DeepSeek ونماذج الاستدلال الأخرى مثل o3-mini من OpenAI، متوقفًا مؤقتًا لفترة وجيزة لصياغة أفكاره قبل تقديم الإجابة.

تتجلى نقاط قوة النموذج، ربما ليس من المستغرب، عند معالجة تحديات المنطق أو الترميز أو الرياضيات الأكثر تعقيدًا. دعنا نتعمق في هذه المجالات قبل معالجة بعض قيودها.

براعة الاستدلال المكاني

بدأنا باختبار استدلال مكاني جديد نسبيًا ابتكره Homebrew Research كجزء من مشروع AlphaMaze الخاص بهم.

يقدم الاختبار النموذج بمتاهة بتنسيق نصي، كما هو موضح أدناه. مهمة النموذج هي التنقل من الأصل “O” إلى الهدف “T”.