QWQ-32B من علي بابا: ثورة في التعلّم المعزّز

قوة التعلّم المعزّز (Reinforcement Learning)

لطالما اعتمدت الأساليب التقليدية لتطوير نماذج الذكاء الاصطناعي بشكل كبير على طرق التدريب المسبق والتدريب اللاحق. ومع ذلك، فقد تجاوز فريق Qwen هذه التقنيات التقليدية من خلال دمج قدرات الوكيل (agent capabilities) مباشرة في نموذج الاستدلال (reasoning model). يُمكّن هذا الدمج QwQ-32B من الانخراط في التفكير النقدي، واستخدام الأدوات الخارجية، وتكييف عملية الاستدلال الخاصة به ديناميكيًا بناءً على التغذية الراجعة من بيئته. يمثل هذا خطوة مهمة إلى الأمام في إنشاء أنظمة ذكاء اصطناعي أكثر قدرة على التكيف والذكاء.

يؤكد فريق Qwen على أن توسيع نطاق التعلّم المعزّز (RL) لديه القدرة على إطلاق تحسينات في الأداء تتجاوز قدرات الطرق التقليدية. أظهرت الأبحاث الحديثة بالفعل قدرة التعلّم المعزّز (RL) على تعزيز قدرات الاستدلال لنماذج الذكاء الاصطناعي بشكل كبير، ويُعد QwQ-32B مثالًا مقنعًا لهذه الإمكانية في الواقع العملي.

سد الفجوة بين الحجم والأداء

أحد أبرز جوانب QwQ-32B هو أدائه بالنسبة لحجمه. يمتلك DeepSeek-R1، وهو نموذج يتنافس معه QwQ-32B، عددًا هائلاً من المعايير (parameters) يبلغ 671 مليارًا (مع تنشيط 37 مليارًا). يحقق QwQ-32B، بمعاييره المتواضعة نسبيًا والتي تبلغ 32 مليارًا، أداءً قابلاً للمقارنة، مما يسلط الضوء على مكاسب الكفاءة الرائعة التي تحققت من خلال التنفيذ الاستراتيجي للتعلّم المعزّز (RL). يتحدى هذا الإنجاز الافتراض القديم بأن حجم النموذج هو المحدد الأساسي للأداء، مما يشير إلى أن تقنيات التدريب المتطورة يمكن أن تسد الفجوة بين الحجم والقدرة.

التميز في القياس

لتقييم قدرات QwQ-32B بشكل صارم، أخضع فريق Qwen النموذج لمجموعة شاملة من المعايير. تم تصميم هذه المعايير، بما في ذلك AIME24 و LiveCodeBench و LiveBench و IFEval و BFCL، خصيصًا لتقييم جوانب مختلفة من أداء الذكاء الاصطناعي، بما في ذلك الاستدلال الرياضي (mathematical reasoning) وإتقان البرمجة (coding proficiency) وقدرات حل المشكلات العامة. ترسم نتائج هذه التقييمات صورة مقنعة لنقاط قوة QwQ-32B.

فيما يلي نظرة فاحصة على أداء QwQ-32B في كل معيار:

  • AIME24: يركز هذا المعيار على الاستدلال الرياضي. حقق QwQ-32B درجة 79.5، متخلفًا قليلاً عن درجة DeepSeek-R1-671B البالغة 79.8. والجدير بالذكر أن كلا النموذجين تفوقا بشكل كبير على OpenAl-o1-mini، الذي سجل 63.6، وكذلك النماذج المقطرة (distilled models).

  • LiveCodeBench: يقيم هذا المعيار إتقان البرمجة. سجل QwQ-32B 63.4، مما يعكس بشكل وثيق درجة DeepSeek-R1-671B البالغة 65.9. مرة أخرى، تفوق كلا النموذجين على أداء النماذج المقطرة و OpenAl-o1-mini (53.8).

  • LiveBench: تم تصميمه لتقييم قدرات حل المشكلات العامة، وشهد LiveBench تحقيق QwQ-32B درجة 73.1، متفوقًا على درجة DeepSeek-R1-671B البالغة 71.6. تعزز هذه النتيجة مكانة QwQ-32B كمنافس قوي في مهام الذكاء الاصطناعي العامة.

  • IFEval: يركز هذا المعيار على اتباع التعليمات والمواءمة مع تفضيلات الإنسان. سجل QwQ-32B 83.9 درجة رائعة، مطابقة تقريبًا لدرجة DeepSeek-R1-671B البالغة 83.3. تفوق كلا النموذجين بشكل كبير على OpenAl-o1-mini (59.1) والنماذج المقطرة.

  • BFCL: يختبر هذا المعيار قدرة النموذج على التعامل مع السيناريوهات المعقدة في العالم الحقيقي. حقق QwQ-32B درجة 66.4، متجاوزًا درجة DeepSeek-R1-671B البالغة 62.8. توضح هذه النتيجة إمكانات QwQ-32B للتطبيقات العملية التي تتجاوز المعايير الأكاديمية البحتة.

تُظهر هذه النتائج باستمرار قدرة QwQ-32B على التنافس مع النماذج الأكبر حجمًا، وفي بعض الحالات التفوق عليها. يسلط هذا الضوء على فعالية نهج فريق Qwen والإمكانات التحويلية للتعلّم المعزّز (RL) في تطوير الذكاء الاصطناعي.

نهج فريق Qwen المبتكر

يمكن أن يُعزى نجاح QwQ-32B إلى عملية التعلّم المعزّز (RL) متعددة المراحل المبتكرة لفريق Qwen. تبدأ هذه العملية بـ “نقطة تفتيش باردة”، مما يعني أن النموذج يبدأ بأساس مُدرَّب مسبقًا ولكنه يتم صقله بشكل كبير من خلال التعلّم المعزّز (RL). تتم عملية التدريب من خلال مكافآت قائمة على النتائج، مما يحفز النموذج على تحسين أدائه في مهام محددة.

تركز المرحلة الأولية من التدريب على توسيع نطاق التعلّم المعزّز (RL) لمهام الرياضيات والبرمجة. يتضمن ذلك استخدام أدوات التحقق من الدقة وخوادم تنفيذ التعليمات البرمجية لتوفير التغذية الراجعة وتوجيه تعلم النموذج. يتعلم النموذج إنشاء حلول رياضية صحيحة وكتابة تعليمات برمجية وظيفية من خلال تلقي مكافآت على النتائج الناجحة.

توسع المرحلة الثانية نطاق تدريب التعلّم المعزّز (RL) ليشمل القدرات العامة. تتضمن هذه المرحلة مكافآت من نماذج المكافآت العامة وأدوات التحقق القائمة على القواعد، مما يوسع فهم النموذج لمختلف المهام والتعليمات. هذه المرحلة حاسمة لتطوير نموذج ذكاء اصطناعي متكامل يمكنه التعامل مع مجموعة واسعة من التحديات.

اكتشف فريق Qwen أن هذه المرحلة الثانية من تدريب التعلّم المعزّز (RL)، حتى مع عدد صغير نسبيًا من الخطوات، يمكن أن تعزز بشكل كبير أداء النموذج عبر مختلف القدرات العامة. وتشمل هذه اتباع التعليمات، والمواءمة مع تفضيلات الإنسان، وأداء الوكيل العام. والأهم من ذلك، أن هذا التحسن في القدرات العامة لا يأتي على حساب الأداء في الرياضيات والبرمجة، مما يدل على فعالية النهج متعدد المراحل.

مفتوح الوزن (Open-Weight) ويمكن الوصول إليه

في خطوة تعزز التعاون والمزيد من البحث، جعل فريق Qwen نموذج QwQ-32B مفتوح الوزن. هذا يعني أن معايير النموذج متاحة للجمهور، مما يسمح للباحثين والمطورين بالوصول إلى عمل فريق Qwen ودراسته والبناء عليه. النموذج متاح على Hugging Face و ModelScope بموجب ترخيص Apache 2.0، وهو ترخيص متساهل يشجع على الاستخدام والتعديل على نطاق واسع. بالإضافة إلى ذلك، يمكن الوصول إلى QwQ-32B عبر Qwen Chat، مما يوفر واجهة سهلة الاستخدام للتفاعل مع النموذج.

خطوة نحو الذكاء الاصطناعي العام (AGI)

يمثل تطوير QwQ-32B خطوة مهمة إلى الأمام في السعي لتحقيق الذكاء الاصطناعي العام (AGI). ينظر فريق Qwen إلى هذا النموذج على أنه استكشاف أولي لتوسيع نطاق التعلّم المعزّز (RL) لتعزيز قدرات الاستدلال، ويخططون لمواصلة التحقيق في دمج الوكلاء مع التعلّم المعزّز (RL) للاستدلال طويل الأمد. يتضمن ذلك تطوير أنظمة ذكاء اصطناعي يمكنها تخطيط وتنفيذ مهام معقدة على مدى فترات طويلة، وهي قدرة حاسمة لتحقيق الذكاء الاصطناعي العام (AGI).

الفريق واثق من أن الجمع بين نماذج أساس أقوى مع التعلّم المعزّز (RL)، المدعوم بموارد حسابية موسعة، سيكون محركًا رئيسيًا في تطوير الذكاء الاصطناعي العام (AGI). يُعد QwQ-32B بمثابة دليل قوي على هذه الإمكانية، حيث يعرض مكاسب الأداء الرائعة التي يمكن تحقيقها من خلال التنفيذ الاستراتيجي للتعلّم المعزّز (RL). إن جهود البحث والتطوير المستمرة لفريق Qwen، جنبًا إلى جنب مع الطبيعة مفتوحة المصدر لـ QwQ-32B، تعد بتسريع التقدم في مجال الذكاء الاصطناعي وتقريبنا من تحقيق آلات ذكية حقًا. لم يعد التركيز ينصب فقط على بناء نماذج أكبر، ولكن على إنشاء أنظمة أكثر ذكاءً وقدرة على التكيف من خلال تقنيات تدريب مبتكرة.