نموذج Microsoft الصغير يتألق: 'غش' رياضي بـ 6000 عينة

صعود نماذج Phi-4 للاستدلال

يشهد عالم الذكاء الاصطناعي حاليًا اهتمامًا كبيرًا بنماذج الاستدلال، وقد قدمت Microsoft مؤخرًا عائلة Phi-4 من نماذج الاستدلال. تتضمن هذه العائلة Phi-4-reasoning و Phi-4-reasoning-plus و Phi-4-mini-reasoning. والجدير بالذكر أن حتى أكبر هذه النماذج، التي تضم 14 مليار معلمة فقط، يمكن تشغيلها بسلاسة على أجهزة الكمبيوتر المحمولة عالية الأداء. علاوة على ذلك، يتفوق نموذج Phi-4-mini-reasoning الذي يضم 3.8 مليار معلمة على نموذج DeepSeek-R1 المقطر الذي يضم 8 مليارات معلمة في الاستدلال الرياضي، مما يسلط الضوء على قوة النماذج الأصغر في مهام الاستدلال.

بدلاً من انتظار إصدار الجيل الثاني من نموذج الاستدلال DeepSeek-R2 في أبريل، كشفت Microsoft عن سلسلة جديدة من نماذج الاستدلال Phi-4. تُظهر هذه النماذج أداءً استثنائيًا في الاستدلال الرياضي، متجاوزة نموذج DeepSeek-R1 المقطر، على الرغم من أن Phi-4-Mini-Reasoning لديه نطاق معلمة أصغر.

وصف أحمد عوض الله، مدير الأبحاث الشريك في مختبر Microsoft AI Frontiers، نموذج Phi-4-reasoning ولخص ميزات النموذج الجديد.

  • يتم تدريب النموذج باستخدام الضبط الدقيق الخاضع للإشراف (باستخدام مجموعة بيانات مثال للاستدلال تم اختيارها بعناية) والتعلم المعزز.
  • إنه يؤدي أداءً جيدًا في معايير الاستدلال ويمكن مقارنته بنماذج أعلى أكبر مثل DeepSeek R1.
  • يستمر في الأداء بقوة في اختبارات جديدة (مثل AIME 2025 و HMMT)
  • تتمتع قدرة الاستدلال بقدرة قوية على النقل/التعميم، حتى بعد الضبط الدقيق الخاضع للإشراف فقط، يمكنها التكيف مع المهام الجديدة (مثل k-SAT وحل المعادلات الرياضية والجدولة وما إلى ذلك)
  • تحتفظ وتحسن بشكل كبير القدرات العامة (مثل فهم التعليمات وتنفيذها)

وذكر أن Phi-4 لا يزال لديه العديد من الجوانب التي تحتاج إلى تحسين، وخاصة في طول السياق وقدرة الترميز وتكامل الأدوات.

بالإضافة إلى النموذج نفسه، شاركت Microsoft أيضًا تقريرًا فنيًا مفصلاً يقدم تحليلًا متعمقًا لعملية التدريب والتقييم الخاصة بالنموذج.

على X، قدم ديميتريس بابايليوبولوس، الباحث الرئيسي في مختبر Microsoft Research AI Frontiers والأستاذ المشارك في جامعة ويسكونسن، مزيدًا من المعلومات حول نموذج الاستدلال Phi-4.

وهو يعتقد أن Phi-4-reasoning قد وصل تمامًا إلى مستوى الدراسات العليا ويمكن تشغيله على جهاز كمبيوتر محلي.

لقد تجاوز هذا توقعاته لتطوير الذكاء الاصطناعي.

النموذج الجديد لديه عدد قليل من المعلمات ولكن أداء قوي.

قوة الأداء

على الرغم من حجمه المتواضع، يتفوق هذا النموذج في المعايير الرياضية مثل AIME و HMMT و OmniMath. إنه يعمل على قدم المساواة مع أو يتجاوز النماذج الأكبر ذات الوزن المفتوح مثل QwQ-32B و R1-70B و R1، والنماذج المغلقة مثل o1-mini و sonnet 3.7.

هذا النموذج صغير الحجم ومناسب للتشغيل بسلاسة على أجهزة الكمبيوتر المحمولة عالية الأداء.

في الوقت نفسه، فهو قادر على حل العديد من الألغاز التي لا تستطيع حتى النماذج الأكبر غير الاستدلالية وبعض نماذج الاستدلال حلها.

لقد اجتاز أيضًا اختبار DimitrisEval!

والمثير للدهشة أن الاستدلال يبدو وكأنه “مهارة فائقة” قابلة للنقل حقًا يمكن تعلمها حتى من خلال الضبط الدقيق الخاضع للإشراف SFT!

الدليل 1: حتى بدون تدريب متخصص على المهام غير الاستدلالية، لا يزال الباحثون يلاحظون تحسينات كبيرة في الأداء في IFEval و FlenQA و PhiBench الداخلي (زيادة بأكثر من 10 نقاط!).

بالإضافة إلى ذلك، هناك القليل جدًا من البيانات المتعلقة بالترميز خلال مرحلة SFT (ولا توجد بيانات على الإطلاق خلال مرحلة RL)، ولكن النموذج لا يزال يؤدي أداءً جيدًا في هذا الصدد.

بالإضافة إلى ذلك، كشف ديميتريس بابايليوبولوس أن البرمجة هي محور رئيسي للإصدارات اللاحقة.

الدليل 2: في حالة بعض المشكلات المحددة التي لم يتم التدريب عليها بشكل صريح (إما مرحلة SFT أو RL)، مثل مشكلة مندوب المبيعات المتجول وحل المتاهة و k-SAT والتخطيط المقيد وما إلى ذلك، فإن النموذج يؤدي أداءً جيدًا للغاية في هذه المهام!

ولا يمكن لـ Phi-4 (وحتى GPT-4) القيام بذلك.

يوضح هذا تمامًا أن قدرة الاستدلال يمكن بالفعل نقلها كمهارة!

بعد جولة قصيرة جدًا من التعلم المعزز (باستخدام 6000 عينة فقط، مقارنة بـ 1.4 مليون مثال لـ SFT)، يبدو أن آلية الاستدلال الخاصة بالنموذج “مقفلة”.

لقد صدم هذا ديميتريس بابايليوبولوس بشكل خاص.

إنه يشعر كما لو أن التعلم المعزز قد علم النموذج الاستدلال بـ “لغته الخاصة”، مما زاد الدقة بنحو 10% في AIME و HMMT، وزاد متوسط طول الإجابة بنسبة 50% في المشكلات الصعبة.

التعلم المعزز فعال حقًا!!

عادةً ما تجعل ظاهرة “قفل” آلية الاستدلال توزيع الإخراج الخاص بالنموذج أكثر تركيزًا وتكون الدقة أعلى أيضًا.

وقد انعكست حقيقة أن التعلم المعزز يمكن أن يحسن بشكل كبير من قدرات النموذج في الأبحاث السابقة التي أجرتها Microsoft.

في مرحلة التعلم المعزز، لم يتم حتى تحسين النموذج الجديد خصيصًا للبيانات: تم اختيار 6000 سؤال بشكل عشوائي فقط من مجموعة أكبر من مجموعات البيانات.

فلماذا لم تجر Microsoft المزيد من تدريب التعلم المعزز؟

نظرًا لأن النموذج أنشأ إجابات للأسئلة التي تجاوزت طول السياق 32 ألفًا (الطول الذي لم يتم تدريب النموذج عليه)، فقد كان بإمكانهم اقتطاعه فقط.

بالإضافة إلى ذلك، بمساعدة حسابات الاستدلال المتوازية (مثل Maj@N)، وصل نموذج الاستدلال الجديد تقريبًا إلى حد الأداء في AIME 2025، وحتى تجاوز أداء pass@1 لنموذج المعلم (o3-mini).

وأكمل جمع البيانات بالكامل قبل فبراير 2025، وكذلك HMMT.

في مهام أخرى، لاحظ الباحثون أيضًا ظاهرة “تجاوز المعلم”، مثل مهام OmniMath والتخطيط للتقويم.

يبدو أن تصميم المطالبات في مرحلة SFT، إلى جانب عملية التعلم المعزز اللاحقة، قد منح النموذج القدرة على “تحسين نفسه”، متجاوزًا نطاق المعرفة التي يوفرها نموذج المعلم.

في الشكل أدناه، يمثل اللون الأرجواني o3-mini ويمثل اللون الأخضر Phi.

الظاهرة المثيرة للاهتمام هي: غالبًا ما ترتبط النصوص الطويلة التي يبلغ طول الردود فيها أعلى 25% ارتباطًا وثيقًا بالإجابات الخاطئة!

ومع ذلك، من ناحية أخرى، في معظم التقييمات، يكون متوسط طول الإجابة الإجمالي أطول والدقة أعلى.

بعبارة أخرى، فإن زيادة موارد الحوسبة أثناء الاختبار تساعد، ولكن النموذج أيضًا عرضة “للتشعب” عندما يكون “عالقا”.

فيما يتعلق بقيود النموذج، هناك أيضًا بعض الأشياء التي يجب الانتباه إليها:

  • لم يتم توسيع أو اختبار القدرة على التعامل مع أطوال السياق التي تتجاوز 32 ألفًا بشكل كامل.
  • النموذج عرضة “للتفكير الزائد” عند التعامل مع المشكلات البسيطة، وقد يبدو مطولًا للغاية في التقييم الذاتي.
  • لم يتم اختبار قدرة الحوارات متعددة الدورات على نطاق واسع.

بالطبع، هناك المزيد من “البقع العمياء” التي يتعين اكتشافها، ولكن بشكل عام، يشعر فريق البحث أنهم على المسار الصحيح!

مفاجآت التدريب

ركز سوريا جوناسيكار، مدير الأبحاث الرئيسي في Microsoft Research والمنتمي إلى فريق “AGI Physics” المسؤول عن تطوير سلسلة نماذج Phi، على تقديم المبادئ الأساسية للعمل.

ركز فريق Microsoft Phi هذه المرة على مرحلة ما بعد التدريب وأطلق Phi-4-reasoning (باستخدام SFT فقط) و Phi-4-reasoning-plus (SFT+ كمية صغيرة من RL).

كلاهما نموذجان 14B أظهرا قدرات قوية في معايير الاستدلال والمهام العامة.

يكمن جوهر هذا العمل في اختيار المطالبات والاستكشاف التجريبي لمهارات الاستدلال القابلة للنقل والتحسين الذاتي.

كان هناك اكتشافان مفاجئان خلال عملية التدريب:

أولاً، طالما تم استخدام عدد قليل من مسارات الاستدلال طويلة السلسلة المدربة على المجال (CoT)، يمكن لـ Phi-4 تحقيق تحسينات كبيرة في الأداء في مهام متعددة مثل الجدولة وحل المتاهة (بدون إدخال مرئي) و IFEva و FlenQA و KITAB (الإجابة على الأسئلة القائمة على البحث) و PhiBench الداخلي؛

ثانيًا، حتى إذا تم استخدام 6000 مثال رياضي فقط للتدريب على الحد الأدنى من RL، فإن أداء النموذج يتحسن بشكل كبير في بعض المعايير، مع وصول أعلى تحسن إلى 10% (ولكن زاد استخدام الرمز المميز بنحو 1.5 مرة)، كما لوحظ أيضًا نقل المهارات عبر المجالات خلال مرحلة RL.

بعبارة أخرى، بالمقارنة مع المنافسين الرئيسيين مثل OpenAI و Google، تُظهر سلسلة استدلال Microsoft Phi-4 إمكانيات جديدة: يمكن للنماذج الصغيرة أن تتطابق مع النماذج الكبيرة أو حتى تتجاوزها في مهام محددة باستخدام بيانات عالية الجودة واستراتيجيات تدريب مُحسَّنة.

الطرق الأساسية

يحتوي نموذج الاستدلال Phi-4-reasoning على 14 مليار معلمة ويؤدي بقوة في مهام الاستدلال المعقدة.

يعتمد النموذج على Phi-4 للتدريب على الضبط الدقيق الخاضع للإشراف، وذلك باستخدام مجموعة مختارة بعناية من المطالبات “القابلة للتعليم” التي تتمتع بالتعقيد والتنوع المناسبين؛ تُستخدم أمثلة الاستدلال التي تم إنشاؤها بواسطة o3-mini كمرجع أثناء عملية التدريب.

يمكن لـ Phi-4-reasoning إنشاء سلاسل استدلال مفصلة والاستفادة الكاملة من موارد الحوسبة أثناء عملية الاستدلال.

على هذا الأساس، طورت Microsoft أيضًا Phi-4-reasoning-plus.

يتم تحسينه على أساس النموذج الأصلي من خلال مرحلة صغيرة من التعلم المعزز القائم على النتائج، وينشئ سلاسل استدلال أطول وأكثر قوة.

تظهر الأبحاث أن مجموعة بيانات SFT مصممة جيدًا يمكن أن تحسن بشكل كبير من تأثير نماذج لغة الاستدلال، ويمكن للتعلم المعزز (RL) أن يزيد من هذا التحسين على هذا الأساس.

في تجارب SFT، حتى في هذا الإعداد البسيط نسبيًا للجيل، يظل الاختيار الدقيق والتصفية الصارمة للمشكلات الأولية أمرًا أساسيًا لنجاح النموذج.

لقد أخضعوا مجموعة بيانات التدريب بأكملها لـ عملية إزالة التلوث الصارمة للتأكد من أنها لا تحتوي على بيانات تتداخل بشكل كبير مع أسئلة الاستدلال أو المعايير العامة المستخدمة على نطاق واسع، بما في ذلك بعض المعايير التي لم يتم ذكرها في هذا التقرير.

القائمة الكاملة لاختبارات المعايير التي تم تطهيرها هي كما يلي:

  • الرياضيات والاستدلال: AIME-2024 و MATH و GPQA و OmniMATH و GSM8k
  • البرمجة: LiveCodeBench و Codeforces و HumanEval و MBPP
  • الإجابة على الأسئلة والمعرفة العامة: SimpleQA و DROP و AGIEval و ARC-Challenge و ARC-Easy و CommonsenseQA و OpenBookQA و PIQA و WinoGrande
  • مهام تقييم أخرى: SWE-Bench Verified و ArenaHard و MT-Bench و PhiBench

من خلال الضبط الدقيق الخاضع للإشراف (SFT) لنموذج Phi-4 الذي يحتوي على 14 مليار معلمة، حصل الباحثون على Phi-4-reasoning، دون أي تعلم معزز من قبل.

هدف SFT هو تحسين قدرة الاستدلال المنظمة الموجودة في النموذج الأساسي.

هندسة Phi-4-reasoning هي نفسها هندسة نموذج Phi-4، ولكن مع تعديلين رئيسيين:

  • رموز الاستدلال: يتم إعادة استخدام رمزين نائبين في النموذج الأساسي كرموز و، والتي تستخدم لتمييز بداية ونهاية عملية الاستدلال (“التفكير”).
  • زيادة طول الرمز المميز: كان الحد الأقصى لطول الرمز المميز الذي يدعمه النموذج الأساسي (Phi-4) في البداية هو 16 ألفًا. من أجل استيعاب رموز الاستدلال الإضافية، تمت مضاعفة التردد الأساسي لـ RoPE، وتم تدريب النموذج بحد أقصى لطول الرمز المميز يبلغ 32 ألفًا.

لقد استخدموا طريقة اصطناعية لإنشاء عدد كبير من أمثلة استدلال سلسلة الأفكار.

تحتوي مجموعة بيانات SFT المستخدمة على أكثر من 1.4 مليون من أزواج المطالبات والاستجابات، بإجمالي 8.3 مليار رمز مميز فريد، تغطي مجالات الاستدلال مثل الرياضيات والبرمجة، بالإضافة إلى بيانات التوافق من أجل الذكاء الاصطناعي الآمن والمسؤول.

يوضح الشكل 4a التغييرات في المؤشرات الرئيسية طوال عملية تكرار SFT.

في وقت مبكر من التدريب، بدأ النموذج في استخدام رموز “التفكير” الصريحة، مما يشير إلى أن النموذج تعلم بسرعة هذا التنسيق المنظم الضحل.

ومع ذلك، كما هو موضح في الشكل 4a، فإن فعالية وحدة سلسلة الأفكار وقدرة الاستدلال الخاصة بالنموذج تتحسن طوال عملية التدريب، مما يشير إلى أن النموذج لا يقوم فقط بنسخ التنسيق، ولكنه يتعلم بالفعل مهارات الاستدلال.

ومن المثير للاهتمام، على عكس التعلم المعزز، لم ير الباحثون زيادة في طول الاستجابة خلال عمليةSFT.

في الواقع، كما هو موضح في الشكل 4ب، انخفض متوسط طول الاستجابة قليلاً.

يوضح هذا أنه مع تقدم التدريب، يتعلم النموذج استخدام ميزانية الرمز المميز الخاص به بشكل أكثر فعالية.

من أجل تقييم استراتيجيات التدريب المختلفة بشكل منهجي، استخدموا معيارًا ثابتًا - AIME 2024 و GPQA diamond - كمؤشر للتقدم.

بشكل عام، يمكن تقسيم الطريقة التجريبية إلى مرحلتين: الاستكشاف والتوسع.

في مرحلة الاستكشاف، استخدم الباحثون دورات تدريب أقصر ومصادر بيانات محدودة ومجالات للتكرار بسرعة واستخراج طرق تدريب قوية.

في مرحلة التوسع اللاحقة، لخص الباحثون نتائج تجارب الحد من المخاطر المبكرة ووضعوا اللمسات الأخيرة على إعدادات SFT.

يلخص الشكل 5 هذا التقدم، مع تسليط الضوء على تجارب الاستئصال لعدة خيارات تصميم رئيسية.

يوضح الشكل 5 نظرة عامة عالية المستوى على دورة تجريب الضبط الدقيق الخاضع للإشراف (SFT) لـ Phi-4-reasoning، بما في ذلك مراحل الاستكشاف والتوسع، وذلك باستخدام بعض التجارب النموذجية لتمثيلها. تمثل كل مجموعة نقطية النتائج التجريبية لخيار تصميم تدريب محدد.

يوضح الشكل 7 النتائج الرئيسية لنموذج Phi-4-reasoning-plus أثناء عملية تدريب GRPO.

بدءًا من النموذج الأساسي للضبط الدقيق الخاضع للإشراف (SFT) Phi-4-reasoning، أدت 90 خطوة فقط من تدريب GRPO إلى زيادة أداء AIME بأكثر من 10% (الشكل 7أ).

لم يؤد الاستمرار في زيادة عدد خطوات التدريب إلى تحقيق فوائد إضافية، مما يشير إلى أن إمكانات نموذج SFT قوي قريبة من سقف الأداء. تجدر الإشارة إلى أن الإخراج في تدريب GRPO يقتصر على ما بين 31 ألف رمز مميز، مما يقيد موضوعيًا مساحة التحسين لـ GRPO.

كما هو موضح في الشكل 7ج، يرتبط طول الاستجابة ارتباطًا وثيقًا بأداء AIME، في حين أن الارتباط بين درجة المكافأة ودرجة AIME ضعيف. تأثير نمو طول الاستجابة هذا هو التأثير المتوقع لتدريب GRPO - يحسن النموذج قدرته على الاستدلال عن طريق زيادة “وقت التفكير”.

يكشف الشكل 7د أيضًا أنه نظرًا لتصميم نموذج المكافأة، فإن طول توليد الإجابات الخاطئة ينمو بشكل أسرع بكثير من الإجابات الصحيحة (عندما تكون الإجابة الحالية للنموذج خاطئة، سيشجع النظام على التفكير لفترة أطول).

في الواقع، قد يؤدي إجراء أخذ العينات للرفض استنادًا فقط إلى طول الاستجابة (خاصةً الاستجابات الطويلة التي تتجاوز بشكل كبير المتوسط) إلى تحسين أداء GRPO بشكل أكبر.

كما هو موضح في الشكل 7د، فإن اتجاه النمو للاستجابات الأقصر (الطول الموجود في الكمية السفلية 25%) أثناء عملية التدريب مشابه لمتوسط طول الإجابات الصحيحة، في حين أن طول الإجابات الخاطئة أقرب إلى الكمية 75% من طول الاستجابة الإجمالي.

تشير ظاهرة التمايز هذه إلى أن أخذ العينات للرفض القائم على الطول يمكن أن يحسن من كفاءة النموذج عن طريق قمع المخرجات غير الصحيحة الطويلة جدًا.

في الختام، تمثل نماذج Phi-4 للاستدلال من Microsoft تقدمًا واعدًا في مجال الذكاء الاصطناعي. من خلال الاستفادة من مجموعات البيانات عالية الجودة واستراتيجيات التدريب المُحسَّنة، أظهرت هذه النماذج إمكانية تحقيق أداء على قدم المساواة مع النماذج الأكبر حجمًا أو حتى تجاوزها، وذلك باستخدام جزء صغير فقط من الموارد. تفتح هذه النتائج طرقًا جديدة للبحث والتطوير في مجال الذكاء الاصطناعي، وتسلط الضوء على أهمية جودة البيانات والكفاءة في التدريب.