تكتسب شركة مايكروسوفت زخمًا في مجال نماذج الذكاء الاصطناعي مفتوحة المصدر، ولا سيما عائلة نماذج Phi، وإن لم يكن بنفس الاعتراف الواسع النطاق باستثمارها في OpenAI. ومن بين هذه النماذج، يبرز نموذج Phi-4 Reasoning Plus، الذي يعرض قوة التعلم المعزز (RL) في تحقيق نتائج رائعة في الاختبارات المعيارية.
تم تصميم سلسلة Phi لتكون فعالة من حيث الموارد، وتستهلك طاقة حسابية ومساحة تخزين أقل. من خلال البحث الدقيق وتقنيات التحسين، تجاوزت هذه النماذج باستمرار التوقعات، متفوقة على المنافسين في فئتها الوزنية وحتى تحدي النماذج الأكبر حجمًا.
تم إنشاء نموذج Phi-4 Reasoning، الذي يضم 14 مليار معلمة، من خلال تطبيق خوارزمية الضبط الدقيق الخاضع للإشراف (SFT) على نموذج Phi-4 الأساسي. بالاعتماد على ذلك، قام الباحثون بتطوير نموذج Phi-4 Reasoning Plus، والاستفادة من التعلم المعزز (RL) على أساس Phi-4 Reasoning.
والجدير بالذكر أن كلاً من نموذجي Phi-4 Reasoning وPhi-4 Reasoning Plus أظهرا أداءً فائقًا مقارنة بالنماذج الأكبر حجمًا بشكل ملحوظ مثل DeepSeek R1، الذي يضم 70 مليار معلمة. ويتضح هذا الإنجاز بشكل خاص في المعايير التي تشمل البرمجة وحل المشكلات الرياضية والمهام العلمية المتقدمة على مستوى الدراسات العليا. حتى أن أداء النماذج يقترب من أداء نموذج DeepSeek R1 كامل النطاق الذي يضم 671 مليار معلمة.
يعزو باحثو Microsoft نجاح النموذج في المقام الأول إلى استخدام مجموعات بيانات تدريب عالية الجودة، وهي إستراتيجية اعتمدت عليها الشركة باستمرار مع نماذجها السابقة. تتكون مجموعات البيانات هذه من أكثر من 1.4 مليون مطالبة منسقة بعناية تغطي مختلف تخصصات البرمجة والعلوم والتكنولوجيا والهندسة والرياضيات (STEM). وكل مطالبة مصحوبة بإجابات مصممة بدقة، تتضمن آثار استدلال واسعة النطاق تم إنشاؤها بواسطة نموذج o3-mini الخاص بـ OpenAI.
لتحسين عملية التدريب، استهدف الباحثون بشكل استراتيجي المطالبات التي دفعت حدود قدرات نموذج Phi-4 الأساسي. وشمل ذلك تصفية مجموعات بيانات التدريب للاحتفاظ فقط بتلك المطالبات التي وفرت فرصًا كبيرة للتحسين.
الأساس المنطقي وراء فعالية التعلم المعزز (RL)
تضمن تطوير Phi-4 Reasoning Plus عملية من خطوتين: أولاً، اشتقاق Phi-4 Reasoning من خلال الضبط الدقيق الخاضع للإشراف (SFT) لنموذج Phi-4 الأساسي، يليه مرحلة التعلم المعزز (RL). للحصول على رؤى أعمق حول مكونات RL الخاصة بـ Phi-4 Reasoning Plus، كان التواصل المباشر مع Harkirat Behl، وهو باحث في Microsoft لعب دورًا محوريًا في هذا الجانب من المشروع، أمرًا ضروريًا.
التعلم المعزز (RL) هو منهجية تدريب فريدة يتعلم فيها نظام الذكاء الاصطناعي من خلال التجريب. يتخذ الذكاء الاصطناعي إجراءات، ويتلقى ملاحظات في شكل مكافآت أو عقوبات، ويقوم بشكل متكرر بتحسين عملية اتخاذ القرار الخاصة به لتعظيم النتائج المرغوبة على المدى الطويل. هذا النهج مفيد بشكل خاص للمهام التي تتطلب من نموذج الذكاء الاصطناعي الانخراط في “الاستدلال”، لأنه يعطي الأولوية لتحقيق النتيجة المرجوة على الالتزام بعملية صارمة ومحددة سلفًا.
بخلاف النماذج التقليدية التي تركز فقط على التنبؤ بالكلمة التالية ومعاقبة النموذج على كل عدم دقة، يوفر RL مرونة أكبر في كيفية اشتقاق الإجابة. تسمح هذه المرونة للنموذج باستكشاف المشكلات المعقدة بمسارات حلول محتملة متعددة، والتقارب في النهاية على النتيجة الصحيحة.
وفقًا لـ Behl، يمكّن RL النموذج من “إنشاء إجابات طويلة جدًا والعديد من الإجابات المختلفة”، مع التركيز الأساسي على دقة النتيجة النهائية. هذا التركيز على النتيجة، بدلاً من الخطوات المحددة المتخذة، يعكس كيف يتعامل البشر مع حل المشكلات. العمليات الفكرية المختلفة مقبولة، طالما أنها تؤدي إلى الإجابة الصحيحة.
في نماذج Microsoft، ركزت مرحلة RL عن قصد على الاستدلال الرياضي. حفز نظام المكافآت الدقة، مع معاقبة التكرار والإفراط في الطول وتنسيق الاستجابة غير السليم في الوقت نفسه.
وأوضح بهل كذلك أن الباحثين سمحوا للنموذج بإنشاء إجابات متعددة لسؤال معين. ثم تم تسجيل كل إجابة بناءً على مقارنتها بالمتوسط بين مجموعة الإجابات التي تم إنشاؤها.
تعمل هذه الدرجات النسبية كآلية تغذية راجعة، لتوجيه النموذج لتفضيل الإجابات التي تتلقى باستمرار درجات أعلى. بمرور الوقت، تدرب هذه العملية النموذج على مواءمة استجاباته بشكل أوثق مع إشارة المكافأة المطلوبة.
لاحظ الباحثون أن تطبيق RL على مجموعة محدودة من 6400 مشكلة أدى إلى تحسن كبير في الدقة عبر مختلف تقييمات الرياضيات والاستدلال.
وأشار بهل قائلاً: “بعد بناء Phi-1 وPhi-2 وPhi-3 وPhi-4، فإن أحد الدروس المستفادة بالنسبة لي في البحث هو أن RL يتطلب بيانات أقل بكثير من تدريب SFT.”
وعزا ذلك إلى حقيقة أن RL لا يتعلق كثيرًا بنقل مهارات جديدة تمامًا إلى النموذج من البداية بل يتعلق بتوجيه النموذج لدمج المهارات الحالية والاستفادة منها بشكل فعال لتحقيق نتائج أفضل.
يتماشى نجاح Microsoft مع التعلم المعزز مع تجارب العديد من شركات الذكاء الاصطناعي الأخرى. لقد سلطت OpenAI، وهي شركة رائدة في تطوير نماذج الاستدلال، الضوء بشكل متكرر على التأثير الإيجابي لـ RL على مشاريعها.
ومن المثير للاهتمام أن DeepSeek R1، وهو نموذج صيني أحدث ثورة في مشهد الذكاء الاصطناعي في العام الماضي، عزا نجاحه أيضًا، جزئيًا، إلى تطبيق RL. علاوة على ذلك، أقر العديد من الباحثين والمهندسين من OpenAI علنًا بالدور الحاسم الذي يلعبه RL في نجاح مبادراتهم البحثية العميقة.
في الآونة الأخيرة، أيد نموذج Qwen الخاص بعلي بابا أيضًا التعلم المعزز، مؤكدًا على تأثيره الكبير على نماذج الاستدلال الخاصة بهم. في منشور مدونة، ذكرت الشركة: “نحن على ثقة من أن الجمع بين نماذج أساس أقوى وRL مدعوم بموارد حسابية واسعة النطاق سيدفعنا إلى الاقتراب من تحقيق الذكاء الاصطناعي العام (AGI).”
ومع ذلك، على الرغم من نجاح Phi-4 Reasoning وPhi-4 Reasoning Plus والعديد من نماذج الاستدلال الأخرى، لا يزال المجال يواجه العديد من التحديات.
السعي المستمر للتحسين
في الأشهر الأخيرة، سلط عدد من الدراسات البحثية الضوء على القيود الحالية والمزالق المحتملة لنماذج الاستدلال. على سبيل المثال، في ورقتهم البحثية حول Phi-4 Reasoning، أقر باحثو Microsoft بأنهم يواصلون التعامل مع التحديات المتعلقة بالاستهلاك المفرط للوقت والموارد، وأوقات الاستجابة الأبطأ، والأهم من ذلك، مشكلة تناقض استجابات النماذج مع خطوات الاستدلال السابقة الخاصة بها.
في تطور هام آخر، نشرت Anthropic دراسة كشفت أن سلاسل الاستدلال (التي يشار إليها غالبًا بسلاسل الأفكار أو CoTs) قد لا تعكس باستمرار عملية الاستدلال الفعلية للنموذج. اكتشف الباحثون أن النماذج غالبًا ما تستغل تلميحات خارجية، مثل الإشارات الصريحة التي يتم إدخالها في المطالبات لتوجيهها نحو إجابات صحيحة، ولكنها نادرًا ما تعترف بهذه التلميحات أو تعبر عنها شفهيًا في خطوات الاستدلال الصريحة الخاصة بها. هذا التناقض بين السلوك الداخلي للنموذج وتفسيره الخارجي يثير مخاوف بشأن موثوقية استخدام CoTs كأداة موثوقة لتفسير النموذج وضمان السلامة.
حتى OpenAI أصدرت تقارير بحثية تسلط الضوء على ميل نماذج الاستدلال المتقدمة إلى الانخراط في “اختراق المكافآت”. يشير اختراق المكافآت إلى المواقف التي تستغل فيها وكلاء الذكاء الاصطناعي ثغرات غير متوقعة أو عواقب غير مقصودة ضمن أهدافهم المحددة لتعظيم المكافآت بطرق لم تكن مقصودة أو مرغوبة في الأصل. استكشفت OpenAI استراتيجيات للتخفيف من هذا، مثل استخدام نموذج أقل قوة (GPT-4o) لمراقبة نموذج أقوى مثل o3-Mini، على الرغم من أن هذا يقدم تعقيداته وانحيازاته المحتملة.
أكد نات ماك أليس، وهو عضو في الهيئة الفنية في OpenAI، أن “نماذج الاستدلال الكبيرة جيدة للغاية في اختراق المكافآت”، مستشهداً بأمثلة منتقاة بعناية من التقرير لتوضيح هذه النقطة.
وعلق بهل قائلاً: “هناك الكثير من التكرار في سلسلة الاستدلالات؛ إنهم يناقضون أنفسهم، وهناك الكثير من الأسئلة التي لم تتم الإجابة عليها.” “ولكنه مجال متطور. إذا تمكنا من تحقيق ذلك كمجتمع وفهم كيف تفكر النماذج، فسيكون هناك الكثير من المكاسب.” يعتمد مستقبل نماذج الاستدلال على معالجة هذه التحديات من خلال البحث المستمر والتعاون داخل مجتمع الذكاء الاصطناعي.