أطلقت شركة مايكروسوفت للأبحاث نموذجًا لغويًا صغيرًا جديدًا باسم Phi-4، وهو نموذج يضم 14 مليار معلمة، مصمم خصيصًا للارتقاء بمستوى التفكير الرياضي المعقد. يتوفر هذا النموذج في البداية على Azure AI Foundry، وقد تم إصداره مؤخرًا على Hugging Face بموجب ترخيص MIT مفتوح المصدر.
ابتكارات Phi-4
وفقًا لمايكروسوفت، يتفوق Phi-4 في أداء التفكير الرياضي على النماذج المماثلة والأكبر حجمًا، وذلك بفضل التقنيات المبتكرة المستخدمة في تدريبه، والتي تشمل:
- التدريب المسبق والتدريب المتوسط باستخدام البيانات الاصطناعية: يوفر التدريب المسبق والتدريب المتوسط باستخدام البيانات الاصطناعية مسارًا تعليميًا أكثر تنظيمًا للنموذج.
- إدارة البيانات العضوية: يتم تنسيق وتنقية البيانات العضوية بعناية لضمان جودة بيانات التدريب.
- نظام تدريب لاحق جديد: يتم استخدام طرق تدريب لاحقة جديدة لتحسين أداء النموذج بشكل أكبر.
هذه الابتكارات جعلت Phi-4 يتفوق على النموذج الأستاذ GPT-4o في القدرات المتعلقة بالأسئلة والإجابات التي تركز على العلوم والتكنولوجيا والهندسة والرياضيات (STEM)، مما يثبت أن تقنيات مايكروسوفت لتوليد البيانات والتدريب اللاحق ليست مجرد عملية تقطير للمعرفة.
الميزة الفريدة للبيانات الاصطناعية
ليس استخدام البيانات الاصطناعية بالأمر الجديد في تدريب النماذج اللغوية الكبيرة (LLM)، وقد استخدمت نماذج Phi السابقة هذه الطريقة أيضًا. تشير مايكروسوفت إلى أن البيانات الاصطناعية ليست مجرد بديل رخيص، بل إنها تتفوق على البيانات العضوية في الجوانب التالية:
- مسار تعليمي أكثر تدرجًا: يمكن للبيانات الاصطناعية توجيه النماذج اللغوية الكبيرة للتعلم بشكل تدريجي، بدءًا من طرح المشكلة الأولية وصولًا إلى الحل النهائي، مما يسهل فهم عملية التفكير.
- توافق أفضل مع بيئة التفكير: على عكس البيانات العضوية التي تتضمن طرح المشكلة والحل النهائي، يمكن للبيانات الاصطناعية توفير عملية تفكير تفصيلية خطوة بخطوة، مما يتناسب بشكل أفضل مع سيناريوهات التفكير الفعلية.
بيانات عضوية منسقة بعناية
بالإضافة إلى البيانات الاصطناعية، استخدمت مايكروسوفت بيانات عضوية منسقة بعناية، بما في ذلك عشرات الملايين من المسائل والحلول الرياضية عالية الجودة التي تم جمعها من المواقع العامة ومجموعات البيانات الخارجية. في الحالات التي لم يتم فيها توفير حلول دقيقة، استخدموا طريقة التصويت بالأغلبية لتوليد الحلول، مما زاد من الدقة. بالإضافة إلى ذلك، قاموا بجمع الأوراق الأكاديمية والمنتديات التعليمية والبرامج التعليمية.
أكدت مايكروسوفت على الدور الحاسم للبيانات الطبيعية عالية الجودة في توليد البيانات الاصطناعية، مشيرة إلى أن حتى الأخطاء الطفيفة يمكن أن تؤدي إلى انخفاض كبير في جودة المستندات الاصطناعية المشتقة. لذلك، فقد استثمروا الكثير من الجهد لتحسين إدارة البيانات الشبكية.
مرحلة التدريب اللاحق لـ Phi-4
تهدف مرحلة التدريب اللاحق لـ Phi-4 إلى تحويله إلى مساعد ذكاء اصطناعي موثوق به. تتضمن هذه المرحلة الخطوات التالية:
- الضبط الدقيق: يتم ضبط النموذج بدقة باستخدام بيانات عالية الجودة تم إنشاؤها من مجالات مختلفة مثل الرياضيات والترميز والتفكير والحوار وهويات النموذج والأمان.
- تحسين التفضيل المباشر (DPO): يتم تنفيذ خطوتين DPO لجعل النموذج أكثر توافقًا مع التفضيلات البشرية وإزالة السلوكيات غير المرغوب فيها.
- البحث عن الرمز المحوري: في الخطوة الأولى، تستخدم مايكروسوفت تقنية جديدة تسمى البحث عن الرمز المحوري لإنشاء أزواج النتائج المطلوبة/غير المرغوب فيها.
- GPT-4o كمقيم: في الخطوة الثانية، يستخدمون GPT-4o كمقيم لتحديد علامات إيجابية أو سلبية لكل زوج من النتائج.
تقييم Phi-4
تم تقييم Phi-4 باستخدام إطار SIMPLE-EVALS من OpenAI، وتفوق على Llama-3.1-405B في العديد من الاختبارات المعيارية. بالإضافة إلى ذلك، فقد تفوق أيضًا على النموذج الأستاذ GPT-4o في اختبارات GPQA (أسئلة وإجابات STEM على مستوى الدراسات العليا) وMATH (مسابقات الرياضيات).
تفصيل بيانات تدريب نموذج Phi-4
عند تدريب نموذج Phi-4، اتبعت مايكروسوفت استراتيجية بيانات مصممة بعناية، والتي تدور بشكل أساسي حول البيانات الاصطناعية والبيانات الحقيقية المختارة بعناية. يهدف هذا النهج المزدوج إلى تحسين عملية التعلم للنموذج وجعله متميزًا في مجال التفكير الرياضي.
توليد البيانات الاصطناعية
تلعب البيانات الاصطناعية دورًا حيويًا في تدريب Phi-4. لم يعتبر فريق مايكروسوفت البيانات الاصطناعية مجرد بديل بسيط للبيانات الحقيقية، بل اعتبروها أداة يمكنها توجيه النموذج للتعلم بشكل تدريجي. عادةً ما تتبع عملية توليد البيانات الاصطناعية الخطوات التالية:
- إنشاء المسائل: أولاً، يتم إنشاء مسائل رياضية متنوعة بناءً على قواعد وقوالب محددة مسبقًا. تغطي هذه المسائل مجالات رياضية مختلفة ومستويات صعوبة متنوعة، لضمان تعلم النموذج بشكل شامل.
- حلول خطوة بخطوة: لكل مسألة يتم إنشاؤها، يتم إنشاء حل خطوة بخطوة يشرح بالتفصيل عملية التفكير من طرح المسألة إلى الإجابة النهائية. لا يتضمن هذا الحل التدريجي الإجابة النهائية فحسب، بل يتضمن أيضًا الخطوات المتوسطة والمنطق الاستنتاجي، مما يساعد النموذج على فهم عملية حل المسائل.
- تعزيز البيانات: لزيادة تنوع البيانات، يتم أيضًا تعزيز البيانات الاصطناعية، على سبيل المثال عن طريق تغيير صياغة المسائل أو تعديل الأرقام أو استخدام طرق حل مختلفة.
البيانات الحقيقية المختارة بعناية
بالإضافة إلى البيانات الاصطناعية، استخدم تدريب Phi-4 أيضًا كمية كبيرة من البيانات الحقيقية المختارة بعناية. تأتي هذه البيانات من مختلف المواقع العامة والأوراق الأكاديمية والمنتديات التعليمية والبرامج التعليمية، وتشمل الأنواع التالية:
- المسائل الرياضية والحلول: تم جمع ملايين المسائل الرياضية عالية الجودة وحلولها من المواقع العامة ومجموعات البيانات الخارجية. تغطي هذه المسائل مجالات رياضية مختلفة ومستويات صعوبة متنوعة.
- الأوراق الأكاديمية: لتعزيز قدرة النموذج على الفهم والاستنتاج، تم أيضًا جمع عدد كبير من الأوراق الأكاديمية التي توفر مفاهيم ونظريات رياضية متعمقة.
- المنتديات التعليمية: تم جمع الأسئلة التي طرحها الطلاب والإجابات التي قدمها الخبراء من المنتديات التعليمية، مما مكن النموذج من فهم المسائل الرياضية من وجهات نظر مختلفة.
- البرامج التعليمية: لتعزيز قدرة النموذج على البرمجة، تم أيضًا جمع عدد كبير من البرامج التعليمية التي تغطي لغات البرمجة والخوارزميات المختلفة.
مراقبة جودة البيانات
استثمرت مايكروسوفت الكثير من الجهد في مراقبة جودة البيانات لضمان دقة واتساق بيانات التدريب. لقد اتخذوا الإجراءات التالية:
- المراجعة اليدوية: بالنسبة لبعض مجموعات البيانات الهامة، يتم إجراء مراجعة يدوية لضمان دقة وجودة البيانات.
- التصويت بالأغلبية: بالنسبة للمسائل التي لم يتم توفير حلول دقيقة لها، يتم استخدام طريقة التصويت بالأغلبية لتوليد الحلول، مما يزيد من الدقة.
- تنظيف البيانات: يتم تنظيف جميع البيانات لإزالة البيانات المكررة والبيانات الخاطئة والبيانات غير ذات الصلة.
تحليل مفصل لاستراتيجيات التدريب اللاحق
تهدف مرحلة التدريب اللاحق لـ Phi-4 إلى تحويله إلى مساعد ذكاء اصطناعي موثوق به، وتتكون هذه المرحلة بشكل أساسي من الضبط الدقيق وتحسين التفضيل المباشر (DPO).
مرحلة الضبط الدقيق
تهدف مرحلة الضبط الدقيق إلى تكييف النموذج مع مجموعة متنوعة من المهام والمجالات المختلفة. في هذه المرحلة، استخدمت مايكروسوفت بيانات عالية الجودة تم إنشاؤها من المجالات التالية:
- الرياضيات: تتضمن مسائل وحلول رياضية متنوعة، تهدف إلى تعزيز قدرة النموذج على التفكير الرياضي.
- الترميز: تتضمن مسائل وحلول برمجية متنوعة، تهدف إلى تعزيز قدرة النموذج على إنشاء وفهم التعليمات البرمجية.
- الاستنتاج: تتضمن مسائل استنتاج منطقي متنوعة، تهدف إلى تعزيز قدرة النموذج على التفكير المنطقي.
- الحوار: تتضمن بيانات حوار متنوعة، تهدف إلى تعزيز قدرة النموذج على فهم وإنشاء اللغة الطبيعية.
- هوية النموذج: تتضمن أوصاف متنوعة لهوية النموذج، تهدف إلى تعزيز فهم النموذج لقدراته.
- الأمان: تتضمن مسائل وحلول أمان متنوعة، تهدف إلى تعزيز أمان النموذج.
مرحلة تحسين التفضيل المباشر (DPO)
تهدف مرحلة تحسين التفضيل المباشر (DPO) إلى جعل سلوك النموذج أكثر توافقًا مع التفضيلات البشرية وإزالة السلوكيات غير المرغوب فيها. تتضمن هذه المرحلة خطوتين:
- البحث عن الرمز المحوري: في الخطوة الأولى، تستخدم مايكروسوفت تقنية جديدة تسمى البحث عن الرمز المحوري لإنشاء أزواج النتائج المطلوبة/غير المرغوب فيها. تستخدم هذه التقنية البحث في مساحة إخراج النموذج للعثور على العلامات الرئيسية التي يمكنها التمييز بين السلوك المطلوب وغير المرغوب فيه.
- GPT-4o كمقيم: في الخطوة الثانية، يستخدمون GPT-4o كمقيم لتحديد علامات إيجابية أو سلبية لكل زوج من النتائج. يمكن لـ GPT-4o تقييم مخرجات النموذج بناءً على التفضيلات البشرية، مما يساعد النموذج على تعلم التفضيلات البشرية بشكل أفضل.
تقييم أداء Phi-4
لتقييم أداء Phi-4، استخدمت مايكروسوفت إطار SIMPLE-EVALS من OpenAI، والذي يتضمن مجموعة متنوعة من الاختبارات المعيارية المختلفة التي يمكنها تقييم أداء النموذج في المهام المختلفة.
الاختبارات المعيارية
لقد أظهر Phi-4 أداءً متميزًا في الاختبارات المعيارية التالية:
- GPQA (أسئلة وإجابات STEM على مستوى الدراسات العليا): في هذا الاختبار المعياري، تفوق Phi-4 على النموذج الأستاذ GPT-4o، مما يثبت أن قدرته على الإجابة على الأسئلة في مجال STEM قوية جدًا.
- MATH (مسابقات الرياضيات): في هذا الاختبار المعياري أيضًا، تفوق Phi-4 على النموذج الأستاذ GPT-4o، مما يثبت أن قدرته على حل المسائل الرياضية المعقدة ممتازة جدًا.
- المقارنة مع النماذج الأخرى: في العديد من الاختبارات المعيارية، تفوق Phi-4 على Llama-3.1-405B، مما يثبت أن أدائه العام قوي جدًا.
تحليل الأداء
من خلال تقييم أداء Phi-4، يمكن استخلاص الاستنتاجات التالية:
- قدرة قوية على التفكير الرياضي: يتميز Phi-4 بأداء ممتاز في التفكير الرياضي، وذلك بفضل الأساليب المبتكرة المستخدمة في تدريبه، بما في ذلك البيانات الاصطناعية والبيانات الحقيقية المختارة بعناية واستراتيجيات التدريب اللاحق.
- تجاوز النموذج الأستاذ: في العديد من الاختبارات المعيارية، تفوق Phi-4 على النموذج الأستاذ GPT-4o، مما يثبت أن أدائه ليس مجرد تقطير للمعرفة.
- المقارنة مع النماذج الأخرى: تفوق Phi-4 على Llama-3.1-405B في العديد من الاختبارات المعيارية، مما يثبت أن أدائه العام قوي جدًا.
آفاق تطبيق Phi-4
يتمتع Phi-4، باعتباره نموذجًا لغويًا صغيرًا مصممًا خصيصًا للتفكير الرياضي المعقد، بآفاق تطبيق واسعة. يمكن تطبيقه في المجالات التالية:
- التعليم: يمكن استخدامه كأداة مساعدة في الرياضيات، لمساعدة الطلاب على حل المسائل الرياضية وتوفير تجربة تعليمية مخصصة.
- البحث العلمي: يمكن استخدامه كأداة بحثية لمساعدة الباحثين على إجراء النمذجة الرياضية وتحليل البيانات.
- الهندسة: يمكن استخدامه كأداة هندسية لمساعدة المهندسين على التصميم والتحليل.
- المالية: يمكن استخدامه كأداة مالية لمساعدة المحللين الماليين على تقييم المخاطر واتخاذ القرارات الاستثمارية.
- مجالات أخرى: يمكن تطبيقه أيضًا في مجالات أخرى تتطلب تفكيرًا رياضيًا معقدًا، مثل الرعاية الصحية واللوجستيات والتصنيع.
الخلاصة
يمثل ظهور مايكروسوفت Phi-4 تقدمًا كبيرًا في مجال النماذج اللغوية الصغيرة في مجال التفكير الرياضي. لقد جعلته استراتيجية تدريب البيانات الفريدة وطرق التدريب اللاحق يتفوق في الأداء على النماذج المماثلة والأكبر حجمًا، ويوفر أفكارًا جديدة لتطوير الذكاء الاصطناعي في المستقبل. مع إصدار Phi-4 مفتوح المصدر على Hugging Face، من المؤكد أنه سيوفر الراحة لمزيد من الباحثين والمطورين، ويعزز تطبيق تكنولوجيا الذكاء الاصطناعي في مختلف المجالات.