فاي-4 من مايكروسوفت: جيل جديد

إعادة تعريف الكفاءة في الذكاء الاصطناعي: نهج Phi-4

تمثل سلسلة Phi-4، بما في ذلك Phi-4-multimodal (5.6 مليار معامل) و Phi-4-Mini (3.8 مليار معامل)، قفزة كبيرة إلى الأمام في تطوير نماذج اللغة الصغيرة (SLMs). هذه ليست مجرد نسخ أصغر من النماذج الأكبر؛ بل هي مصممة بدقة لتقديم أداء ينافس أو يتفوق، في بعض الحالات، على نماذج ضعف حجمها. هذه الكفاءة ليست مجرد إنجاز تقني؛ إنها ميزة استراتيجية في عالم يركز بشكل متزايد على الحوسبة الطرفية وخصوصية البيانات.

يؤكد Weizhu Chen، نائب رئيس الذكاء الاصطناعي التوليدي في Microsoft، على الطبيعة التمكينية لهذه النماذج: ‘تم تصميم هذه النماذج لتمكين المطورين بقدرات ذكاء اصطناعي متقدمة.’ ويسلط الضوء على إمكانات Phi-4-multimodal، بقدرته على التعامل مع طرائق متعددة، لفتح ‘إمكانيات جديدة لإنشاء تطبيقات مبتكرة وواعية بالسياق.’

إن الطلب على مثل هذه النماذج الفعالة مدفوع بالحاجة المتزايدة إلى الذكاء الاصطناعي الذي يمكن أن يعمل خارج حدود مراكز البيانات الضخمة. تسعى المؤسسات إلى حلول ذكاء اصطناعي يمكن تشغيلها على أجهزة قياسية، أو على ‘الحافة’ - مباشرة على الأجهزة. يقلل هذا النهج من التكاليف، ويقلل من زمن الوصول، والأهم من ذلك، يعزز خصوصية البيانات عن طريق إبقاء المعالجة محلية.

الابتكار وراء الأداء: Mixture of LoRAs

يعد ‘Mixture of LoRAs’ ابتكارًا رئيسيًا يدعم قدرات Phi-4-multimodal. يسمح هذا النهج للنموذج بدمج معالجة النصوص والصور والكلام بسلاسة ضمن بنية واحدة. على عكس الطرق التقليدية، حيث يمكن أن تؤدي إضافة الطرائق إلى تدهور الأداء، فإن Mixture of LoRAs يقلل من التداخل بين أنواع المدخلات المختلفة هذه.

تشرح الورقة البحثية التي تفصل هذه التقنية: ‘من خلال الاستفادة من Mixture of LoRAs، يوسع Phi-4-Multimodal القدرات متعددة الوسائط مع تقليل التداخل بين الطرائق. يتيح هذا النهج تكاملاً سلسًا ويضمن أداءً ثابتًا عبر المهام التي تتضمن النصوص والصور والكلام / الصوت.’

والنتيجة هي نموذج يحافظ على قدرات قوية لفهم اللغة بينما يتفوق في نفس الوقت في الرؤية والتعرف على الكلام. يعد هذا خروجًا كبيرًا عن التنازلات التي غالبًا ما يتم تقديمها عند تكييف النماذج لأنواع إدخال متعددة.

نجاح قياس الأداء: أبرز أداء Phi-4

لا تعد نماذج Phi-4 بالكفاءة فحسب؛ بل تقدم نتائج ملموسة. احتل Phi-4-multimodal المرتبة الأولى في قائمة المتصدرين Hugging Face OpenASR، حيث يبلغ معدل خطأ الكلمات 6.14٪ فقط. يتجاوز هذا حتى أنظمة التعرف على الكلام المتخصصة مثل WhisperV3. بالإضافة إلى الكلام، يُظهر النموذج أداءً تنافسيًا في مهام الرؤية، لا سيما تلك التي تتضمن التفكير الرياضي والعلمي بالصور.

يُظهر Phi-4-mini، على الرغم من صغر حجمه، براعة استثنائية في المهام القائمة على النصوص. يشير بحث Microsoft إلى أنه ‘يتفوق على نماذج مماثلة الحجم ويتساوى مع نماذج ضعف [الحجم]’ عبر مجموعة من معايير فهم اللغة.

أداء النموذج في مهام الرياضيات والترميز جدير بالملاحظة بشكل خاص. حقق Phi-4-mini، بطبقات Transformer الـ 32 واستخدامه الأمثل للذاكرة، نسبة 88.6٪ في معيار GSM-8K للرياضيات، متفوقًا على معظم نماذج 8 مليارات معامل. في معيار MATH، سجل 64٪، وهو أعلى بكثير من المنافسين ذوي الحجم المماثل.

يؤكد التقرير الفني المصاحب للإصدار على هذا الإنجاز: ‘بالنسبة لمعيار Math، يتفوق النموذج على النماذج ذات الحجم المماثل بهوامش كبيرة، وأحيانًا أكثر من 20 نقطة. بل إنه يتفوق على درجات نماذج أكبر بمرتين.’ هذه ليست تحسينات هامشية؛ إنها تمثل قفزة كبيرة في قدرات نماذج الذكاء الاصطناعي المدمجة.

تطبيقات العالم الحقيقي: Phi-4 في العمل

يمتد تأثير Phi-4 إلى ما هو أبعد من درجات القياس؛ إنه محسوس بالفعل في تطبيقات العالم الحقيقي. قامت Capacity، وهي ‘محرك إجابات’ يعمل بالذكاء الاصطناعي يساعد المؤسسات على توحيد مجموعات البيانات المتنوعة، بدمج عائلة Phi لتعزيز كفاءة ودقة نظامها الأساسي.

يسلط Steve Frederickson، رئيس قسم المنتجات في Capacity، الضوء على ‘الدقة الرائعة للنموذج وسهولة النشر، حتى قبل التخصيص.’ ويشير إلى أنهم تمكنوا من ‘تعزيز كل من الدقة والموثوقية، مع الحفاظ على فعالية التكلفة وقابلية التوسع التي نقدرها منذ البداية.’ أبلغت Capacity عن توفير كبير في التكاليف بنسبة 4.2x مقارنة بسير العمل المنافس، مع تحقيق نتائج مماثلة أو متفوقة في مهام المعالجة المسبقة.

هذه الفوائد العملية حاسمة لاعتماد الذكاء الاصطناعي على نطاق واسع. لم يتم تصميم Phi-4 للاستخدام الحصري لعمالقة التكنولوجيا ذوي الموارد الهائلة؛ بل إنه مخصص للنشر في بيئات متنوعة، حيث قد تكون قوة الحوسبة محدودة، والخصوصية أمر بالغ الأهمية.

إمكانية الوصول وإضفاء الطابع الديمقراطي على الذكاء الاصطناعي

لا تقتصر استراتيجية Microsoft مع Phi-4 على التقدم التكنولوجي فحسب؛ بل تتعلق بجعل الذكاء الاصطناعي أكثر سهولة. تتوفر النماذج من خلال Azure AI Foundry و Hugging Face و Nvidia API Catalog، مما يضمن توفرًا واسعًا. يهدف هذا النهج المتعمد إلى إضفاء الطابع الديمقراطي على الوصول إلى قدرات الذكاء الاصطناعي القوية، وإزالة الحواجز التي تفرضها الأجهزة باهظة الثمن أو البنية التحتية الضخمة.

الهدف هو تمكين الذكاء الاصطناعي من العمل على الأجهزة القياسية، وعلى حافة الشبكات، وفي الصناعات التي تكون فيها قوة الحوسبة نادرة. تعد إمكانية الوصول هذه أمرًا بالغ الأهمية لإطلاق العنان للإمكانات الكاملة للذكاء الاصطناعي عبر مختلف القطاعات.

يؤكد Masaya Nishimaki، مدير شركة الذكاء الاصطناعي اليابانية Headwaters Co., Ltd.، على أهمية إمكانية الوصول هذه: ‘يُظهر الذكاء الاصطناعي الطرفي أداءً متميزًا حتى في البيئات ذات الاتصالات الشبكية غير المستقرة أو حيث تكون السرية أمرًا بالغ الأهمية.’ يفتح هذا إمكانيات لتطبيقات الذكاء الاصطناعي في المصانع والمستشفيات والمركبات ذاتية القيادة - البيئات التي تكون فيها الذكاء في الوقت الفعلي ضروريًا، ولكن النماذج التقليدية القائمة على السحابة غالبًا ما تكون غير عملية.

تحول نموذجي في تطوير الذكاء الاصطناعي

يمثل Phi-4 تحولًا جوهريًا في الطريقة التي نفكر بها في تطوير الذكاء الاصطناعي. إنه ابتعاد عن السعي الدؤوب وراء نماذج أكبر وأكبر، نحو التركيز على الكفاءة وإمكانية الوصول والتطبيق في العالم الحقيقي. إنه يوضح أن الذكاء الاصطناعي ليس مجرد أداة لأولئك الذين لديهم أوسع الموارد؛ إنها قدرة، عندما يتم تصميمها بعناية، يمكن نشرها في أي مكان، من قبل أي شخص.

لا تكمن الثورة الحقيقية لـ Phi-4 في قدراته فحسب، بل في الإمكانات التي يطلقها. يتعلق الأمر بجلب الذكاء الاصطناعي إلى الحافة، إلى البيئات التي يمكن أن يكون لها فيها أكبر الأثر، وتمكين مجموعة أوسع من المستخدمين من تسخير قوتها. هذا أكثر من مجرد تقدم تكنولوجي؛ إنها خطوة نحو مستقبل ذكاء اصطناعي أكثر شمولاً وسهولة في الوصول إليه. إن أكثر ما يميز Phi-4 ليس فقط ما يمكنه فعله، ولكن أيضًا أين يمكنه فعله.