Phi-4: قوة ذكاء اصطناعي مدمجة

توسيع عائلة Phi: تقديم قدرات متعددة الوسائط

مساهمة Microsoft في هذا المجال المزدهر من SLMs هي عائلة Phi، وهي مجموعة من النماذج المدمجة. تم تقديم الجيل الرابع من Phi في البداية في ديسمبر، والآن، تعمل Microsoft على زيادة التشكيلة بإضافتين مهمتين: Phi-4-multimodal و Phi-4-mini. تماشيًا مع أشقائهم، ستكون هذه النماذج الجديدة متاحة بسهولة عبر Azure AI Foundry و Hugging Face و Nvidia API Catalog، وكلها بموجب ترخيص MIT المتساهل.

Phi-4-multimodal، على وجه الخصوص، يبرز. إنه نموذج 5.6 مليار معلمة يستفيد من تقنية متطورة تسمى ‘mixture-of-LoRAs’ (Low-Rank Adaptations). يتيح هذا الأسلوب للنموذج معالجة الكلام والمدخلات المرئية والبيانات النصية في وقت واحد. تمثل LoRAs طريقة جديدة لتعزيز أداء نموذج لغة كبير في مهام محددة، متجاوزة الحاجة إلى الضبط الدقيق الشامل عبر جميع معلماته. بدلاً من ذلك، يقوم المطورون الذين يستخدمون LoRA بإدراج عدد أقل من الأوزان الجديدة بشكل استراتيجي في النموذج. تخضع هذه الأوزان التي تم تقديمها حديثًا فقط للتدريب، مما يؤدي إلى عملية أسرع وأكثر كفاءة في استخدام الذاكرة. والنتيجة هي مجموعة من النماذج الأخف وزناً والتي يسهل تخزينها ومشاركتها ونشرها.

آثار هذه الكفاءة كبيرة. يحقق Phi-4-multimodal استنتاجًا بزمن انتقال منخفض - مما يعني أنه يمكنه معالجة المعلومات وتقديم الردود بسرعة كبيرة - مع تحسينه للتنفيذ على الجهاز. يترجم هذا إلى انخفاض كبير في الحمل الحسابي، مما يجعل من الممكن تشغيل تطبيقات الذكاء الاصطناعي المتطورة على الأجهزة التي كانت تفتقر سابقًا إلى قوة المعالجة اللازمة.

حالات الاستخدام المحتملة: من الهواتف الذكية إلى الخدمات المالية

التطبيقات المحتملة لـ Phi-4-multimodal متنوعة وبعيدة المدى. تخيل النموذج يعمل بسلاسة على الهواتف الذكية، ويشغل ميزات متقدمة داخل المركبات، أو يقود تطبيقات المؤسسات خفيفة الوزن. مثال مقنع هو تطبيق الخدمات المالية متعدد اللغات، القادر على فهم استعلامات المستخدم والرد عليها بلغات مختلفة، ومعالجة البيانات المرئية مثل المستندات، وكل ذلك أثناء العمل بكفاءة على جهاز المستخدم.

يدرك محللو الصناعة الإمكانات التحويلية لـ Phi-4-multimodal. يُنظر إليه على أنه خطوة مهمة إلى الأمام للمطورين، لا سيما أولئك الذين يركزون على إنشاء تطبيقات تعتمد على الذكاء الاصطناعي للأجهزة المحمولة أو البيئات التي تكون فيها الموارد الحسابية محدودة.

يسلط تشارلي داي، نائب الرئيس والمحلل الرئيسي في Forrester، الضوء على قدرة النموذج على دمج معالجة النصوص والصور والصوت مع قدرات استدلال قوية. ويؤكد أن هذا المزيج يعزز تطبيقات الذكاء الاصطناعي، مما يوفر للمطورين والمؤسسات ‘حلولاً متعددة الاستخدامات وفعالة وقابلة للتطوير’.

يقر يوجال جوشي، الشريك في Everest Group، بمدى ملاءمة النموذج للنشر في البيئات محدودة الحوسبة. في حين أنه يلاحظ أن الأجهزة المحمولة قد لا تكون النظام الأساسي المثالي لجميع حالات استخدام الذكاء الاصطناعي التوليدي، إلا أنه يرى أن SLMs الجديدة تعكس استلهام Microsoft من DeepSeek، وهي مبادرة أخرى تركز على تقليل الاعتماد على البنية التحتية الحاسوبية واسعة النطاق.

قياس الأداء: نقاط القوة ومجالات النمو

عندما يتعلق الأمر بأداء قياس الأداء، يُظهر Phi-4-multimodal فجوة في الأداء مقارنة بنماذج مثل Gemini-2.0-Flash و GPT-4o-realtime-preview، وتحديداً في مهام الإجابة على الأسئلة المتعلقة بالكلام (QA). تقر Microsoft بأن الحجم الأصغر لنماذج Phi-4 يحد بطبيعته من قدرتها على الاحتفاظ بالمعرفة الواقعية للإجابة على الأسئلة. ومع ذلك، تؤكد الشركة على الجهود المستمرة لتعزيز هذه القدرة في التكرارات المستقبلية للنموذج.

على الرغم من ذلك، يُظهر Phi-4-multimodal نقاط قوة رائعة في مجالات أخرى. والجدير بالذكر أنه يتفوق على العديد من LLMs الشائعة، بما في ذلك Gemini-2.0-Flash Lite و Claude-3.5-Sonnet، في المهام التي تتضمن الاستدلال الرياضي والعلمي، والتعرف البصري على الأحرف (OCR)، والاستدلال العلمي المرئي. هذه قدرات حاسمة لمجموعة واسعة من التطبيقات، من البرامج التعليمية إلى أدوات البحث العلمي.

Phi-4-mini: حجم صغير، أداء مثير للإعجاب

إلى جانب Phi-4-multimodal، قدمت Microsoft أيضًا Phi-4-mini. هذا النموذج أكثر إحكاما، ويضم 3.8 مليار معلمة. يعتمد على بنية محول كثيفة لفك التشفير فقط ويدعم تسلسلات تصل إلى 128000 رمز مميز.

يسلط Weizhu Chen، نائب رئيس Generative AI في Microsoft، الضوء على الأداء الرائع لـ Phi-4-mini على الرغم من صغر حجمه. في منشور مدونة يفصل النماذج الجديدة، يشير إلى أن Phi-4-mini ‘يستمر في التفوق على النماذج الأكبر في المهام القائمة على النصوص، بما في ذلك الاستدلال والرياضيات والترميز واتباع التعليمات واستدعاء الوظائف’. يؤكد هذا على إمكانية أن تقدم النماذج الأصغر حجمًا قيمة كبيرة في مجالات تطبيق محددة.

تحديثات Granite من IBM: تعزيز قدرات الاستدلال

التقدم في SLMs لا يقتصر على Microsoft. أصدرت IBM أيضًا تحديثًا لعائلة Granite الخاصة بها من النماذج التأسيسية، حيث قدمت نماذج Granite 3.2 2B و 8B. تتميز هذه النماذج الجديدة بقدرات ‘سلسلة الأفكار’ المحسّنة، وهي جانب حاسم في تعزيز قدرات الاستدلال. يسمح هذا التحسين للنماذج بتحقيق أداء فائق مقارنة بأسلافها.

علاوة على ذلك، كشفت IBM عن نموذج لغة رؤية (VLM) جديد مصمم خصيصًا لمهام فهم المستندات. يُظهر VLM هذا أداءً يطابق أو يتجاوز أداء النماذج الأكبر حجمًا بشكل كبير، مثل Llama 3.2 11B و Pixtral 12B، في معايير مثل DocVQA و ChartQA و AI2D و OCRBench1. يسلط هذا الضوء على الاتجاه المتزايد للنماذج الأصغر والمتخصصة التي تقدم أداءً تنافسيًا في مجالات محددة.

مستقبل الذكاء الاصطناعي على الجهاز: تحول نموذجي

يمثل تقديم Phi-4-multimodal و Phi-4-mini، جنبًا إلى جنب مع تحديثات Granite من IBM، خطوة مهمة نحو مستقبل تكون فيه قدرات الذكاء الاصطناعي القوية متاحة بسهولة على مجموعة واسعة من الأجهزة. هذا التحول له آثار عميقة على مختلف الصناعات والتطبيقات:

  • إضفاء الطابع الديمقراطي على الذكاء الاصطناعي: تجعل النماذج الأصغر والأكثر كفاءة الذكاء الاصطناعي في متناول مجموعة واسعة من المطورين والمستخدمين، وليس فقط أولئك الذين لديهم إمكانية الوصول إلى موارد حوسبة ضخمة.
  • تعزيز الخصوصية والأمان: تقلل المعالجة على الجهاز من الحاجة إلى نقل البيانات الحساسة إلى السحابة، مما يعزز الخصوصية والأمان.
  • تحسين الاستجابة وزمن الوصول: تلغي المعالجة المحلية التأخيرات المرتبطة بالذكاء الاصطناعي المستند إلى السحابة، مما يؤدي إلى أوقات استجابة أسرع وتجربة مستخدم أكثر سلاسة.
  • وظائف غير متصلة بالإنترنت: يمكن أن يعمل الذكاء الاصطناعي على الجهاز حتى بدون اتصال بالإنترنت، مما يفتح إمكانيات جديدة للتطبيقات في البيئات النائية أو ذات الاتصال المنخفض.
  • تقليل استهلاك الطاقة: تتطلب النماذج الأصغر طاقة أقل للتشغيل، مما يساهم في إطالة عمر بطارية الأجهزة المحمولة وتقليل التأثير البيئي.
  • تطبيقات الحوسبة الطرفية: وهذا يشمل قطاعات مثل القيادة الذاتية، والتصنيع الذكي، والرعاية الصحية عن بعد.

إن التطورات في SLMs تقود تحولًا نموذجيًا في مشهد الذكاء الاصطناعي. في حين أن نماذج اللغة الكبيرة لا تزال تلعب دورًا حيويًا، فإن صعود النماذج المدمجة والفعالة مثل تلك الموجودة في عائلة Phi يمهد الطريق لمستقبل يكون فيه الذكاء الاصطناعي أكثر انتشارًا، ويمكن الوصول إليه، ودمجه في حياتنا اليومية. يتحول التركيز من الحجم الهائل إلى الكفاءة والتخصص والقدرة على تقديم قدرات ذكاء اصطناعي قوية مباشرة على الأجهزة التي نستخدمها كل يوم. من المرجح أن يتسارع هذا الاتجاه، مما يؤدي إلى تطبيقات أكثر ابتكارًا واعتماد أوسع للذكاء الاصطناعي عبر مختلف القطاعات. إن القدرة على أداء مهام معقدة، مثل فهم المدخلات متعددة الوسائط، على الأجهزة محدودة الموارد تفتح فصلاً جديدًا في تطور الذكاء الاصطناعي.
السباق مستمر لإنشاء SLM ذكي وقادر بشكل متزايد، وعرض Microsoft الجديد هو خطوة كبيرة إلى الأمام.