Phi-4-Multimodal: نهج موحد للذكاء الاصطناعي متعدد الوسائط
Phi-4-multimodal يمثل أول محاولة لمايكروسوفت في مجال نماذج اللغة متعددة الوسائط. هذا النموذج الرائد، الذي يضم 5.6 مليار معيار، يدمج بسلاسة معالجة الكلام والرؤية والنص في بنية واحدة متماسكة. ينبع هذا النهج المبتكر مباشرة من ملاحظات العملاء القيمة، مما يعكس التزام مايكروسوفت بالتحسين المستمر والاستجابة لاحتياجات المستخدمين.
يعتمد تطوير Phi-4-multimodal على تقنيات التعلم المتقدمة عبر الوسائط. وهذا يُمكّن النموذج من تعزيز تفاعلات طبيعية وأكثر وعيًا بالسياق. يمكن للأجهزة المزودة بـ Phi-4-multimodal فهم والاستدلال عبر وسائط الإدخال المختلفة في وقت واحد. يتفوق في تفسير اللغة المنطوقة، وتحليل الصور، ومعالجة المعلومات النصية. علاوة على ذلك، فإنه يوفر استدلالًا عالي الكفاءة ومنخفض الكمون مع التحسين للتنفيذ على الجهاز، وبالتالي تقليل الحمل الحسابي.
إحدى الميزات المميزة لـ Phi-4-multimodal هي بنيته الموحدة. على عكس الأساليب التقليدية التي تعتمد على مسارات معقدة أو نماذج منفصلة للوسائط المختلفة، يعمل Phi-4-multimodal ككيان واحد. يتعامل ببراعة مع المدخلات النصية والصوتية والمرئية ضمن نفس مساحة التمثيل. يعزز هذا التصميم الانسيابي الكفاءة ويبسط عملية التطوير.
تتضمن بنية Phi-4-multimodal العديد من التحسينات لتعزيز أدائها وتعدد استخداماتها. وتشمل هذه:
- مفردات أكبر: تسهل قدرات المعالجة المحسنة.
- دعم متعدد اللغات: يوسع نطاق تطبيق النموذج عبر سياقات لغوية متنوعة.
- استدلال لغوي متكامل: يجمع بين فهم اللغة والمدخلات متعددة الوسائط.
يتم تحقيق هذه التطورات ضمن نموذج مضغوط وعالي الكفاءة، وهو مناسب بشكل مثالي للنشر على الأجهزة ومنصات الحوسبة الطرفية. تفتح الإمكانات الموسعة والقدرة على التكيف لـ Phi-4-multimodal العديد من الاحتمالات لمطوري التطبيقات والشركات والصناعات التي تسعى إلى الاستفادة من الذكاء الاصطناعي بطرق مبتكرة.
في مجال المهام المتعلقة بالكلام، أظهر Phi-4-multimodal براعة استثنائية، وبرز كمرشح رائد بين النماذج المفتوحة. والجدير بالذكر أنه يتفوق على النماذج المتخصصة مثل WhisperV3 و SeamlessM4T-v2-Large في كل من التعرف التلقائي على الكلام (ASR) وترجمة الكلام (ST). وقد حصل على المركز الأول في قائمة المتصدرين HuggingFace OpenASR، محققًا معدل خطأ في الكلمات يبلغ 6.14٪، متفوقًا على الأفضل السابق البالغ 6.5٪ (اعتبارًا من فبراير 2025). علاوة على ذلك، فهو من بين عدد قليل من النماذج المفتوحة القادرة على تنفيذ تلخيص الكلام بنجاح، وتحقيق مستويات أداء مماثلة لنموذج GPT-4o.
في حين أن Phi-4-multimodal يُظهر فجوة طفيفة مقارنة بنماذج مثل Gemini-2.0-Flash و GPT-4o-realtime-preview في مهام الإجابة على الأسئلة المتعلقة بالكلام (QA)، ويرجع ذلك أساسًا إلى حجمه الأصغر والقيود الناتجة عن ذلك في الاحتفاظ بمعرفة الأسئلة والأجوبة الواقعية، تتركز الجهود المستمرة على تعزيز هذه القدرة في التكرارات المستقبلية.
بالإضافة إلى الكلام، يعرض Phi-4-multimodal إمكانات رؤية رائعة عبر معايير مختلفة. يحقق أداءً قويًا بشكل خاص في الاستدلال الرياضي والعلمي. على الرغم من حجمه الصغير، يحافظ النموذج على أداء تنافسي في المهام العامة متعددة الوسائط، بما في ذلك:
- فهم المستندات والمخططات
- التعرف الضوئي على الحروف (OCR)
- الاستدلال العلمي المرئي
يطابق أو يتجاوز أداء النماذج المماثلة مثل Gemini-2-Flash-lite-preview و Claude-3.5-Sonnet.
Phi-4-Mini: قوة مدمجة للمهام النصية
يكمل Phi-4-multimodal نموذج Phi-4-mini، وهو نموذج يضم 3.8 مليار معيار مصمم للسرعة والكفاءة في المهام النصية. يتميز هذا المحول الكثيف الذي يعتمد على وحدة فك التشفير فقط بما يلي:
- انتباه الاستعلام المجمع
- مفردات من 200000 كلمة
- تضمينات إدخال وإخراج مشتركة
على الرغم من حجمه الصغير، يتفوق Phi-4-mini باستمرار على النماذج الأكبر في مجموعة من المهام النصية، بما في ذلك:
- الاستدلال
- الرياضيات
- الترميز
- اتباع التعليمات
- استدعاء الوظيفة
وهو يدعم تسلسلات تصل إلى 128000 رمز، مما يوفر دقة وقابلية للتوسع استثنائيتين. وهذا يجعله حلاً فعالاً لتطبيقات الذكاء الاصطناعي المتقدمة التي تتطلب أداءً عاليًا في معالجة النصوص.
يعد استدعاء الوظائف، واتباع التعليمات، ومعالجة السياق الطويل، والاستدلال، كلها قدرات فعالة تمكن نماذج اللغة الصغيرة مثل Phi-4-mini من الوصول إلى المعرفة والوظائف الخارجية، والتغلب بشكل فعال على القيود التي يفرضها حجمها الصغير. من خلال بروتوكول موحد، يمكّن استدعاء الوظيفة النموذج من التكامل بسلاسة مع واجهات البرمجة المنظمة.
عند تقديم طلب مستخدم، يمكن لـ Phi-4-mini:
- الاستدلال من خلال الاستعلام.
- تحديد واستدعاء الوظائف ذات الصلة بالمعايير المناسبة.
- تلقي مخرجات الوظيفة.
- دمج هذه النتائج في ردودها.
يؤدي هذا إلى إنشاء نظام قائم على الوكيل وقابل للتوسيع حيث يمكن زيادة قدرات النموذج عن طريق توصيله بالأدوات الخارجية وواجهات برمجة التطبيقات (APIs) ومصادر البيانات من خلال واجهات وظيفية محددة جيدًا. مثال توضيحي هو وكيل التحكم في المنزل الذكي المدعوم من Phi-4-mini، والذي يدير بسلاسة مختلف الأجهزة والوظائف.
تجعل البصمات الأصغر لكل من Phi-4-mini و Phi-4-multimodal مناسبة بشكل استثنائي لبيئات الاستدلال المقيدة بالحساب. هذه النماذج مفيدة بشكل خاص للنشر على الجهاز، خاصةً عند تحسينها بشكل أكبر باستخدام ONNX Runtime لتوفر عبر الأنظمة الأساسية. تؤدي متطلباتها الحسابية المنخفضة إلى تكاليف أقل وتحسين كبير في زمن الوصول. تسمح نافذة السياق الموسعة للنماذج بمعالجة والاستدلال على محتوى نصي واسع النطاق، بما في ذلك المستندات وصفحات الويب والتعليمات البرمجية والمزيد. يُظهر كل من Phi-4-mini و Phi-4-multimodal قدرات استدلال ومنطق قوية، مما يجعلهما منافسين أقوياء للمهام التحليلية. يبسط حجمها الصغير أيضًا ويقلل من تكلفة الضبط الدقيق أو التخصيص.
تطبيقات العالم الحقيقي: تحويل الصناعات
يمكّن تصميم هذه النماذج من التعامل بكفاءة مع المهام المعقدة، مما يجعلها مناسبة بشكل مثالي لسيناريوهات الحوسبة الطرفية والبيئات ذات الموارد الحسابية المحدودة. تعمل الإمكانات الموسعة لـ Phi-4-multimodal و Phi-4-mini على توسيع آفاق تطبيقات Phi عبر مختلف الصناعات. يتم دمج هذه النماذج في أنظمة الذكاء الاصطناعي البيئية ويتم استخدامها لاستكشاف مجموعة واسعة من حالات الاستخدام.
فيما يلي بعض الأمثلة المقنعة:
التكامل في Windows: تعمل نماذج اللغة كمحركات استدلال قوية. يسمح دمج نماذج اللغة الصغيرة مثل Phi في Windows بالحفاظ على قدرات حسابية فعالة ويمهد الطريق لمستقبل من الذكاء المستمر المدمج بسلاسة عبر جميع التطبيقات وتجارب المستخدم. ستستفيد أجهزة Copilot+ PCs من قدرات Phi-4-multimodal، مما يوفر قوة نماذج SLM المتقدمة من Microsoft دون استهلاك مفرط للطاقة. سيعزز هذا التكامل الإنتاجية والإبداع والتجارب التعليمية، مما يؤسس معيارًا جديدًا لمنصة المطورين.
الأجهزة الذكية: تخيل أن الشركات المصنعة للهواتف الذكية تقوم بتضمين Phi-4-multimodal مباشرة في أجهزتها. سيمكن هذا الهواتف الذكية من معالجة وفهم الأوامر الصوتية والتعرف على الصور وتفسير النص بسلاسة. يمكن للمستخدمين الاستفادة من الميزات المتقدمة مثل الترجمة اللغوية في الوقت الفعلي، وتحليل الصور والفيديو المحسن، والمساعدين الشخصيين الأذكياء القادرين على فهم والاستجابة للاستعلامات المعقدة. سيؤدي هذا إلى رفع مستوى تجربة المستخدم بشكل كبير من خلال توفير قدرات ذكاء اصطناعي قوية مباشرة على الجهاز، مما يضمن زمن انتقال منخفض وكفاءة عالية.
صناعة السيارات: ضع في اعتبارك شركة سيارات تدمج Phi-4-multimodal في أنظمة المساعدة داخل السيارة. يمكن للنموذج تمكين المركبات منفهم الأوامر الصوتية والاستجابة لها، والتعرف على إيماءات السائق، وتحليل المدخلات المرئية من الكاميرات. على سبيل المثال، يمكن أن يعزز سلامة السائق من خلال اكتشاف النعاس من خلال التعرف على الوجه وتقديم تنبيهات في الوقت الفعلي. بالإضافة إلى ذلك، يمكن أن يوفر مساعدة سلسة في التنقل، وتفسير إشارات الطريق، وتوفير معلومات سياقية، مما يخلق تجربة قيادة أكثر سهولة وأمانًا، سواء عند الاتصال بالسحابة أو في وضع عدم الاتصال عندما يكون الاتصال غير متاح.
الخدمات المالية متعددة اللغات: تصور شركة خدمات مالية تستفيد من Phi-4-mini لأتمتة العمليات الحسابية المالية المعقدة، وإنشاء تقارير مفصلة، وترجمة المستندات المالية إلى لغات متعددة. يمكن للنموذج مساعدة المحللين من خلال إجراء حسابات رياضية معقدة ضرورية لتقييم المخاطر وإدارة المحافظ والتنبؤ المالي. علاوة على ذلك، يمكنه ترجمة البيانات المالية والمستندات التنظيمية واتصالات العملاء إلى لغات مختلفة، وبالتالي تعزيز العلاقات العالمية مع العملاء.
ضمان السلامة والأمن
يوفر Azure AI Foundry للمستخدمين مجموعة قوية من الإمكانات لمساعدة المؤسسات في قياس وتخفيف وإدارة مخاطر الذكاء الاصطناعي طوال دورة حياة تطوير الذكاء الاصطناعي. ينطبق هذا على كل من التعلم الآلي التقليدي وتطبيقات الذكاء الاصطناعي التوليدية. تعمل تقييمات Azure AI داخل AI Foundry على تمكين المطورين من تقييم جودة وسلامة النماذج والتطبيقات بشكل متكرر، وذلك باستخدام مقاييس مدمجة ومخصصة لإرشاد استراتيجيات التخفيف.
خضع كل من Phi-4-multimodal و Phi-4-mini لاختبارات أمنية وسلامة صارمة أجراها خبراء أمن داخليون وخارجيون. استخدم هؤلاء الخبراء استراتيجيات صاغها فريق Microsoft AI Red Team (AIRT). تتضمن هذه المنهجيات، التي تم تنقيحها على نماذج Phi السابقة، وجهات نظر عالمية ومتحدثين أصليين لجميع اللغات المدعومة. وهي تشمل مجموعة واسعة من المجالات، بما في ذلك:
- الأمن السيبراني
- الأمن القومي
- الإنصاف
- العنف
تتناول هذه التقييمات الاتجاهات الحالية من خلال التحقيق متعدد اللغات. بالاستفادة من مجموعة أدوات تحديد المخاطر مفتوحة المصدر Python (PyRIT) الخاصة بـ AIRT والتحقيق اليدوي، أجرى أعضاء الفريق الأحمر هجمات أحادية ومتعددة الأدوار. من خلال العمل بشكل مستقل عن فرق التطوير، شارك AIRT باستمرار الرؤى مع فريق النموذج. قيم هذا النهج بشكل شامل مشهد أمان وسلامة الذكاء الاصطناعي الجديد الذي قدمته أحدث نماذج Phi، مما يضمن تقديم قدرات عالية الجودة وآمنة.
توفر بطاقات النموذج الشاملة لـ Phi-4-multimodal و Phi-4-mini، جنبًا إلى جنب مع الورقة الفنية المصاحبة، مخططًا تفصيليًا للاستخدامات والقيود الموصى بها لهذه النماذج. تؤكد هذه الشفافية التزام Microsoft بتطوير ونشر الذكاء الاصطناعي المسؤول. هذه النماذج مهيأة لإحداث تأثير كبير على تطوير الذكاء الاصطناعي.