جوجل DeepMind تكشف النقاب عن Gemma 3n

التحدي المتمثل في الذكاء الاصطناعي متعدد الوسائط على الجهاز

يعد تقديم ذكاء اصطناعي عالي الجودة ومتعدد الوسائط داخل البيئات المقيدة للموارد للأجهزة المحمولة أحد أهم العقبات في هذا المسعى. على عكس الأنظمة المستندة إلى السحابة، والتي تستفيد من قوة حسابية هائلة، يجب أن تعمل النماذج الموجودة على الجهاز بقيود صارمة على ذاكرة الوصول العشوائي وقدرات المعالجة. يتضمن الذكاء الاصطناعي متعدد الوسائط القدرة على تفسير النصوص والصور والصوت والفيديو، ويتطلب عادةً نماذج كبيرة يمكن أن تطغى على معظم الأجهزة المحمولة. علاوة على ذلك، فإن الاعتماد على السحابة يثير مخاوف بشأن زمن الوصول والخصوصية، مما يؤكد الحاجة إلى نماذج قادرة على التشغيل محليًا دون المساس بالأداء.

Gemma 3n: قفزة إلى الأمام في الذكاء الاصطناعي المحمول

لمعالجة هذه التحديات، قدمت Google وGoogle DeepMind Gemma 3n، وهو نموذج ذكاء اصطناعي رائد مصمم خصيصًا للنشر الأول على الأجهزة المحمولة. تم تحسين Gemma 3n للأداء عبر منصات Android وChrome ويعمل كأساس للتكرار التالي من Gemini Nano. يمثل هذا الابتكار تقدمًا كبيرًا، حيث يوفر إمكانات الذكاء الاصطناعي متعدد الوسائط للأجهزة ذات المساحات الصغيرة جدًا للذاكرة مع الحفاظ على أوقات الاستجابة في الوقت الفعلي. إنه أيضًا أول نموذج مفتوح مبني على هذه البنية التحتية المشتركة، مما يوفر للمطورين وصولاً فوريًا للتجربة.

التضمينات لكل طبقة (PLE): ابتكار رئيسي

يكمن في قلب Gemma 3n تطبيق التضمينات لكل طبقة (PLE)، وهي تقنية تقلل بشكل كبير من استخدام ذاكرة الوصول العشوائي. في حين أن أحجام النماذج الأولية تبلغ 5 مليارات و8 مليارات معلمة على التوالي، إلا أنها تعمل ببصمات ذاكرة تعادل نماذج 2 مليار و4 مليارات معلمة. يبلغ استهلاك الذاكرة الديناميكي 2 جيجابايت فقط لنموذج 5B و3 جيجابايت لإصدار 8B. يتم تحقيق ذلك من خلال تكوين نموذج متداخل حيث يتضمن نموذج بصمة ذاكرة نشطة 4B نموذجًا فرعيًا 2B تم تدريبه باستخدام طريقة تسمى MatFormer. يتيح ذلك للمطورين تبديل أوضاع الأداء ديناميكيًا دون الحاجة إلى تحميل نماذج منفصلة. تعمل التحسينات الإضافية، مثل مشاركة KVC وتحديد كمية التنشيط، على تقليل زمن الوصول وتسريع سرعات الاستجابة. على سبيل المثال، تحسن وقت الاستجابة على الهاتف المحمول بمقدار 1.5 مرة مقارنة بـ Gemma 3 4B، مع الحفاظ على جودة إخراج فائقة.

معايير الأداء

تسلط مقاييس الأداء التي حققتها Gemma 3n الضوء على ملاءمتها للنشر على الأجهزة المحمولة. إنه يتفوق في مهام مثل التعرف التلقائي على الكلام والترجمة، مما يتيح التحويل السلس للكلام إلى نص مترجم. في المعايير متعددة اللغات مثل WMT24++ (ChrF)، فإنه يحقق درجة 50.1٪، مما يدل على قوته في لغات مثل اليابانية والألمانية والكورية والإسبانية والفرنسية. تتيح إمكانية “mix’n’match” إنشاء نماذج فرعية مُحسّنة لمجموعات مختلفة من الجودة وزمن الوصول، مما يوفر للمطورين المزيد من التخصيص.

القدرات والتطبيقات متعددة الوسائط

يدعم هيكل Gemma 3n المدخلات المتداخلة من طرق مختلفة، بما في ذلك النصوص والصوت والصور والفيديو، مما يسمح بتفاعلات أكثر طبيعية وغنية بالسياق. يمكن أن يعمل أيضًا في وضع عدم الاتصال، مما يضمن الخصوصية والموثوقية حتى بدون اتصال بالشبكة. حالات الاستخدام المحتملة واسعة النطاق، بما في ذلك:

  • الملاحظات المرئية والسمعية الحية: تقديم استجابات في الوقت الفعلي لمدخلات المستخدم من خلال القنوات المرئية والسمعية.
  • إنشاء محتوى مدرك للسياق: إنشاء محتوى مخصص بناءً على سياق المستخدم الحالي، كما تحدده مدخلات المستشعر المختلفة.
  • تطبيقات متقدمة قائمة على الصوت: تمكين تفاعلات وتحكم صوتي أكثر تطوراً.

الميزات الرئيسية في Gemma 3n

تتضمن Gemma 3n مجموعة من الميزات، بما في ذلك:

  • تصميم أولاً للهاتف المحمول: تم تطويره من خلال التعاون بين Google وDeepMind وQualcomm وMediaTek وSamsung System LSI لتحقيق الأداء الأمثل للهاتف المحمول.
  • تقليل حجم الذاكرة: يحقق بصمات تشغيلية تبلغ 2 جيجابايت و3 جيجابايت لطرازي المعلمة 5B و8B، على التوالي، باستخدام التضمينات لكل طبقة (PLE).
  • تحسين وقت الاستجابة: يوفر استجابة أسرع بمقدار 1.5 مرة على الهاتف المحمول مقارنة بـ Gemma 3 4B.
  • الكفاءة متعددة اللغات: يحقق درجة قياسية متعددة اللغات تبلغ 50.1٪ على WMT24++ (ChrF).
  • إدخال متعدد الوسائط: يقبل ويفهم الصوت والنص والصورة والفيديو، مما يتيح معالجة معقدة متعددة الوسائط ومدخلات متداخلة.
  • نماذج فرعية ديناميكية: يدعم المقايضات الديناميكية باستخدام تدريب MatFormer مع نماذج فرعية متداخلة وقدرات mix’n’match.
  • تشغيل غير متصل بالشبكة: يعمل بدون اتصال بالإنترنت، مما يضمن الخصوصية والموثوقية.
  • سهولة الوصول: متاح عبر Google AI Studio وGoogle AI Edge، مع إمكانات معالجة النصوص والصور.

الآثار والاتجاهات المستقبلية

تقدم Gemma 3n مسارًا واضحًا لجعل الذكاء الاصطناعي عالي الأداء محمولاً وخاصًا. من خلال معالجة قيود ذاكرة الوصول العشوائي من خلال بنية مبتكرة وتعزيز القدرات متعددة اللغات ومتعددة الوسائط، طور الباحثون حلاً قابلاً للتطبيق لجلب الذكاء الاصطناعي المتقدم مباشرة إلى الأجهزة اليومية. يمثل تبديل النموذج الفرعي المرن والاستعداد في وضع عدم الاتصال وأوقات الاستجابة السريعة نهجًا شاملاً للذكاء الاصطناعي الأول على الأجهزة المحمولة. من المحتمل أن يركز البحث المستقبلي على تحسين قدرات النموذج وتوسيع توافقه مع نطاق أ wider من الأجهزة واستكشاف تطبيقات جديدة في مجالات مثل الواقع المعزز والروبوتات وإنترنت الأشياء.

الذكاء الاصطناعي على الأجهزة: تحول نموذجي

إن الدخول إلى حقبة يكون فيها الذكاء الاصطناعي ليس مجرد خدمة بعيدة، بل ذكاءً محليًا مضمنًا مباشرة في هواتفنا وأجهزتنا اللوحية وأجهزة الكمبيوتر المحمولة، يدفع إلى تحول عميق في كيفية تصميم نماذج الذكاء الاصطناعي ونشرها. يعد هذا التحول بالاستجابة شبه الفورية، وتقليل متطلبات الذاكرة بشكل كبير، والتركيز المتجدد على خصوصية المستخدم. مع استمرار التطور السريع للأجهزة المحمولة، ينصب التركيز على إنشاء نماذج مضغوطة وسريعة للغاية قادرة على إعادة تعريف تفاعلاتنا الرقمية اليومية.

تحديات تطبيقات الذكاء الاصطناعي متعدد الوسائط على الأجهزة المحمولة

يظل تقديم ذكاء اصطناعي متعدد الوسائط عالي الجودة داخل البيئات محدودة الموارد للأجهزة المحمولة يشكل تحديًا كبيرًا. على عكس الأنظمة السحابية التي تستفيد من قوة الحوسبة الهائلة، يجب أن تعمل النماذج الموجودة على الأجهزة ضمن قيود صارمة على ذاكرة الوصول العشوائي وقدرات المعالجة. عادةً ما يتطلب الذكاء الاصطناعي متعدد الوسائط، الذي يشمل القدرة على تفسير النصوص والصور والصوت والفيديو، نماذج كبيرة يمكن أن تثقل كاهل معظم الأجهزة المحمولة. علاوة على ذلك، يؤدي الاعتماد على السحابة إلى إثارة مخاوف بشأن زمن الوصول والخصوصية، مما يستلزم نماذج قادرة على العمل محليًا دون المساس بالأداء.

Gemma 3n: ابتكار يغير قواعد اللعبة في مجال الذكاء الاصطناعي المحمول

لمعالجة هذه التحديات، كشفت Google وGoogle DeepMind النقاب عن Gemma 3n، وهو نموذج ذكاء اصطناعي رائد مصمم خصيصًا للنشر على الأجهزة المحمولة أولاً. تم تحسين Gemma 3n لتحقيق الأداء الأمثل عبر منصات Android وChrome، وهو بمثابة الأساس للتكرار التالي لـ Gemini Nano. يمثل هذا الابتكار قفزة كبيرة إلى الأمام، حيث يوفر إمكانات ذكاء اصطناعي متعدد الوسائط للأجهزة ذات مساحات الذاكرة الأصغر بكثير مع الحفاظ على أوقات الاستجابة في الوقت الفعلي. إنه أيضًا أول نموذج مفتوح مبني على هذه البنية التحتية المشتركة، مما يتيح للمطورين الوصول الفوري للتجريب.

التضمينات لكل طبقة (PLE): تقنية أساسية

يقع جوهر Gemma 3n في الاستخدام المبتكر للتضمينات لكل طبقة (PLE)، وهي تقنية تقلل بشكل كبير من استخدام ذاكرة الوصول العشوائي. على الرغم من أن أحجام النماذج الأولية تبلغ 5 مليارات و8 مليارات معلمة على التوالي، إلا أنها تعمل ببصمة ذاكرة تعادل نماذج 2 مليار و4 مليارات معلمة. يبلغ استهلاك الذاكرة الديناميكي 2 جيجابايت فقط لنموذج 5B و3 جيجابايت لإصدار 8B. يتم تحقيق ذلك من خلال تكوين نموذج متداخل حيث يتضمن نموذج بصمة ذاكرة نشطة 4B نموذجًا فرعيًا 2B تم تدريبه باستخدام طريقة تسمى MatFormer. يسمح هذا للمطورين بتبديل أوضاع الأداء ديناميكيًا دون الحاجة إلى تحميل نماذج منفصلة. تعمل التحسينات الإضافية، مثل مشاركة KVC وتحديد كمية التنشيط، على تقليل زمن الوصول وتسريع سرعات الاستجابة بشكل أكبر. على سبيل المثال، تحسن وقت الاستجابة على الهاتف المحمول بمقدار 1.5 مرة مقارنة بـ Gemma 3 4B، مع الحفاظ على جودة إخراج فائقة.

معاير الأداء المتميزة

تسلط مقاييس الأداء التي حققتها Gemma 3n الضوء على مدى ملاءمتها للنشر على الأجهزة المحمولة. إنه يتفوق في مهام مثل التعرف التلقائي على الكلام والترجمة، مما يتيح التحويل السلس للكلام إلى نص مترجم. في المعايير متعددة اللغات مثل WMT24++ (ChrF)، فإنه يحقق درجة 50.1٪، مما يدل على قوته في لغات مثل اليابانية والألمانية والكورية والإسبانية والفرنسية. علاوة على ذلك، تتيح إمكانية “mix’n’match” إنشاء نماذج فرعية مُحسّنة لمجموعات مختلفة من الجودة وزمن الوصول، مما يوفر للمطورين إمكانية تخصيص لا مثيل لها.

الإمكانات والتطبيقات متعددة الوسائط المتنوعة

يدعم هيكل Gemma 3n المدخلات المتداخلة من طرق مختلفة، بما في ذلك النصوص والصوت والصور والفيديو، مما يسمح بتفاعلات أكثر طبيعية وغنية بالسياق. يمكن أن يعمل أيضًا في وضع عدم الاتصال، مما يضمن الخصوصية والموثوقية حتى بدون اتصال بالشبكة. حالات الاستخدام المحتملة واسعة النطاق وتشمل:

  • الملاحظات المرئية والسمعية الحية: تقديم استجابات في الوقت الفعلي لمدخلات المستخدم من خلال القنوات المرئية والسمعية، مما يعزز تجربة المستخدم الشاملة.
  • إنشاء محتوى مدرك للسياق: إنشاء محتوى مخصص بناءً على سياق المستخدم الحالي، كما تحدده مدخلات المستشعر المختلفة، مما يوفر تجارب مخصصة للغاية.
  • تطبيقات متقدمة قائمة على الصوت: تمكين تفاعلات وتحكم صوتي أكثر تطوراً، مما يفتح إمكانيات جديدة للتحكم بدون استخدام اليدين.

السمات المميزة لـ Gemma 3n

تتضمن Gemma 3n مجموعة شاملة من الميزات، بما في ذلك:

  • تصميم أولاً للهاتف المحمول: تم تطويره من خلال التعاون بين Google وDeepMind وQualcomm وMediaTek وSamsung System LSI لتحقيق الأداء الأمثل للهاتف المحمول، مما يضمن التشغيل السلس على مجموعة واسعة من الأجهزة.
  • تقليل حجم الذاكرة: يحقق بصمات تشغيلية تبلغ 2 جيجابايت و3 جيجابايت لطرازي المعلمة 5B و8B، على التوالي، باستخدام التضمينات لكل طبقة (PLE)، مما يتيح النشر على الأجهزة ذات الموارد المحدودة.
  • تحسين وقت الاستجابة: يوفر استجابة أسرع بمقدار 1.5 مرة على الهاتف المحمول مقارنة بـ Gemma 3 4B، مما يوفر تفاعلات سريعة الاستجابة.
  • الكفاءة متعددة اللغات: يحقق درجة قياسية متعددة اللغات تبلغ 50.1٪ على WMT24++ (ChrF)، مما يدل على الكفاءة اللغوية الواسعة.
  • إدخال متعدد الوسائط: يقبل ويفهم الصوت والنص والصورة والفيديو، مما يتيح معالجة معقدة متعددة الوسائط ومدخلات متداخلة، مما يفتح إمكانيات جديدة للتجارب الغامرة.
  • نماذج فرعية ديناميكية: يدعم المقايضات الديناميكية باستخدام تدريب MatFormer مع نماذج فرعية متداخلة وقدرات mix’n’match، مما يسمح للمطورين بتحسين النماذج لحالات استخدام محددة.
  • تشغيل غير متصل بالشبكة: يعمل بدون اتصال بالإنترنت، مما يضمن الخصوصية والموثوقية، حتى في المناطق ذات الاتصال بالشبكة المحدود.
  • سهولة الوصول: متاح عبر Google AI Studio وGoogle AI Edge، مع إمكانات معالجة النصوص والصور، مما يتيح للمطورين من جميع مستويات المهارة إمكانية الوصول إلى النموذج واستخدامه.

الاتجاهات المستقبلية والآثار

تقدم Gemma 3n مسارًا واضحًا لجعل الذكاء الاصطناعي عالي الأداء محمولاً وخاصًا. من خلال معالجة قيود ذاكرة الوصول العشوائي من خلال بنية مبتكرة وتعزيز القدرات متعددة اللغات ومتعددة الوسائط، طور الباحثون حلاً قابلاً للتطبيق لجلب الذكاء الاصطناعي المتقدم مباشرة إلى الأجهزة اليومية. يمثل تبديل النموذج الفرعي المرن والاستعداد في وضع عدم الاتصال وأوقات الاستجابة السريعة نهجًا شاملاً للذكاء الاصطناعي الأول على الأجهزة المحمولة. من المحتمل أن يركز البحث المستقبلي على تحسين قدرات النموذج وتوسيع توافقه مع نطاق أ wider من الأجهزة واستكشاف تطبيقات جديدة في مجالات مثل الواقع المعزز والروبوتات وإنترنت الأشياء والسيارات ذاتية القيادة والرعاية الصحية الشخصية.

فتح إمكانات الذكاء الاصطناعي على الأجهزة المحمولة

يضع إطلاق Gemma 3n Google DeepMind باعتبارها رائدة في مجال الذكاء الاصطناعي على الأجهزة المحمولة. مع استمرار تطور الأجهزة المحمولة، ستلعب Gemma 3n بلا شك دورًا محوريًا في تشكيل مستقبل الذكاء الاصطناعي، مما يتيح مجموعة كبيرة من التطبيقات والابتكارات التي كانت تعتبر في السابق غير قابلة للتحقيق. إن قدرة النموذج على العمل في وضع عدم الاتصال، وتعدد استخداماته في التعامل مع مختلف الوسائط، والتركيز على الأداء الأمثل تجعله منصة جذابة للمطورين والباحثين على حد سواء. بينما نبدأ هذه الحقبة الجديدة من الذكاء الاصطناعي على الأجهزة، فإن الاحتمالات لا حدود لها، وإمكانية إحداث ثورة في حياتنا اليومية هائلة.

Gemma 3n: فتح عصر جديد من الذكاء الاصطناعي على الأجهزة المحمولة

يعتبر الكشف عن