يمثل ظهور Gemma 3n من Google حقبة جديدة في الذكاء الاصطناعي التوليدي. هذا النموذج، صغير الحجم وسريع بشكل مذهل، والأكثر إثارة للإعجاب، أنه يمكن تشغيله في وضع عدم الاتصال على الهواتف، مما يجعله تقنية ذكاء اصطناعي متقدمة يمكن الوصول إليها على الأجهزة التي نستخدمها يوميًا. لا يستطيع Gemma 3n فهم الصوت والصور والنصوص فحسب، بل يتمتع أيضًا بدقة ممتازة، حتى أنه يتفوق على GPT-4.1 Nano في Chatbot Arena.
البنية المبتكرة لـ Gemma 3n
استعدادًا لمستقبل الذكاء الاصطناعي على الجهاز، تعاونت Google DeepMind بشكل وثيق مع قادة الأجهزة المحمولة مثل Qualcomm Technologies وMediaTek وSamsung System LSI لتطوير بنية جديدة تمامًا.
تهدف هذه البنية إلى تحسين أداء الذكاء الاصطناعي التوليدي على الأجهزة ذات الموارد المحدودة (مثل الهواتف والأجهزة اللوحية وأجهزة الكمبيوتر المحمولة). لتحقيق هذا الهدف، تستخدم البنية ثلاثة ابتكارات رئيسية: التضمين التدريجي للطبقة (PLE)، وبنية MatFormer، وتحميل المعلمات المشروطة.
ذاكرة التخزين المؤقت PLE: تجاوز قيود الذاكرة
ذاكرة التخزين المؤقت PLE هي آلية بارعة تسمح للنموذج بتفريغ معلمات التضمين التدريجي للطبقة إلى ذاكرة خارجية سريعة، مما يقلل بشكل كبير من استخدام الذاكرة دون التضحية بالأداء. يتم إنشاء هذه المعلمات خارج ذاكرة تشغيل النموذج واسترجاعها عند الحاجة أثناء التنفيذ، مما يتيح التشغيل الفعال حتى على الأجهزة ذات الموارد المحدودة.
تخيل أنك تقوم بتشغيل نموذج ذكاء اصطناعي معقد، ولكن ذاكرة جهازك محدودة. تعمل ذاكرة التخزين المؤقت PLE مثل أمين مكتبة ذكي يقوم بتخزين الكتب (المعلمات) غير المستخدمة بشكل متكرر في مستودع قريب (ذاكرة خارجية). عندما يحتاج النموذج إلى هذه المعلمات، يقوم أمين المكتبة باسترجاعها بسرعة، مما يضمن قدرة النموذج على العمل بسلاسة دون شغل مساحة ذاكرة قيمة.
على وجه التحديد، تعمل ذاكرة التخزين المؤقت PLE على تحسين استخدام الذاكرة والأداء بالطرق التالية:
تقليل مساحة الذاكرة: من خلال تخزين المعلمات غير المستخدمة بشكل متكرر في الذاكرة الخارجية، يمكن لذاكرة التخزين المؤقت PLE تقليل مقدار الذاكرة التي يحتاجها النموذج أثناء التشغيل. وهذا يجعل تشغيل نماذج الذكاء الاصطناعي الكبيرة ممكنًا على الأجهزة ذات الموارد المحدودة.
تحسين الأداء: على الرغم من أن استرجاع المعلمات من الذاكرة الخارجية يستغرق بعض الوقت، إلا أن ذاكرة التخزين المؤقت PLE تقلل من زمن الوصول عن طريق التنبؤ بذكاء بالمعلمات التي سيتم استخدامها في المستقبل وتحميلها مسبقًا في ذاكرة التخزين المؤقت. يضمن ذلك قدرة النموذج على العمل بسرعة شبه فورية.
دعم النماذج الأكبر: من خلال تقليل متطلبات الذاكرة، تتيح لنا ذاكرة التخزين المؤقت PLE إنشاء نماذج ذكاء اصطناعي أكبر وأكثر تعقيدًا. تتمتع هذه النماذج بقدرة تعبيرية أكبر وقادرة على إكمال مهام أكثر تعقيدًا.
بنية MatFormer: تصميم متطور مثل دمية متداخلة
تقدم بنية Matryoshka Transformer (MatFormer) تصميم Transformer متداخلًا حيث يتم تضمين النماذج الفرعية الأصغر في نماذج أكبر، على غرار الدمى الروسية المتداخلة. يسمح هذا الهيكل بتفعيل النماذج الفرعية بشكل انتقائي، مما يمكّن النموذج من تعديل حجمه واحتياجاته الحسابية ديناميكيًا وفقًا للمهمة. تقلل هذه المرونة من التكاليف الحسابية وأوقات الاستجابة واستهلاك الطاقة، مما يجعلها مثالية للنشر على الحافة والسحابة.
الفكرة الأساسية وراء بنية MatFormer هي أن ليست كل المهام تتطلب نموذج ذكاء اصطناعي كامل. بالنسبة للمهام البسيطة، من الضروري تفعيل النماذج الفرعية الأصغر فقط، وبالتالي توفير الموارد الحسابية. بالنسبة للمهام المعقدة، يمكن تفعيل النماذج الفرعية الأكبر لتحقيق دقة أعلى.
دعنا نوضح مزايا بنية MatFormer بمثال. لنفترض أنك تستخدم نموذج ذكاء اصطناعي للتعرف على الكائنات في الصور. بالنسبة للصور البسيطة، مثل الصور التي تحتوي على كائن واحد فقط، يمكن تفعيل نموذج فرعي أصغر متخصص في التعرف على هذا النوع المحدد من الكائنات. بالنسبة للصور المعقدة، مثل الصور التي تحتوي على كائنات متعددة، يمكن تفعيل نموذج فرعي أكبر قادر على التعرف على مجموعة متنوعة من الكائنات المختلفة.
مزايا بنية MatFormer هي:
تقليل التكاليف الحسابية: من خلال تفعيل النماذج الفرعية المطلوبة فقط، يمكن لبنية MatFormer تقليل التكاليف الحسابية بشكل كبير. هذا أمر بالغ الأهمية لتشغيل نماذج الذكاء الاصطناعي على الأجهزة ذات الموارد المحدودة.
تقصير أوقات الاستجابة: نظرًا لأن بنية MatFormer يمكنها تعديل حجم النموذج ديناميكيًا وفقًا للمهمة، فيمكنها تقصير أوقات الاستجابة. يتيح ذلك لنماذج الذكاء الاصطناعي الاستجابة لطلبات المستخدمين بشكل أسرع.
تقليل استهلاك الطاقة: من خلال تقليل التكاليف الحسابية، يمكن لبنية MatFormer أيضًا تقليل استهلاك الطاقة. هذا أمر بالغ الأهمية لإطالة عمر البطارية.
تحميل المعلمات المشروطة: تحميل عند الطلب وتحسين الموارد
يسمح تحميل المعلمات المشروطة للمطورين بتخطي تحميل المعلمات غير المستخدمة (مثل المعلمات المستخدمة في معالجة الصوت أو المرئيات) في الذاكرة. يمكن تحميل هذه المعلمات ديناميكيًا في وقت التشغيل إذا لزم الأمر، مما يزيد من تحسين استخدام الذاكرة وتمكين النموذج من التكيف مع مجموعة متنوعة من الأجهزة والمهام.
تخيل أنك تستخدم نموذج ذكاء اصطناعي لمعالجة النص. إذا كانت مهمتك لا تتطلب أي معالجة صوتية أو مرئية، فسيكون تحميل المعلمات المستخدمة في معالجة الصوت أو المرئيات بمثابة إهدار للموارد. يسمح تحميل المعلمات المشروطة للنموذج بتحميل المعلمات المطلوبة فقط، وبالتالي تقليل استخدام الذاكرة وتحسين الأداء.
إليك طريقة عمل تحميل المعلمات المشروطة:
- يحلل النموذج المهمة الحالية لتحديد المعلمات المطلوبة.
- يقوم النموذج بتحميل المعلمات المطلوبة فقط في الذاكرة.
- عند اكتمال المهمة، يحرر النموذج المعلمات التي لم تعد مطلوبة.
مزايا تحميل المعلمات المشروطة هي:
تحسين استخدام الذاكرة: من خلال تحميل المعلمات المطلوبة فقط، يمكن لتحميل المعلمات المشروطة تحسين استخدام الذاكرة بشكل كبير. هذا أمر بالغ الأهمية لتشغيل نماذج الذكاء الاصطناعي على الأجهزة ذات الموارد المحدودة.
تحسين الأداء: من خلال تقليل عدد المعلمات التي يتم تحميلها، يمكن لتحميل المعلمات المشروطة تحسين الأداء. يتيح ذلك لنماذج الذكاء الاصطناعي الاستجابة لطلبات المستخدمين بشكل أسرع.
دعم مجموعة واسعة من الأجهزة: من خلال تحسين استخدام الذاكرة، يتيح تحميل المعلمات المشروطة تشغيل نماذج الذكاء الاصطناعي على مجموعة واسعة من الأجهزة، بما في ذلك الأجهزة ذات الذاكرة المحدودة.
الميزات الرائعة لـ Gemma 3n
يقدم Gemma 3n عددًا من التقنيات والميزات المبتكرة التي تعيد تعريف إمكانيات الذكاء الاصطناعي على الجهاز.
دعنا نتعمق في وظائفها الرئيسية:
الأداء والكفاءة المحسّنة على الجهاز: Gemma 3n أسرع بحوالي 1.5 مرة من سابقاتها (Gemma 3 4B) مع الحفاظ على جودة إخراج أعلى بشكل ملحوظ. هذا يعني أنه يمكنك الحصول على نتائج أكثر دقة بشكل أسرع على جهازك دون الحاجة إلى الاعتماد على اتصال سحابي.
ذاكرة التخزين المؤقت PLE: يمكّن نظام ذاكرة التخزين المؤقت PLE Gemma 3n من تخزين المعلمات في ذاكرة محلية سريعة، مما يقلل من مساحة الذاكرة ويحسن الأداء.
بنية MatFormer: تستخدم Gemma 3n بنية MatFormer، التي تقوم بشكل انتقائي بتنشيط معلمات النموذج بناءً على طلبات محددة. يتيح ذلك للنموذج تعديل حجمه واحتياجاته الحسابية ديناميكيًا، وبالتالي تحسين استخدام الموارد.
تحميل المعلمات المشروطة: لتوفير موارد الذاكرة، يمكن لـ Gemma 3n تجاوز تحميل المعلمات غير الضرورية، على سبيل المثال، عن طريق عدم تحميل المعلمات المقابلة عند عدم الحاجة إلى الرؤية أو الصوت. هذا يزيد من الكفاءة ويقلل من استهلاك الطاقة.
إعطاء الأولوية للخصوصية والجاهزية للاستخدام دون اتصال: يضمن تشغيل وظائف الذكاء الاصطناعي محليًا دون الحاجة إلى اتصال بالإنترنت خصوصية المستخدم. هذا يعني أن بياناتك لا تترك جهازك ويمكنك استخدام وظائف الذكاء الاصطناعي بدون اتصال شبكة.
فهم متعدد الوسائط: يوفر Gemma 3n دعمًا متقدمًا لـ الإشارات الصوتية والنص والصورة والفيديو، مما يتيح تفاعلات معقدة ومتعددة الوسائط في الوقت الف الفعلي. يمكّن هذا نموذج الذكاء الاصطناعي من فهم مجموعة متنوعة من المدخلات والاستجابة لها ، مما يوفر تجربة مستخدم أكثر طبيعية وبديهية.
وظائف التسجيل الصوتي: يوفر التعرف التلقائي على الكلام (ASR) وترجمة الكلام إلى نص، مع نسخ عالية الجودة ودعم متعدد اللغات. هذا يعني أنه يمكنك استخدام Gemma 3n لتحويل الكلمات المنطوقة إلى نص وترجمة الكلام من لغة إلى أخرى.
قدرات محسّنة متعددة اللغات: تحسينات كبيرة في الأداء للغات مثل اليابانية والألمانية والكورية والإسبانية والفرنسية. يمكّن هذا Gemma 3n من فهم وإنشاء نص بمجموعة متنوعة من اللغات المختلفة بدقة أكبر.
سياق الرمز المميز 32K: يمكنه معالجة كميات كبيرة من البيانات في طلب واحد، مما يتيح محادثات أطول ومهام أكثر تعقيدًا. هذا يعني أنه يمكنك تزويد Gemma 3n بإدخالات نصية أطول دون الحاجة إلى القلق بشأن تجاوز نافذة السياق الخاصة به.
البدء السريع مع Gemma 3n
يعد البدء في استخدام Gemma 3n أمرًا بسيطًا للغاية، ويمكن للمطورين استكشاف هذا النموذج القوي ودمجه من خلال طريقتين رئيسيتين.
1. Google AI Studio: النماذج الأولية السريعة
ما عليك سوى تسجيل الدخول إلى Google AI Studio، والانتقال إلى الاستوديو، وتحديد نموذج Gemma 3n E4B، ثم يمكنك البدء في استكشاف وظائف Gemma 3n. هذا الاستوديو مثالي للمطورين الذين يتطلعون إلى إنشاء نماذج أولية سريعة واختبار الأفكار قبل التنفيذ الكامل.
يمكنك الحصول على مفتاح واجهة برمجة التطبيقات ودمج النموذج في روبوت المحادثة الآلي الخاص بك ، خاصة من خلال تطبيق Msty.
بالإضافة إلى ذلك، يمكنك استخدام Google GenAI Python SDK، وهو ما يتطلب بضعة أسطر من التعليمات البرمجية لدمج النموذج في تطبيقك الخاص. هذا يجعل دمج Gemma 3n في مشاريعك أمرًا سهلاً للغاية.
2. التطوير على الجهاز باستخدام Google AI Edge: إنشاء تطبيقات أصلية
بالنسبة للمطورين الذين يتطلعون إلى دمج Gemma 3n مباشرة في تطبيقاتهم، يوفر Google AI Edge الأدوات والمكتبات المطلوبة للتطوير على الجهاز على أجهزة Android وChrome. هذه الطريقة مثالية لإنشاء تطبيقات تستفيد من وظائف Gemma 3n محليًا.
يوفر Google AI Edge مجموعة من الأدوات والمكتبات التي تسهل على المطورين دمج Gemma 3n في تطبيقاتهم. تشمل هذه الأدوات:
- TensorFlow Lite: إطار عمل خفيف الوزن لتشغيل نماذج الذكاء الاصطناعي على الأجهزة المحمولة.
- ML Kit: مجموعة من واجهات برمجة التطبيقات لإضافة وظائف التعلم الآلي إلى تطبيقات الأجهزة المحمولة.
- واجهة برمجة تطبيقات الشبكات العصبية (NNAPI) لنظام Android: واجهة برمجة تطبيقات لاستخدام مسرعات الأجهزة على الجهاز لتشغيل نماذج الذكاء الاصطناعي.
باستخدام Google AI Edge، يمكن للمطورين إنشاء مجموعة متنوعة من التطبيقات المبتكرة، بما في ذلك:
- التعرف على الصوت غير المتصل بالإنترنت: يسمح للمستخدمين باستخدام الأوامر الصوتية للتحكم في أجهزتهم دون اتصال بالإنترنت.
- التعرف على الصور في الوقت الفعلي: يسمح للمستخدمين بالتعرف على الكائنات الموجودة في الصور دون الحاجة إلى تحميل الصور إلى السحابة.
- إنشاء نصوص ذكية: يسمح للمستخدمين بإنشاء مجموعة متنوعة من أنواع النصوص، مثل رسائل البريد الإلكتروني والمقالات ورمز المصدر.