Gemma 3n: الكشف عن القوة الكامنة
يتم تقديم Gemma 3n في متغيرين متميزين للمعلمات: Gemma 3n 2B و Gemma 3n 4B. تم تجهيز كلتا العمليتين للتعامل مع مدخلات النصوص والصور، مع دعم الصوت المقرر دمجه في المستقبل القريب، وفقًا لتقديرات Google. هذا يدل على قفزة كبيرة في الحجم مقارنة بسابقه، Gemma 3 1B غير متعدد الوسائط، والذي ظهر لأول مرة في وقت سابق من هذا العام وتطلب 529 ميجابايت فقط لإدارة 2585 رمزًا مثيرًا للإعجاب في الثانية على وحدة معالجة الرسومات المحمولة.
وفقًا للمواصفات الفنية لـ Google، تستفيد Gemma 3n من تنشيط المعلمات الانتقائي، وهي تقنية مبتكرة مصممة للإدارة الفعالة للمعلمات. وهذا يعني أن النموذجين يشتملان على عدد أكبر من المعلمات من 2B أو 4B التي يتم تشغيلها بنشاط أثناء الاستدلال. يعمل هذا النهج الاستراتيجي على تحسين استخدام الموارد وتحسين الأداء.
الضبط الدقيق والتكميم: إطلاق العنان للتخصيص
تؤكد Google على قدرة المطورين على ضبط النموذج الأساسي بدقة ثم تحويله وتكميمه باستخدام أدوات التكميم المتطورة التي يمكن الوصول إليها من خلال Google AI Edge. يمكّن هذا المطورين من تصميم النموذج لتطبيقات معينة وتحسين خصائص أدائه.
تكامل RAG: إثراء النماذج اللغوية ببيانات السياق
كبديل للضبط الدقيق، يمكن نشر نماذج Gemma 3n لإنشاء مُعزَّز بالاسترجاع على الجهاز (RAG)، وهي منهجية تثري نموذجًا لغويًا ببيانات خاصة بالتطبيق. يتم تسهيل هذا التوسيع بواسطة مكتبة AI Edge RAG، وهي حصرية حاليًا لنظام Android ولكن مع خطط للتوسع إلى منصات أخرى قيد الإعداد.
تعمل مكتبة RAG من خلال مسار انسيابي يتكون من عدة مراحل رئيسية:
- استيراد البيانات: إدخال البيانات ذات الصلة في النظام.
- التقطيع والفهرسة: تقسيم البيانات وتنظيمها لاسترجاعها بكفاءة.
- توليد التضمينات: إنشاء تمثيلات متجهية للبيانات للفهم الدلالي.
- استرجاع المعلومات: تحديد واستخراج المعلومات ذات الصلة بناءً على استعلامات المستخدم.
- توليد الاستجابة: صياغة استجابات متماسكة وذات صلة بالسياق باستخدام LLM.
يمكّن هذا الإطار القوي من التخصيص الشامل لمسار RAG، بما في ذلك دعم قواعد البيانات المخصصة واستراتيجيات التجميع ووظائف الاسترجاع.
AI Edge On-device Function Calling SDK: سد الفجوة بين النماذج والإجراءات الواقعية
بالتزامن مع الكشف عن Gemma 3n، قدمت Google AI Edge On-device Function Calling SDK، وهي متاحة في البداية فقط على Android. يمكّن هذا SDK النماذج من استدعاء وظائف معينة، وبالتالي تنفيذ إجراءات واقعية.
لدمج LLM بسلاسة مع وظيفة خارجية، يجب وصف الوظيفة بدقة من خلال تحديد اسمها وسرد وصفي يوضح متى يجب على LLM استخدامها والمعلمات المطلوبة. يتم تغليف هذه البيانات الوصفية داخل كائن أداة
، والذي يتم تمريره لاحقًا إلى نموذج اللغة الكبير عبر مُنشئ GenerativeModel
. يتضمن Function Calling SDK دعمًا لتلقي استدعاءات الوظائف من LLM بناءً على الوصف المقدم وإعادة نتائج التنفيذ إلى LLM.
استكشاف الإمكانات: معرض Google AI Edge
بالنسبة لأولئك المتحمسين للتعمق أكثر في هذه الأدوات الرائدة، فإن معرض Google AI Edge يقف كمورد لا يقدر بثمن. يعرض هذا التطبيق التجريبي مجموعة متنوعة من النماذج ويسهل معالجة النصوص والصور والصوت.
التعمق أكثر: الفروق الدقيقة في Gemma 3n ونظامها البيئي
يمثل ظهور Gemma 3n خطوة كبيرة في تطور التعلم الآلي على الجهاز، حيث يقدم مزيجًا قويًا من الكفاءة والقدرة على التكيف والوظائف. إن قدراته متعددة الوسائط، جنبًا إلى جنب مع دعم RAG واستدعاء الوظائف، تفتح عددًا لا يحصى من الاحتمالات للمطورين الذين يسعون إلى إنشاء تطبيقات ذكية وواعية بالسياق.
تنشيط المعلمات الانتقائي: نظرة متعمقة
تستحق تقنية تنشيط المعلمات الانتقائية التي تستخدمها Gemma 3n فحصًا دقيقًا. يتيح هذا النهج المبتكر للنموذج تنشيط المعلمات الضرورية فقط لمهمة معينة ديناميكيًا، وبالتالي تقليل النفقات العامة للحساب وزيادة الكفاءة إلى أقصى حد. هذا أمر بالغ الأهمية بشكل خاص للنشر على الجهاز، حيث غالبًا ما تكون الموارد محدودة.
يكمن المبدأ الأساسي وراء تنشيط المعلمات الانتقائي في ملاحظة أنه ليست جميع المعلمات في الشبكة العصبية ذات أهمية متساوية لجميع المهام. من خلال تنشيط المعلمات الأكثر صلة فقط بشكل انتقائي، يمكن للنموذج تحقيق أداء مماثل بتكلفة حسابية أقل بكثير.
يتضمن تنفيذ تنشيط المعلمات الانتقائي عادةً آلية لتحديد المعلمات المراد تنشيطها لإدخال معين. يمكن تحقيق ذلك من خلال تقنيات مختلفة، مثل:
- آليات الانتباه: الانتباه إلى الأجزاء الأكثر صلة من الإدخال وتنشيط المعلمات المقابلة.
- آليات البوابة: استخدام وظيفة البوابة للتحكم في تدفق المعلومات عبر أجزاء مختلفة من الشبكة.
- التدريب المتقطع: تدريب الشبكة لتعلم الاتصالات المتفرقة، بحيث تكون مجموعة فرعية فقط من المعلمات نشطة أثناء الاستدلال.
يعتمد اختيار التقنية على البنية المحددة للنموذج وخصائص المهمة. ومع ذلك، فإن الهدف الشامل هو تحديد وتنشيط المعلمات الأكثر صلة بالإدخال المحدد فقط، وبالتالي تقليل التكلفة الحسابية وتحسين الكفاءة.
RAG: زيادة المعرفة والسياق
يمثل الاسترجاع المعزز بالجيل (RAG) نقلة نوعية في الطريقة التي يتم بها استخدام النماذج اللغوية. من خلال دمج مصادر المعرفة الخارجية، يمكّن RAG النماذج اللغوية من إنشاء استجابات أكثر استنارة ودقة وذات صلة بالسياق.
يتكون مسار RAG من عدة مراحل رئيسية:
- فهرسة البيانات: في هذه المرحلة، يتم فهرسة مصدر المعرفة الخارجي لتمكين الاسترجاع الفعال للمعلومات ذات الصلة. يتضمن هذا عادةً إنشاء تمثيل متجهي لكل مستند في مصدر المعرفة، والذي يمكن استخدامه بعد ذلك لتحديد المستندات المشابهة لاستعلام معين بسرعة.
- استرجاع المعلومات: عند تلقي استعلام، يقوم نظام RAG باسترجاع المستندات الأكثر صلة من مصدر المعرفة المفهرس. يتم ذلك عادةً باستخدام خوارزمية البحث عن التشابه، والتي تقارن التمثيل المتجهي للاستعلام بالتمثيلات المتجهية للمستندات في مصدر المعرفة.
- السياق: يتم بعد ذلك استخدام المستندات المسترجعة لزيادة سياق الاستعلام. يمكن القيام بذلك ببساطة عن طريق ربط المستندات المسترجعة بالاستعلام، أو باستخدام تقنية أكثر تطوراً لدمج المعلومات من المستندات المسترجعة في تمثيل الاستعلام.
- توليد الاستجابة: أخيرًا، يتم تغذية الاستعلام المعزز في نموذج لغوي، والذي يولد استجابة بناءً على المعلومات المجمعة من الاستعلام والمستندات المسترجعة.
يقدم RAG العديد من المزايا على النماذج اللغوية التقليدية:
- زيادة الدقة: من خلال دمج المعرفة الخارجية، يمكن لنماذج RAG إنشاء استجابات أكثر دقة وواقعية.
- تحسين الفهم السياقي: يمكن لنماذج RAG فهم سياق الاستعلام بشكل أفضل من خلال الاستفادة من المعلومات الموجودة في المستندات المسترجعة.
- تقليل الهلوسة: من غير المرجح أن تهلوس نماذج RAG أو تولد ردودًا غير منطقية، لأنها تستند إلى معرفة خارجية.
- القدرة على التكيف مع المعلومات الجديدة: يمكن لنماذج RAG التكيف بسهولة مع المعلومات الجديدة ببساطة عن طريق تحديث مصدر المعرفة المفهرس.
استدعاء الوظائف: التفاعل مع العالم الحقيقي
يمثل AI Edge On-device Function Calling SDK خطوة مهمة نحو تمكين النماذج اللغوية من التفاعل مع العالم الحقيقي. من خلال السماح للنماذج باستدعاء وظائف خارجية، يفتح SDK نطاقًا واسعًا من الاحتمالات لإنشاء تطبيقات ذكية وواعية بالسياق.
تتضمن عملية استدعاء الوظيفة عادةً الخطوات التالية:
- تعريف الوظيفة: يحدد المطور الوظائف التي يمكن للنموذج اللغوي استدعاؤها. يتضمن ذلك تحديد اسم الوظيفة ووصف لما تفعله الوظيفة والمعلمات التي تقبلها الوظيفة.
- إنشاء كائن الأداة: يقوم المطور بإنشاء كائن
أداة
يغلف تعريف الوظيفة. ثم يتم تمرير هذا الكائن إلى النموذج اللغوي. - إنشاء استدعاء الوظيفة: عندما يحتاج النموذج اللغوي إلى تنفيذ إجراء واقعي، فإنه ينشئ استدعاء وظيفة. يتضمن هذا الاستدعاء اسم الوظيفة المراد استدعاؤها وقيم المعلمات التي سيتم تمريرها إلى الوظيفة.
- تنفيذ الوظيفة: يتم بعد ذلك تنفيذ استدعاء الوظيفة بواسطة النظام. يتضمن هذا عادةً استدعاء واجهة برمجة التطبيقات أو الخدمة المقابلة.
- نقل النتائج: يتم بعد ذلك إرسال نتائج تنفيذ الوظيفة مرة أخرى إلى النموذج اللغوي.
- توليد الاستجابة: أخيرًا، يستخدم النموذج اللغوي نتائج تنفيذ الوظيفة لتوليد استجابة.
يمكّن Function Calling SDK النماذج اللغوية من أداء مجموعة واسعة من المهام، مثل:
- الوصول إلى المعلومات من مصادر خارجية: يمكن للنموذج استدعاء وظائف لاسترداد المعلومات من قواعد البيانات وواجهات برمجة التطبيقات والمصادر الخارجية الأخرى.
- التحكم في الأجهزة والأجهزة: يمكن للنموذج استدعاء وظائف للتحكم في أجهزة المنزل الذكي، مثل الأضواء ومنظمات الحرارة والأجهزة.
- إجراء المعاملات: يمكن للنموذج استدعاء وظائف لإجراء معاملات مالية، مثل إجراء المدفوعات وتحويل الأموال.
- أتمتة المهام: يمكن للنموذج استدعاء وظائف لأتمتة المهام المعقدة، مثل تحديد المواعيد وإرسال رسائل البريد الإلكتروني.
معرض Google AI Edge: عرض للابتكار
يعمل معرض Google AI Edge كمنصة حيوية لعرض قدرات Gemma 3n وأدواتها المرتبطة. من خلال توفير بيئة تفاعلية حيث يمكن للمطورين تجربة هذه التقنيات، يعزز المعرض الابتكار ويسرع تطوير تطبيقات جديدة.
يتميز المعرض بمجموعة متنوعة من النماذج والعروض التوضيحية، التي تعرض إمكانات Gemma 3n لمهام مختلفة، مثل:
- التعرف على الصور: تحديد الكائنات والمشاهد في الصور.
- معالجة اللغة الطبيعية: فهم وإنشاء اللغة البشرية.
- التعرف على الكلام: نسخ اللغة المنطوقة إلى نص.
- معالجة الصوت: تحليل ومعالجة الإشارات الصوتية.
يوفر المعرض أيضًا الوصول إلى AI Edge SDKs، مما يمكّن المطورين من دمج هذه التقنيات في تطبيقاتهم الخاصة.
مستقبل التعلم الآلي على الجهاز
يبشر ظهور Gemma 3n ونظامها البيئي المصاحب بعصر جديد للتعلم الآلي على الجهاز. من خلال الجمع بين الكفاءة والقدرة على التكيف والوظائف، يمكّن Gemma 3n المطورين من إنشاء تطبيقات ذكية وواعية بالسياق يمكن تشغيلها مباشرة على الأجهزة، دون الحاجة إلى اتصال دائم بالإنترنت.
هذا له آثار عميقة على مختلف الصناعات، بما في ذلك:
- الجوال: تمكين تطبيقات الأجهزة المحمولة الأكثر ذكاءً واستجابة.
- إنترنت الأشياء: تشغيل الأجهزة الذكية التي يمكنها العمل بشكل مستقل وتلقائي.
- السيارات: تعزيز السلامة والراحة للمركبات ذاتية القيادة.
- الرعاية الصحية: تحسين دقة وكفاءة التشخيص والعلاج الطبي.
مع استمرار تطور تقنيات التعلم الآلي على الجهاز، يمكننا أن نتوقع رؤية المزيد من التطبيقات المبتكرة والمؤثرة تظهر في السنوات القادمة. يمثل Gemma 3n خطوة مهمة في هذه الرحلة، مما يمهد الطريق لمستقبل يتم فيه دمج الذكاء بسلاسة في حياتنا اليومية.