جوجل تكشف عن نماذج QAT لـ 'Gemma 3'

فهم ‘Gemma 3’

‘Gemma 3’ هي عائلة من النماذج مفتوحة الوزن وخفيفة الوزن وعالية الأداء طورتها جوجل. تعتمد على نفس البحث والتكنولوجيا التي تعتمد عليها نماذج جوجل ‘Gemini 2.0’. تتوفر ‘Gemma 3’ بأربعة أحجام للمعلمات: 1B و 4B و 12B و 27B. وقد رسخت مكانتها كنموذج رائد يعمل بدقة BF16 الأصلية على وحدات معالجة الرسومات المتطورة مثل NVIDIA H100.

تتمثل إحدى المزايا الهامة لنماذج QAT الخاصة بـ ‘Gemma 3’ في قدرتها على الحفاظ على جودة عالية مع تقليل متطلبات الذاكرة بشكل كبير. هذا أمر بالغ الأهمية لأنه يسمح للنماذج عالية الأداء مثل ‘Gemma 3 27B’ بالعمل محليًا على وحدات معالجة الرسومات من فئة المستهلك مثل NVIDIA GeForce RTX 3090.

الدافع وراء نماذج QAT

في مقارنات الأداء، غالبًا ما يتم استخدام BF16. ومع ذلك، عند نشر نماذج كبيرة، يتم أحيانًا استخدام تنسيقات أقل دقة مثل FP8 (8 بت) لتقليل متطلبات الأجهزة (مثل عدد وحدات معالجة الرسومات)، حتى على حساب الأداء. هناك طلب كبير على استخدام ‘Gemma 3’ مع الأجهزة الموجودة.

هنا يأتي دور التكميم. في نماذج الذكاء الاصطناعي، يقلل التكميم من دقة الأرقام (معلمات النموذج) التي يستخدمها النموذج لتخزين الحسابات والاستجابات. هذا مشابه لضغط صورة عن طريق تقليل عدد الألوان المستخدمة. بدلًا من تمثيل المعلمات بـ 16 بت (BF16)، يمكن تمثيلها بعدد أقل من البتات، مثل 8 بت (INT8) أو 4 بت (INT4).

ومع ذلك، غالبًا ما يؤدي التكميم إلى انخفاض في الأداء. للحفاظ على الجودة، تستخدم جوجل QAT. بدلًا من تكميم النموذج بعد تدريبه بالكامل، تدمج QAT عملية التكميم في التدريب نفسه. من خلال محاكاة عمليات الدقة المنخفضة أثناء التدريب، تقلل QAT من تدهور الأداء بعد التدريب. ينتج عن هذا نماذج أصغر وأسرع مع الحفاظ على الدقة.

توفيرات كبيرة في VRAM

تذكر جوجل أن تكميم INT4 يقلل بشكل كبير من VRAM (ذاكرة وحدة معالجة الرسومات) المطلوبة لتحميل النموذج مقارنة باستخدام BF16، على النحو التالي:

  • ‘Gemma 3 27B’: 54 جيجابايت (BF16) إلى 14.1 جيجابايت (INT4)
  • ‘Gemma 3 12B’: 24 جيجابايت (BF16) إلى 6.6 جيجابايت (INT4)
  • ‘Gemma 3 4B’: 8 جيجابايت (BF16) إلى 2.6 جيجابايت (INT4)
  • ‘Gemma 3 1B’: 2 جيجابايت (BF16) إلى 0.5 جيجابايت (INT4)

تعتبر هذه التخفيضات في حجم الذاكرة ذات أهمية قصوى لإضفاء الطابع الديمقراطي على الوصول إلى نماذج الذكاء الاصطناعي القوية، مما يسمح بنشرها على الأجهزة ذات الموارد المحدودة.

تمكين نماذج ‘Gemma 3’ على أجهزة مختلفة

وفقًا لجوجل، تمكن QAT نماذج ‘Gemma 3’ القوية من العمل على مجموعة واسعة من أجهزة المستهلك.

  • ‘Gemma 3 27B (INT4 QAT)’: يمكن تحميله وتشغيله محليًا بشكل مريح على سطح مكتب مزود ببطاقة NVIDIA GeForce RTX 3090 (24 جيجابايت VRAM) أو بطاقة مكافئة، مما يسمح للمستخدمين باستخدام أكبر نموذج ‘Gemma 3’.

  • ‘Gemma 3 12B (INT4 QAT)’: يمكن تشغيله بكفاءة على وحدات معالجة الرسومات المحمولة مثل NVIDIA GeForce RTX 4060 Laptop GPU (8 جيجابايت VRAM)، مما يتيح قدرات الذكاء الاصطناعي القوية على الأجهزة المحمولة.

  • النماذج الأصغر (4B، 1B): أصبحت أكثر سهولة للأنظمة ذات الموارد المحدودة، مثل الهواتف الذكية.

يؤدي هذا التوسع في توافق الأجهزة إلى توسيع التطبيقات المحتملة لـ ‘Gemma 3’ بشكل كبير، مما يجعلها متاحة لجمهور أكبر من المطورين والمستخدمين. تفتح القدرة على تشغيل هذه النماذج على أجهزة المستهلك آفاقًا جديدة للمعالجة المحلية للذكاء الاصطناعي، مما يقلل الاعتماد على الخدمات المستندة إلى السحابة ويعزز الخصوصية.

سهولة التكامل مع الأدوات الشائعة

حرصت جوجل على أن يتمكن المطورون من استخدام نماذج QAT الجديدة هذه ضمن مهام سير العمل المألوفة. تتوفر نماذج INT4 QAT و Q4\_0 (4 بت) QAT لـ ‘Gemma 3’ على Hugging Face و Kaggle. يمكن اختبارها بسلاسة باستخدام أدوات المطورين الشائعة، مثل:

  • Ollama: يسمح للمستخدمين بتشغيل نماذج ‘Gemma 3’ QAT بأوامر بسيطة. يعمل Ollama على تبسيط عملية نشر هذه النماذج والتجربة بها، مما يسهل على المطورين دمجها في مشاريعهم.

  • LM Studio: يوفر واجهة مستخدم رسومية بديهية وسهلة الاستخدام تتيح للمستخدمين تنزيل نماذج ‘Gemma 3’ QAT وتشغيلها بسهولة على أجهزة سطح المكتب الخاصة بهم. يبسط LM Studio تثبيت وإدارة نماذج الذكاء الاصطناعي، مما يجعلها أكثر سهولة للمستخدمين غير التقنيين.

  • MLX: يتيح استنتاجًا مُحسَّنًا وفعالًا لنماذج ‘Gemma 3’ QAT على أجهزة Mac التي تعمل بمعالج Apple silicon. تستفيد MLX من البنية الفريدة لمعالج Apple silicon لتقديم أداء وكفاءة طاقة محسّنين لأحمال عمل الذكاء الاصطناعي.

  • Gemma.cpp: تطبيق C++ المخصص من Google. يسمح باستنتاج فعال للغاية مباشرة على وحدة المعالجة المركزية. يوفر Gemma.cpp واجهة منخفضة المستوى للمطورين الذين يرغبون في ضبط أداء تطبيقات الذكاء الاصطناعي الخاصة بهم بدقة.

  • llama.cpp: يدعم أصلاً نماذج ‘Gemma 3’ QAT بتنسيق GGUF، مما يسهل دمجها في مهام سير العمل الحالية. Llama.cpp هي مكتبة شائعة لتشغيل نماذج اللغة الكبيرة على مجموعة متنوعة من منصات الأجهزة، بما في ذلك وحدات المعالجة المركزية ووحدات معالجة الرسومات.

إن توفر نماذج ‘Gemma 3’ QAT على هذه المنصات وتوافقها مع الأدوات الشائعة يقلل بشكل كبير من حاجز الدخول للمطورين الذين يرغبون في الاستفادة من هذه النماذج في مشاريعهم. تشجع سهولة التكامل هذه على التجريب والابتكار، مما يؤدي إلى مجموعة واسعة من التطبيقات لـ ‘Gemma 3’.

الأسس التقنية للتدريب المدرك للتكميم

لتقدير أهمية نماذج QAT الخاصة بجوجل لـ ‘Gemma 3’ بشكل كامل، من المهم الخوض في التفاصيل التقنية للتكميم وكيف تعالج QAT التحديات المرتبطة بها.

فهم التكميم:

التكميم هو تقنية تستخدم لتقليل حجم وتعقيد الحسابات للشبكات العصبية عن طريق تمثيل الأوزان والتنشيطات بدقة أقل. بدلًا من استخدام أرقام الفاصلة العائمة (على سبيل المثال، 32 بت أو 16 بت)، تستخدم النماذج الكمية أعدادًا صحيحة (على سبيل المثال، 8 بت أو 4 بت) لتمثيل هذه القيم. يؤدي هذا الانخفاض في الدقة إلى عدة فوائد:

  • تقليل حجم الذاكرة: تتطلب التمثيلات منخفضة الدقة ذاكرة أقل لتخزين النموذج، مما يجعل من الممكن نشر النماذج على الأجهزة ذات موارد الذاكرة المحدودة.
  • استنتاج أسرع: تكون عمليات الأعداد الصحيحة أسرع بشكل عام من عمليات الفاصلة العائمة، مما يؤدي إلى أوقات استنتاج أسرع.
  • استهلاك أقل للطاقة: تستهلك عمليات الأعداد الصحيحة طاقة أقل من عمليات الفاصلة العائمة، مما يجعل النماذج الكمية أكثر ملاءمة للأجهزة التي تعمل بالبطاريات.

تحديات التكميم:

في حين أن التكميم يوفر مزايا كبيرة، إلا أنه يطرح أيضًا تحديات:

  • تدهور الدقة: يمكن أن يؤدي تقليل دقة الأوزان والتنشيطات إلى فقدان الدقة. قد يصبح النموذج أقل قدرة على التقاط الفروق الدقيقة في البيانات، مما يؤدي إلى أداء أقل.
  • مشكلات المعايرة: نطاق القيم التي يمكن تمثيلها بالأعداد الصحيحة محدود. يمكن أن يؤدي ذلك إلى قص أو تشبع التنشيطات، مما قد يؤدي إلى مزيد من تدهور الدقة.

التدريب المدرك للتكميم (QAT): حل:

التدريب المدرك للتكميم (QAT) هو تقنية تعالج مشكلة تدهور الدقة عن طريق دمج التكميم في عملية التدريب. في QAT، يتم تدريب النموذج باستخدام التكميم المحاكي، مما يعني أن الأوزان والتنشيطات يتم تكميمها أثناء التمريرات الأمامية والخلفية للتدريب. يتيح ذلك للنموذج أن يتعلم كيفية التعويض عن آثار التكميم، مما ينتج عنه نموذج كمي أكثر دقة.

كيف تعمل QAT:

  1. التكميم المحاكي: أثناء التدريب، يتم تكميم الأوزان والتنشيطات إلى الدقة المطلوبة (على سبيل المثال، 8 بت أو 4 بت) بعد كل تمرير أمامي وخلفي. هذا يحاكي التكميم الذي سيتم تطبيقه أثناء الاستنتاج.

  2. تعديل التدرج: يتم أيضًا تعديل التدرجات لمراعاة آثار التكميم. يساعد هذا النموذج على تعلم كيفية تقليل الخطأ الناتج عن التكميم.

  3. الضبط الدقيق: بعد التدريب باستخدام التكميم المحاكي، يتم ضبط النموذج بدقة باستخدام الأوزان والتنشيطات الكمية. هذا يزيد من تحسين دقة النموذج الكمي.

فوائد QAT:

  • دقة محسنة: تعمل QAT على تحسين دقة النماذج الكمية بشكل كبير مقارنة بالتكميم بعد التدريب (PTQ)، والذي يقوم بتكميم النموذج بعد تدريبه.
  • المرونة في التكميم: تجعل QAT النموذج أكثر مرونة في مواجهة آثار التكميم، مما يجعل من الممكن تحقيق نسب ضغط أعلى دون التضحية بالدقة.
  • توافق الأجهزة: تسمح QAT بنشر النموذج على منصات الأجهزة التي تدعم عمليات الأعداد الصحيحة، مثل الأجهزة المحمولة والأنظمة المدمجة.

تنفيذ جوجل لـ QAT لـ ‘Gemma 3’:

يستفيد تنفيذ جوجل لـ QAT لـ ‘Gemma 3’ من أحدث التطورات في تقنيات التكميم لتحقيق دقة عالية ونسب ضغط عالية. التفاصيل المحددة لتنفيذها غير متاحة للجمهور، ولكن من المحتمل أنهم يستخدمون تقنيات مثل:

  • تكميم الدقة المختلطة: استخدام مستويات دقة مختلفة لأجزاء مختلفة من النموذج لتحسين الدقة والضغط.
  • تكميم لكل موتر: تكميم كل موتر بشكل مستقل لتقليل الخطأ الناتج عن التكميم.
  • معلمات التكميم القابلة للتعلم: تعلم معلمات التكميم أثناء التدريب لزيادة تحسين الدقة.

الآثار الأوسع لـ QAT و ‘Gemma 3’

يمثل إصدار نماذج QAT لـ ‘Gemma 3’ خطوة كبيرة إلى الأمام في تطوير نماذج الذكاء الاصطناعي الأكثر سهولة وكفاءة. من خلال تقليل حجم الذاكرة ومتطلبات الحساب لهذه النماذج، تمكن جوجل مجموعة واسعة من المطورين والمستخدمين من الاستفادة من قدراتها. هذا له عدة آثار مهمة:

إضفاء الطابع الديمقراطي على الذكاء الاصطناعي:

تتيح القدرة على تشغيل نماذج الذكاء الاصطناعي القوية على أجهزة المستهلك إضفاء الطابع الديمقراطي على الوصول إلى الذكاء الاصطناعي، مما يجعل من الممكن للأفراد والشركات الصغيرة تطوير ونشر التطبيقات المدعومة بالذكاء الاصطناعي دون الاعتماد على الخدمات المستندة إلى السحابة باهظة الثمن.

الحوسبة الطرفية:

تعتبر نماذج QAT مناسبة تمامًا لتطبيقات الحوسبة الطرفية، حيث تتم معالجة البيانات محليًا على الأجهزة بدلاً من السحابة. هذا يقلل من زمن الانتقال ويحسن الخصوصية ويتيح تطبيقات جديدة مثل المركبات المستقلة وأجهزة الاستشعار الذكية.

الذكاء الاصطناعي المحمول:

يجعل حجم الذاكرة المنخفض لنماذج QAT مثاليًا للأجهزة المحمولة، مما يتيح ميزات جديدة مدعومة بالذكاء الاصطناعي مثل الترجمة في الوقت الفعلي والتعرف على الصور والتوصيات المخصصة.

البحث والتطوير:

سيؤدي توفر نماذج QAT مفتوحة المصدر لـ ‘Gemma 3’ إلى تسريع البحث والتطوير في مجال الذكاء الاصطناعي، مما يسمح للباحثين بتجربة تقنيات تكميم جديدة واستكشاف تطبيقات جديدة للنماذج الكمية.

الاستدامة البيئية:

من خلال تقليل استهلاك الطاقة لنماذج الذكاء الاصطناعي، تساهم QAT في الاستدامة البيئية. هذا مهم بشكل خاص مع تزايد انتشار الذكاء الاصطناعي في حياتنا.

في الختام، يعد إصدار جوجل لنماذج QAT لـ ‘Gemma 3’ تقدمًا كبيرًا سيكون له تأثير دائم على مجال الذكاء الاصطناعي. من خلال جعل نماذج الذكاء الاصطناعي أكثر سهولة وكفاءة واستدامة، تساعد جوجل في إطلاق الإمكانات الكاملة للذكاء الاصطناعي لصالح المجتمع. يعد الجمع بين البنية القوية لـ ‘Gemma 3’ وتقنيات التكميم الفعالة لـ QAT بالدفع بالابتكار عبر مجموعة واسعة من التطبيقات، من الأجهزة المحمولة إلى الحوسبة الطرفية وما بعدها.