كسر الحاجز التسلسلي: دمج FFN من NVIDIA يعزز كفاءة LLM | ar

التحدي الحسابي للذكاء الاصطناعي الحديث

تقف نماذج اللغة الكبيرة (LLMs) كأعمدة للذكاء الاصطناعي المعاصر، حيث تُظهر قدرات رائعة تعيد تشكيل الصناعات والاكتشافات العلمية. إن كفاءتها في توليد نصوص شبيهة بالبشر، وتشغيل وكلاء محادثة متطورين، وحتى المساعدة في مهام البحث المعقدة جعلتها أدوات لا غنى عنها. في قلب هذه النماذج القوية تنبض بنية الـ transformer، وهو تصميم يتميز بطبقاته المتناوبة. تتدفق بيانات الإدخال، المقسمة إلى رموز (tokens)، عبر سلسلة من آليات الانتباه (attention mechanisms)، التي تزن أهمية الرموز المختلفة، تليها شبكات التغذية الأمامية (FFNs)، التي تعالج المعلومات المكتسبة. هذه المعالجة المتسلسلة والطبقية أساسية لكيفية تعلم الـ transformers وتوليد المخرجات.

ومع ذلك، فإن هذه البنية ذاتها، على الرغم من فعاليتها، تمثل تحديًا متزايدًا مع تضخم النماذج في الحجم والتعقيد. الطبيعة التسلسلية تعني أن كل طبقة يجب أن تنتظر عمومًا حتى تكمل الطبقة السابقة حساباتها قبل أن تبدأ. تخلق هذه المعالجة خطوة بخطوة عنق زجاجة متأصل، لا سيما خلال مرحلة الاستدلال (inference phase) – المرحلة التي يتم فيها استخدام النموذج المدرب بالفعل لتوليد التنبؤات أو النصوص. مع احتواء نماذج مثل تلك التي تشغل مساعدي الذكاء الاصطناعي المتقدمين على مئات المليارات، أو حتى تريليونات، من المعلمات (parameters)، تتصاعد الموارد الحسابية والوقت المطلوب للاستدلال بشكل كبير. يترجم هذا الطلب المتصاعد إلى زمن استجابة (latency) كبير (تأخير في الاستجابة)، وانخفاض في الإنتاجية (throughput) (عدد الطلبات التي تتم معالجتها بمرور الوقت)، وتكاليف تشغيلية متزايدة، مما يعيق النشر الواسع النطاق والتطبيق في الوقت الفعلي لأقوى نماذج LLMs. وبالتالي، أصبح تعزيز كفاءة الاستدلال مصدر قلق بالغ الأهمية داخل مجتمع أبحاث الذكاء الاصطناعي، مما حفز البحث عن استراتيجيات مبتكرة يمكنها تبسيط الحوسبة دون المساس بالأداء الرائع الذي تقدمه هذه النماذج. يكمن التحدي المركزي في التخفيف من القيود التي يفرضها التنفيذ التسلسلي، خاصة في البيئات الموزعة حيث تمتد الحسابات عبر وحدات معالجة رسومات (GPUs) متعددة، مما يضيف عبء الاتصال إلى وقت المعالجة.

استكشاف مشهد التحسين: الأدوات الحالية وحدودها

في الجهد المستمر لجعل نماذج LLMs أصغر حجمًا وأسرع، طور الباحثون مجموعة أدوات من تقنيات التحسين. يقدم كل منها مسارًا نحو الكفاءة، ولكنه غالبًا ما يأتي مع مجموعة من التنازلات الخاصة به، مما يمنع أي طريقة واحدة من أن تكون حلاً شاملاً. يعد فهم هذه المقايضات أمرًا بالغ الأهمية لتقدير الحاجة إلى مناهج جديدة مثل FFN Fusion.

إحدى التقنيات البارزة هي التكميم (quantization). يتضمن ذلك تقليل الدقة العددية المستخدمة لتمثيل أوزان النموذج وتنشيطاته. بدلاً من استخدام أرقام الفاصلة العائمة القياسية 32 بت، قد تستخدم النماذج تمثيلات 16 بت أو 8 بت أو حتى أقل. يؤدي هذا إلى تقليص حجم ذاكرة النموذج بشكل مباشر ويمكن أن يسرع العمليات الحسابية بشكل كبير، حيث تكون العمليات على الأرقام ذات الدقة المنخفضة أسرع عادةً وتتطلب طاقة أقل. ومع ذلك، فإن التكميم لا يخلو من المخاطر. يمكن أن يؤدي تقليل الدقة إلى فقدان المعلومات، مما قد يؤدي إلى تدهور دقة النموذج. يصبح هذا الخطر أكثر وضوحًا عند استخدام عرض بت منخفض جدًا، مما يتطلب تنفيذًا دقيقًا وأحيانًا إعادة تدريب للتخفيف من انخفاض الدقة. يكمن التحدي في إيجاد النقطة المثلى التي تزيد من مكاسب الكفاءة مع الحفاظ على تدهور الأداء ضمن حدود مقبولة.

استراتيجية شائعة أخرى هي التقليم (pruning). تعمل هذه التقنية على مبدأ أن العديد من المعلمات داخل شبكة عصبية كبيرة قد تكون زائدة عن الحاجة أو تساهم بشكل ضئيل في الإخراج النهائي. تحدد خوارزميات التقليم وتزيل هذه الاتصالات أو الخلايا العصبية الأقل أهمية، مما ينتج عنه نموذج أصغر وأكثر تفرقًا (sparser). مثل التكميم، يقلل التقليم من متطلبات الذاكرة والحمل الحسابي. ومع ذلك، فإن تحديد المعلمات “الآمنة” للإزالة بدقة أمر معقد. يمكن أن يؤدي التقليم العدواني إلى إزالة المكونات الحاسمة عن غير قصد، مما يؤدي إلى خسارة كبيرة في الدقة. غالبًا ما يكون الضبط الدقيق (fine-tuning) للنموذج بعد التقليم ضروريًا لاستعادة الأداء، مما يضيف تعقيدًا إلى سير العمل. تعد المعايرة الدقيقة ضرورية لضمان بقاء النموذج المقلم فعالاً.

نهج أكثر تميزًا من الناحية المعمارية هو نموذج مزيج الخبراء (Mixture-of-Experts - MoE). بدلاً من معالجة كل إدخال عبر الشبكة بأكملها، تتكون نماذج MoE من شبكات فرعية “خبيرة” متعددة (عادةً FFNs). لكل رمز إدخال، تحدد آلية البوابة (gating mechanism) ديناميكيًا مجموعة فرعية صغيرة من هؤلاء الخبراء لإجراء الحساب. يعني هذا الحساب الشرطي أنه يتم تنشيط جزء فقط من إجمالي معلمات النموذج لأي إدخال معين، مما يؤدي إلى توفير حسابي كبير، خاصة أثناء التدريب والاستدلال على النماذج الكبيرة جدًا. يمكن لنماذج MoE التوسع إلى تريليونات من المعلمات مع الحفاظ على تكاليف حسابية معقولة. ومع ذلك، تعتمد كفاءتها بشكل كبير على عبء العمل. فهي تتفوق في التعامل مع أحجام الدُفعات الكبيرة جدًا حيث يؤدي نمط التنشيط الانتقائي إلى استخدام جيد للأجهزة. في أحجام الدُفعات الأصغر أو المتوسطة، يمكن أن تعاني نماذج MoE من عدم الاستخدام الكافي للموارد الحسابية، حيث قد لا تظل الأجهزة المتوازية مشغولة باستمرار من قبل الخبراء الذين يتم تنشيطهم بشكل متفرق. علاوة على ذلك، يمكن أن يكون تنفيذ وموازنة تحميل نماذج MoE أكثر تعقيدًا من نشر البنى “الكثيفة” القياسية.

بينما يمثل التكميم والتقليم ونماذج MoE تطورات قيمة في تحسين LLM، فإن قيودها المتأصلة تسلط الضوء على الحاجة إلى استراتيجيات بديلة أو تكميلية. يستمر البحث عن طرق يمكن أن تحقق تحسينات واسعة في الكفاءة عبر سيناريوهات مختلفة، ومن الناحية المثالية مع تنازلات أقل للدقة أو تعقيد التنفيذ، لا سيما بالنسبة للبنى النموذجية الكثيفة التي لا تزال شائعة بسبب بساطتها النسبية في التدريب والنشر.

FFN Fusion: إعادة التفكير في التوازي في Transformers

وسط هذا المشهد من تقنيات التحسين، قدم باحثون في NVIDIA نهجًا جديدًا مقنعًا يسمى FFN Fusion. تواجه هذه التقنية بشكل مباشر عنق الزجاجة التسلسلي المتأصل في بنية الـ transformer، ليس عن طريق تغيير المعلمات أو تنشيط أجزاء بشكل انتقائي، ولكن عن طريق إعادة التفكير بشكل أساسي في كيفية موازاة تسلسل الحسابات. ينبع الابتكار من ملاحظة حاسمة حول سلوك طبقات FFN داخل نماذج الـ transformer العميقة.

باستخدام أداة تشخيصية تسمى Puzzle، قام الباحثون بتحليل الأعمال الداخلية للنماذج الكبيرة. عندما قاموا بإزالة طبقات الانتباه تجريبيًا، لاحظوا أن النماذج غالبًا ما تحتفظ بتسلسلات طويلة بشكل مدهش من طبقات FFN المتتالية. والأهم من ذلك، كشف التحليل أن الحسابات التي تجريها هذه الـ FFNs المتجاورة غالبًا ما تظهر الحد الأدنى من الاعتماد المتبادل. في جوهرها، غالبًا ما لا يغير إخراج FFN واحد في التسلسل بشكل كبير المسار الاتجاهي أو المعلومات الأساسية التي تحتاجها FFN التالية مباشرة. يشير هذا إلى أن هذه الـ FFNs، التي يتم تنفيذها تقليديًا واحدة تلو الأخرى، قد تمتلك القدرة على التنفيذ المتزامن والمتوازي دون تعطيل وظيفة النموذج الإجمالية بشكل كبير.

شكلت هذه الرؤية حجر الأساس لـ FFN Fusion. الفكرة الأساسية بسيطة بأناقة لكنها قوية: تحديد تسلسلات طبقات FFN المتتالية ذات الاعتمادية الحسابية المنخفضة ودمجها في طبقة FFN واحدة أوسع تقوم بإجراء الحساب المكافئ بالتوازي. بدلاً من سلسلة مثل Input -> FFN1 -> FFN2 -> FFN3 -> Output، تصبح البنية المدمجة Input -> Fused_FFN (Equivalent to FFN1+FFN2+FFN3 in parallel) -> Output. هذا التحول المعماري يقصر بشكل فعال العمق التسلسلي للشبكة، ويستبدل خطوات متعددة بخطوة حسابية واحدة أوسع. من خلال استهداف تسلسلات FFN منخفضة الاعتمادية هذه، يهدف FFN Fusion إلى تقليل زمن الاستجابة والتكلفة الحسابية مع الحفاظ على القوة التمثيلية للنموذج ودقته. كان تطوير Ultra-253B-Base من Llama-3.1-405B-Instruct بمثابة عرض رئيسي لإمكانات هذه التقنية.

الخيمياء المعمارية: كيف يعمل FFN Fusion

يكمن السحر وراء FFN Fusion في تلاعبه الذكي بالبنية الرياضية الأساسية لشبكات التغذية الأمامية. لا يتعلق الأمر بمجرد تشغيل الطبقات الموجودة جنبًا إلى جنب؛ بل يتضمن إنشاء طبقة جديدة موحدة تكرر السلوك الجماعي للتسلسل الأصلي ولكنها تفعل ذلك بشكل متزامن.

ضع في اعتبارك تسلسلًا من k طبقات FFN متتالية. في الـ transformer القياسي، يمر الإدخال x عبر FFN1، ويصبح إخراجه هو الإدخال لـ FFN2، وهكذا، حتى FFNk. تعتمد كل خطوة بشكل صريح على إكمال الخطوة السابقة. يكسر FFN Fusion سلسلة الاعتمادية هذه. رياضيًا، تتضمن FFN عادةً تحويلين خطيين مع دالة تنشيط غير خطية (مثل GeLU أو SwiGLU) بينهما: FFN(x) = W_out * Activation(W_in * x). يستفيد FFN Fusion من حقيقة أنه يمكن غالبًا دمج التحويلات الخطية.

تعمل عملية الدمج عن طريق تسلسل الأوزان (concatenating the weights) لطبقات FFN الفردية. على وجه التحديد، يتم دمج مصفوفات أوزان الإدخال (W_in) لـ FFNs المتتالية (على سبيل المثال، بشكل قطري كتلي) في مصفوفة أوزان إدخال واحدة أكبر للطبقة المدمجة. وبالمثل، يتم تسلسل مصفوفات أوزان الإخراج (W_out) لتشكيل مصفوفة أوزان إخراج واحدة أوسع. يتم تطبيق دالة التنشيط على مستوى العنصر داخل هذه البنية الأكبر. يضمن هذا البناء أن FFN المدمجة تعمل على الإدخال الأصلي x بشكل متزامن عبر مسارات متوازية تتوافق مع FFNs الأصلية. ثم يتم تجميع المخرجات من هذه المسارات المتوازية ضمنيًا بواسطة بنية أوزان الإخراج المتسلسلة.

يؤكد الأساس النظري أن هذه البنية المدمجة يمكنها الحفاظ على نفس القدرة التمثيلية مثل التسلسل الأصلي لـ FFNs، بشرط أن تكون الاعتماديات بين الطبقات الأصلية منخفضة بالفعل. المفتاح هو تحديد أي التسلسلات مناسبة للدمج. للقيام بذلك بشكل منهجي، استخدم باحثو NVIDIA تقنية تحليل الاعتمادية (dependency analysis). قاموا بقياس مسافة جيب التمام (cosine distance) بين الحالات المخفية الناتجة لطبقات FFN المتتالية لمجموعة تمثيلية من رموز الإدخال. تشير مسافة جيب التمام الصغيرة إلى أن متجه الإخراج لـ FFN واحد يشير في اتجاه مشابه جدًا لمتجه الإخراج لـ FFN التالي في التسلسل. يشير هذا التشابه إلى اعتمادية وظيفية منخفضة - FFN الثانية لا تغير بشكل كبير تمثيل المعلومات الذي أنشأته الأولى. تم تحديد تسلسلات FFNs التي تظهر مسافات جيب تمام منخفضة باستمرار عبر الطبقات كمرشحين رئيسيين للدمج، حيث كان من غير المرجح أن يؤدي دمجها إلى تعطيل التمثيلات المتعلمة للنموذج والأداء العام. يتيح هذا النهج القائم على البيانات التطبيق المستهدف لـ FFN Fusion على أجزاء النموذج حيث سيكون أكثر فعالية وأقل إزعاجًا.

من العملاق إلى العداء: تحويل Ultra-253B-Base

تم إظهار القوة العملية لـ FFN Fusion بوضوح من خلال تطبيقه على أحد أكبر النماذج المعروفة للجمهور في ذلك الوقت، Llama-3.1-405B-Instruct. هذا النموذج، الذي يضم 405 مليار معلمة، يمثل مهمة حسابية كبيرة للاستدلال. شرع الباحثون في عملية تحسين معماري، تجمع بين FFN Fusion والتقليم الاستراتيجي، لإنشاء نموذج جديد أكثر كفاءة أطلق عليه اسم Ultra-253B-Base.

تضمنت عملية التحويل عدة خطوات:

التحليل (Analysis): باستخدام أدوات تحليل الاعتمادية الخاصة بهم (قياس مسافات جيب التمام)، حدد الباحثون تسلسلات طبقات FFN المتتالية داخل بنية Llama-405B التي أظهرت اعتمادية منخفضة بين الطبقات.
الدمج (Fusion): تم بعد ذلك دمج تسلسلات FFN المحددة هذه في طبقات FFN واحدة أوسع كما هو موضح سابقًا (تسلسل الأوزان). أدى هذا بشكل مباشر إلى تقليل عدد الخطوات التسلسلية في الشبكة.
التقليم (Pruning): بالتزامن أو لاحقًا، تمت إزالة المعلمات التي تعتبر أقل أهمية (ربما تم تحديدها من خلال تقنيات التقليم القياسية أو بناءً على عملية الدمج) من النموذج.

أدى هذا النهج المشترك إلى Ultra-253B-Base، وهو نموذج يحتوي على 253 مليار معلمة. يمثل هذا انخفاضًا كبيرًا - أكثر من 37٪ أقل من معلمات النموذج الأصلي 405B. كانت التغييرات المعمارية التي تم تحقيقها من خلال الدمج أساسية لتمكين هذا التخفيض الكبير في الحجم مع السعي للاحتفاظ بالأداء. لم يكن الهدف مجرد نموذج أصغر، بل نموذج أسرع وأكثر اقتصادًا من الناحية الحسابية بشكل أساسي، بفضل التوازي المتزايد الذي أطلقه FFN Fusion. كانت دراسة الحالة هذه بمثابة إثبات حاسم للمفهوم، حيث أظهرت أنه يمكن إعادة هيكلة النماذج واسعة النطاق بشكل كبير لتحقيق الكفاءة.

قياس المكاسب: الأداء والسرعة وتوفير الموارد

الاختبار الحقيقي لأي تقنية تحسين يكمن في تأثيرها القابل للقياس. بالنسبة لـ Ultra-253B-Base، كانت النتائج المستمدة من تطبيق FFN Fusion والتقليم على قاعدة Llama-405B مقنعة، حيث أظهرت تحسينات كبيرة عبر أبعاد متعددة دون تنازلات كبيرة في القدرة.

سرعة الاستدلال والتكلفة: لوحظت أبرز المكاسب في كفاءة الاستدلال. مقارنة بنموذج المعلمات الأصلي 405B، حقق Ultra-253B-Base:

تحسينًا بمقدار 1.71 مرة في زمن استجابة الاستدلال (inference latency). هذا يعني أن النموذج يمكنه توليد الاستجابات بشكل أسرع بكثير، وهو أمر حاسم للتطبيقات في الوقت الفعلي.
انخفاضًا بمقدار 35 مرة في التكلفة الحسابية لكل رمز (per-token computational cost) عند قياسها بحجم دفعة 32. هذا الانخفاض الهائل في العمليات الحسابية (FLOPs) لكل رمز يترجم مباشرة إلى انخفاض استهلاك الطاقة وتقليل متطلبات الأجهزة لخدمة النموذج.

معايير أداء النموذج: بشكل حاسم، لم تأت هذه التحسينات في الكفاءة على حساب ذكاء النموذج أو قدراته. تم تقييم Ultra-253B-Base بدقة على مجموعة من معايير LLM القياسية، محققًا درجات كانت تنافسية للغاية، وفي بعض الحالات تجاوزت، النموذج الأصلي الأكبر بكثير:

MMLU (Massive Multitask Language Understanding): 85.17%
MMLU-Pro (نسخة أكثر تحديًا): 72.25%
Arena Hard (تقييم التفضيل البشري على المطالبات الصعبة): 84.92%
HumanEval (قدرة توليد الكود): 86.58%
MT-Bench (جودة المحادثة متعددة الأدوار): 9.19

تشير هذه الدرجات إلى أن النموذج المدمج والمقلم احتفظ بمستوى عالٍ جدًا من الفهم والاستدلال والقدرة على البرمجة وجودة المحادثة، مقارنة بسلفه ذي 405 مليار معلمة على الرغم من احتوائه على 253 مليار معلمة فقط.

كفاءة الذاكرة: بالإضافة إلى السرعة والتكلفة الحسابية، ساهم FFN Fusion أيضًا في توفير الذاكرة. أدت التغييرات المعمارية، ربما مع تحسينات أخرى أتاحها الدمج، إلى تقليل بمقدار 2 مرة في حجم ذاكرة التخزين المؤقت للمفتاح والقيمة (key-value - KV cache) المطلوبة أثناء الاستدلال. تخزن ذاكرة التخزين المؤقت KV التنشيطات الوسيطة (مفاتيح وقيم الانتباه) ويمكن أن تستهلك ذاكرة GPU كبيرة، خاصة لتسلسلات الإدخال الطويلة. إن تقليل هذا المطلب إلى النصف يجعل من الممكن تشغيل النموذج على أجهزة أقل استهلاكًا للذاكرة أو معالجة سياقات أطول ضمن نفس قيود الذاكرة.

تؤكد هذه النتائج القابلة للقياس فعالية FFN Fusion. لقد سمح بإنشاء نموذج لم يكن أصغر فحسب، بل كان أكثر كفاءة بشكل أساسي من حيث السرعة والعمليات الحسابية واستخدام الذاكرة، كل ذلك مع الحفاظ على أداء من الدرجة الأولى في المعايير الصعبة.

الحفاظ على المعرفة: الدور الحاسم للتدريب والضبط الدقيق

إن التعديل المعماري لنموذج لغوي ضخم مدرب مسبقًا مثل Llama-405B من خلال تقنيات مثل FFN Fusion والتقليم يؤدي حتمًا إلى تعطيل التوازن الدقيق لمعلماته المتعلمة. بينما يهدف التكافؤ الرياضي إلى الحفاظ على الوظيفة محليًا، يمكن أن يتغير السلوك العام للشبكة. لضمان أن نموذج Ultra-253B-Base الناتج لم يصبح أكثر كفاءة فحسب، بل احتفظ أيضًا بمستوى أدائه العالي، كانت عملية تدريب ما بعد التعديل منسقة بعناية ضرورية.

تضمنت هذه العملية مرحلتين رئيسيتين:

تقطير المعرفة (Knowledge Distillation): كانت الخطوة الأولى هي نقل المعرفة من النموذج الأصلي الأكبر (أو نموذج معلم مناسب) مرة أخرى إلى البنية المعدلة. تم تحقيق ذلك من خلال التقطير، حيث تم تدريب نموذج Ultra-253B-Base لتقليد المخرجات أو التمثيلات الداخلية للنموذج المعلم. استخدمت هذه المرحلة مجموعة بيانات كبيرة، وتحديداً 54 مليار رمز (tokens)، تمت معالجتها باستخدام نافذة سياق 8k. يساعد التقطير النموذج المدمج والمقلم على استعادة الفروق الدقيقة والقدرات التي ربما تكون قد اضطربت قليلاً أثناء التغييرات المعمارية.
الضبط الدقيق المرحلي (Staged Fine-Tuning): بعد التقطير، خضع النموذج لسلسلة من مراحل الضبط الدقيق المصممة خصيصًا لتكييفه للتعامل مع أطوال سياق أطول تدريجيًا. هذا أمر حاسم لنماذج LLMs الحديثة، والتي غالبًا ما يُتوقع منها معالجة وإنشاء نصوص بناءً على مدخلات واسعة النطاق. استمر الضبط الدقيق على مراحل:
- الضبط الدقيق عند نافذة سياق 16k.
- مزيد من الضبط الدقيق عند نافذة سياق 32k.
- مرحلة الضبط الدقيق النهائية عند نافذة سياق 128k.

يتيح هذا النهج المرحلي للنموذج تكييف معلماته تدريجيًا، بما في ذلك طبقات FFN المدمجة حديثًا وآليات ذاكرة التخزين المؤقت KV المحسّنة، لإدارة التبعيات وتدفق المعلومات بفعالية عبر تسلسلات طويلة جدًا. تبني كل مرحلة على سابقتها، مما يضمن الاستقرار والأداء القوي عبر أحجام السياق المختلفة.

كان هذا النظام التدريبي الدقيق، الذي يجمع بين التقطير واسع النطاق والضبط الدقيق المرحلي للسياق الطويل، فعالاً في سد الفجوة بين الكفاءة المعمارية والأداء عالي الدقة. لقد ضمن أن فوائد السرعة والتكلفة والذاكرة التي يوفرها FFN Fusion لم تضر بدقة النموذج وقدراته في المعايير الصعبة.

آفاق أوسع: قابلية التعميم والتوجهات المستقبلية

يوفر التحويل الناجح لـ Llama-405B إلى Ultra-253B-Base دليلًا قويًا على إمكانات FFN Fusion، لكن قيمته الحقيقية تكمن في قابليته للتطبيق الأوسع والأفكار التي يقدمها لتصميم LLM المستقبلي. أظهر البحث أن هذا لم يكن مجرد خدعة لمرة واحدة قابلة للتطبيق فقط على النماذج الضخمة.

التحقق عبر المقاييس: اختبر باحثو NVIDIA صراحة منهجية FFN Fusion على نماذج بأحجام متفاوتة. لقد نجحوا في تطبيق التقنية على نماذج ذات 70 مليار معلمة، محققين مكاسب كفاءة مماثلة مقارنة بنظرائهم الأصليين. كما أبلغوا عن التحقق على مقياس 49B، مما يعزز فكرة أن استقلالية FFN وإمكانية الدمج ليست خصائص حصرية لأكبر النماذج ولكنها قد تكون خاصية أكثر عمومية لبنية الـ transformer، وربما تصبح أكثر وضوحًا في المقاييس الأكبر حيث تحدث تسلسلات FFN الأعمق بشكل طبيعي. يشير هذا إلى أن FFN Fusion يمكن أن يصبح أداة قياسية في ترسانة تحسين LLM، قابلة للتطبيق عبر مجموعة من أحجام النماذج.

FFN مقابل دمج الكتلة الكاملة: ألقى البحث أيضًا الضوء على الدور المحدد لطبقات FFN مقارنة بطبقات الانتباه داخل كتلة الـ transformer. بينما أظهرت طبقات FFN المتتالية غالبًا اعتمادية منخفضة، مما يجعلها مثالية للدمج، أثبتت محاولات موازاة كتل الـ transformer بأكملها (بما في ذلك طبقات الانتباه و FFN) أنها أكثر صعوبة. أشار التحليل إلى اعتماديات أقوى تشمل آليات الانتباه. أدى دمج الكتل بأكملها في وقت واحد إلى تدهور كبير في الأداء، مما يشير إلى أن طبقات الانتباه تلعب دورًا أكثر أهمية وتعتمد على التسلسل في دمج المعلومات عبر الرموز. يساعد هذا الاكتشاف في تحديد حدود الموازاة الفعالة - تسلسلات FFN هي أرض خصبة، بينما قد تتطلب آليات الانتباه استراتيجيات تحسين مختلفة.

الآثار المترتبة على بنية LLM: يقدم FFN Fusion أكثر من مجرد تقنية تحسين لاحقة؛ إنه يوفر رؤى قيمة لتصميم نماذج LLMs المستقبلية. إن اكتشاف أن تسلسلات FFNs يمكن غالبًا التعامل معها كوحدات قابلة للموازاة يتحدى الافتراض التسلسلي الصارم الذي غالبًا ما يدعم تصميم الـ transformer. يمكن أن يلهم هذا بنيات جديدة تكون بطبيعتها أكثر ملاءمة للتوازي منذ البداية. قد يتم تصميم النماذج المستقبلية بهياكل FFN مخصصة بشكل صريح للدمج أو التنفيذ المتوازي، مما قد يؤدي إلى تصميم مشترك للأجهزة والبرامج حيث يتم تحسين بنى GPU بشكل أكبر لاستغلال هذا النوع من التوازي. توفر الطريقة المنهجية التي تستخدم مسافة جيب التمام لتحديد الاعتمادية بين الطبقات أيضًا أداة تحليلية قيمة لفهم وإعادة تصميم هياكل الشبكات العصبية. من خلال إثبات أن مكاسب الكفاءة الكبيرة ممكنة من خلال إعادة التصميم المعماري المدروس الذي يركز على موازاة المكونات الحالية، يمهد FFN Fusion الطريق لتطوير نماذج LLMs قوية وأكثر استدامة من الناحية الحسابية. إنه يسلط الضوء على مسار نحو التخفيف من متطلبات الموارد المتصاعدة للذكاء الاصطناعي المتطور.

تم التحديث في ٢٠٢٥-٠٣-٣٠

# AIGC # Llama # Nvidia