خبرة المجال: ضبط ودمج وقدرات نماذج اللغة الكبيرة

تحدي التخصص: تكييف الذكاء الاصطناعي للحدود التقنية

أحدثت نماذج اللغة الكبيرة (LLMs) ثورة لا يمكن إنكارها في كيفية تفاعلنا مع المعلومات وأتمتة المهام التي تتضمن اللغة الطبيعية. تُظهر النماذج العملاقة مثل Llama و Mistral، حتى في أشكالها مفتوحة المصدر، طلاقة ملحوظة في فهم وتوليد النصوص التي غالبًا ما تنافس المخرجات البشرية. تمتد براعتها عبر مشهد واسع، من المحادثات اليومية إلى التلخيص المعقد. ومع ذلك، فإن المغامرة في المناطق المتخصصة والغنية بالمصطلحات العلمية والهندسية - مثل مجالات علم المواد أو علم المواد الحيوية (biomateriomics) - تمثل عقبة فريدة.

تتطلب هذه المجالات التقنية أكثر من المعرفة العامة؛ فهي تتطلب فهمًا عميقًا ودقيقًا، والقدرة على الاستدلال بناءً على مبادئ محددة، والإلمام بالمصطلحات المتخصصة وهياكل البيانات. غالبًا ما تتعثر نماذج LLMs القياسية، التي تم تدريبها على مجموعات بيانات ويب واسعة، عند مواجهة هذه المتطلبات. يكمن التحدي، إذن، في تكييف المجال (domain adaptation): كيف يمكننا تكييف هذه النماذج العامة القوية بفعالية لتصبح مساعدين خبراء في مجالات محددة للغاية؟

إن مجرد تغذية المزيد من البيانات المتخصصة ليس هو الحل دائمًا، كما أنه ليس ممكنًا دائمًا. يعد تدريب هذه النماذج العملاقة من الصفر مكلفًا للغاية، وعادةً ما تكون مجموعات البيانات الأصلية الضخمة المستخدمة في تدريبها المسبق الأولي غير متاحة. هذا صحيح بشكل خاص بالنسبة للنماذج الشائعة مفتوحة المصدر حيث، على الرغم من بعض الشفافية، تظل الوصفة الكاملة - مزيج البيانات الدقيق والتسلسلات المستخدمة أثناء التدريب المسبق والضبط الدقيق والمواءمة - مملوكة إلى حد كبير. يحتاج الباحثون والمهندسون إلى استراتيجيات قوية وفعالة لغرس المعرفة الجديدة والمتخصصة في النماذج الحالية مع الحفاظ بشكل حاسم على القدرات العامة الواسعة المكتسبة أثناء تدريبهم الأولي. يعد هذا التوازن الدقيق أمرًا بالغ الأهمية لإنشاء أدوات ذكاء اصطناعي مفيدة حقًا للاكتشاف العلمي والابتكار الهندسي، مثل تطوير محركات قادرة على الاستدلال متعدد الوسائط لاستكشاف إلهام تصميم المواد البيولوجية عبر مقاييس وسياقات متنوعة.

رسم خريطة مشهد التدريب: من التدريب المسبق إلى تحسين التفضيلات

يتضمن التنقل في المسار إلى خبرة LLM الخاصة بالمجال استكشاف مجموعة أدوات متنوعة من استراتيجيات الضبط الدقيق. يقدم كل نهج طريقة مختلفة لتشكيل معرفة النموذج وسلوكه.

  • التدريب المسبق المستمر (CPT - Continued Pre-Training): تتضمن هذه الاستراتيجية تمديد مرحلة التدريب المسبق الأولية، ولكن هذه المرة باستخدام مجموعة بيانات تركز بشكل مباشر على المجال المستهدف - مثل مجموعة من أوراق البحث في علم المواد. الهدف هو غمر النموذج في اللغة والمفاهيم وهياكل المعرفة المحددة للمجال، مما يسمح له باستيعاب المعلومات الخاصة بالمجال بشكل أعمق مما هو ممكن مع الضبط الدقيق الخاص بالمهمة وحده. إنه يضع أساسًا للمعرفة ذات الصلة.

  • الضبط الدقيق الخاضع للإشراف (SFT - Supervised Fine-Tuning): بعد CPT أو بدءًا من نموذج أساسي، يقوم SFT بتعليم النموذج مباشرة كيفية أداء مهام محددة. يتم تحقيق ذلك باستخدام مجموعات بيانات منسقة من أزواج المدخلات والمخرجات، غالبًا ما يتم تنسيقها كتعليمات واستجابات مرغوبة، أو أسئلة وإجابات دقيقة ذات صلة بالمجال. يصقل SFT قدرة النموذج على اتباع التعليمات، والإجابة على الأسئلة بدقة في السياق المتخصص، والالتزام بتنسيقات الإخراج المطلوبة.

  • التكييف منخفض الرتبة (LoRA - Low-Rank Adaptation): على الرغم من أنه ليس التركيز الأساسي هنا، يمثل LoRA بديلاً أو مكملاً فعالاً. بدلاً من إعادة تدريب النموذج بأكمله، يقدم LoRA طبقات “محول” صغيرة قابلة للتدريب. يسمح هذا بتكييف كبير بتكلفة حسابية أقل بكثير، على الرغم من أنه قد يكون له قيود في مقدار المعرفة الجديدة الأساسية التي يمكن دمجها مقارنة بـ CPT.

  • التحسين القائم على التفضيل (Preference-Based Optimization): بالانتقال إلى ما هو أبعد من مجرد إكمال المهام، يهدف تحسين التفضيل إلى مواءمة مخرجات النموذج بشكل أوثق مع الأحكام البشرية أو معايير محددة مثل المساعدة وعدم الضرر والدقة في الاستدلال. بدلاً من الاعتماد فقط على الإجابات “الصحيحة” المحددة مسبقًا (كما في SFT)، تتعلم هذه الطرق من المقارنات.

    • تحسين التفضيل المباشر (DPO - Direct Preference Optimization): يتعلم DPO مباشرة من أزواج الاستجابات حيث يُفضل أحدهما على الآخر (على سبيل المثال، بواسطة مقيِّم بشري أو ذكاء اصطناعي آخر). يقوم بتحسين النموذج لزيادة احتمالية توليد الاستجابات المفضلة دون الحاجة إلى نموذج مكافأة منفصل، مما يبسط خط أنابيب التعلم المعزز التقليدي من ردود الفعل البشرية (RLHF - Reinforcement Learning from Human Feedback).
    • تحسين تفضيل نسبة الأرجحية (ORPO - Odds Ratio Preference Optimization): وهو وافد أحدث، يعدل ORPO هدف التحسين، مما يؤدي أحيانًا إلى تحسين الأداء أو الاستقرار مقارنة بـ DPO، لا سيما في مواءمة النماذج نحو معايير أسلوبية أو استدلالية محددة داخل المجال.

هذه التقنيات ليست حصرية بشكل متبادل؛ غالبًا ما يتم استخدامها بالتتابع أو مجتمعة، لتشكيل خطوط أنابيب تدريب معقدة. قد يتضمن التسلسل الشائع CPT لبناء معرفة المجال، متبوعًا بـ SFT لكفاءة المهام، وأخيرًا DPO أو ORPO للمواءمة والتنقيح. ومع ذلك، يظل المزيج والتسلسل الأمثل مجالات بحث نشطة، لا سيما لتحقيق أقصى أداء في المجالات العلمية المتخصصة.

ما وراء الضبط البسيط: وعد دمج النماذج

بينما يمكن أن يؤدي تحسين نموذج واحد من خلال مراحل التدريب المتسلسلة إلى تحسينات كبيرة، فقد ظهر مسار آخر مثير للاهتمام: دمج النماذج (model merging). تتضمن هذه الممارسة أخذ نموذجين أو أكثر تم تدريبهما بشكل منفصل ودمج معلماتهما - “أوزانهما” الداخلية - لإنشاء نموذج هجين واحد جديد.

لماذا محاولة مثل هذا الاندماج؟ الفكرة الأساسية هي الجمع التآزري بين نقاط القوة في النماذج الأم. تخيل نموذجًا واحدًا مدربًا بخبرة على أدبيات علم المواد (عبر CPT و SFT) ونموذج “توجيهي” (instruct) آخر للأغراض العامة بارع للغاية في اتباع التعليمات المعقدة والمشاركة في حوار متماسك. يمكن أن يؤدي دمجهما إلى إنشاء نموذج يمتلك كلاً من المعرفة العميقة بالمجال و قدرات حوارية ممتازة وقدرات على اتباع التعليمات.

أشارت الاستكشافات المبكرة إلى أن هذه العملية قد تكون أكثر من مجرد متوسط بسيط. بدلاً من مجرد مزج القدرات، يمكن أن يؤدي الدمج إلى إطلاق وظائف جديدة ناشئة (emergent functionalities) بالكامل - قدرات غير موجودة بشكل صريح في أي من النموذجين الأم. يشير هذا إلى تفاعل غير خطي للغاية بين المعلمات أثناء الدمج، مما قد يؤدي إلى كل أكبر من مجموع أجزائه. إذا ثبتت فعاليته وقابليته للتحكم، يمكن أن يمثل دمج النماذج أداة قوية وتحويلية لدفع حدود قدرات LLM، وإنشاء أنظمة ذكاء اصطناعي قابلة للتكيف وفعالة للغاية مصممة خصيصًا للتحديات العلمية والهندسية المعقدة في العالم الحقيقي.

كشف قوة SLERP: نهج هندسي للدمج

تعتمد فعالية دمج النماذج بشكل حاسم على كيفية دمج معلمات النماذج الأم. قد يبدو المتوسط الخطي البسيط (يُطلق عليه غالبًا الاستيفاء الخطي أو LERP) بديهيًا، ولكنه غالبًا ما يؤدي إلى نتائج دون المستوى الأمثل أو حتى يقلل من الأداء. من المحتمل أن يكون هذا بسبب أن فضاء المعلمات عالي الأبعاد لنماذج LLMs ليس مسطحًا؛ إنه يمتلك هندسة معقدة ومنحنية. يخاطر الاستيفاء الخطي باجتياز “المناطق الميتة” أو مناطق الخسارة العالية داخل هذا الفضاء، مما يؤدي فعليًا إلى تشويش التمثيلات المتعلمة بعناية للنماذج الأم.

هنا يأتي دور الاستيفاء الخطي الكروي (SLERP - Spherical Linear Interpolation). تم تطوير SLERP في الأصل للرسوم المتحركة السلسة للدورات في رسومات الحاسوب، وهو يوفر طريقة متطورة هندسيًا للاستيفاء بين نقطتين (في هذه الحالة، متجهات معلمات نموذجين) عن طريق اتباع أقصر مسار على طول سطح كرة فائقة (hypersphere).

تخيل مجموعات معلمات النموذجين الأم كنقطتين على سطح كرة عملاقة.

  • LERP سيرسم خطًا مستقيمًا عبر الكرة يربط بين النقطتين. قد لا يبقى هذا المسار على السطح ويمكن أن يمر عبر مناطق تمثل نماذج ذات أداء ضعيف.
  • SLERP، على العكس من ذلك، ينتقل على طول السطح المنحني للكرة نفسها. يحترم هذا المسار بطبيعته البنية الهندسية الأساسية لفضاء المعلمات.

لماذا يعتبر هذا المسار الكروي أفضل لدمج نماذج LLMs؟

  1. الحفاظ على البنية (Structure Preservation): من خلال البقاء “على الكرة”، يحافظ SLERP على العلاقات الهندسية بين المعلمات، ويحافظ على الهياكل المتعلمة داخل كل نموذج أم بشكل أكثر فعالية من المسار الخطي.
  2. تجنب مناطق الخسارة العالية (Avoiding High-Loss Regions): من غير المرجح أن يتقاطع المسار المنحني مع مناطق فضاء المعلمات المرتبطة بأخطاء التنبؤ العالية (الخسارة).
  3. الجمع غير الخطي (Non-Linear Combination): صيغة الاستيفاء لـ SLERP غير خطية بطبيعتها. يسمح هذا بتفاعلات معقدة وتآزرية بين المعلمات من النماذج الأم، مما قد يفتح مجموعات تمثل قدرات جديدة. قد تنشط معلمة مدمجة ميزات بطريقة لا يستطيع أي من النموذجين الأم القيام بها بمفرده.
  4. الانتقالات السلسة (Smooth Transitions): يوفر SLERP انتقالًا سلسًا رياضيًا بين حالات النماذج الأم، مما قد يؤدي إلى تعميم أفضل في النموذج المدمج.

نظرًا لأن SLERP يحترم الهندسة الجوهرية للنموذج ويسهل تفاعلات المعلمات غير الخطية، فإنه يحمل القدرة ليس فقط على متوسط القدرات ولكن على مزجها حقًا بطريقة تعزز الخصائص الناشئة. هذا يجعله مرشحًا واعدًا بشكل خاص لدمج النماذج التي تستهدف مجالات معقدة مثل علم المواد، حيث تكون التفاعلات الدقيقة والفهم الدقيق أمرًا أساسيًا.

وضع النظريات قيد الاختبار: تجارب Llama و Mistral

للتحقيق بدقة في استراتيجيات الضبط الدقيق والدمج هذه، تم إجراء سلسلة منهجية من التجارب باستخدام عائلات النماذج الشائعة مفتوحة المصدر: Llama 3.1 (8 مليار معلمة) و Mistral (7 مليار معلمة). كان الهدف هو مقارنة خطوط أنابيب التدريب المختلفة وتقييم تأثير دمج SLERP.

تضمن تصميم التجربة عدة خطوات رئيسية:

  1. النماذج الأساسية (Base Models): بدأت التجارب بكل من النماذج “الأساسية” التأسيسية (تم تدريبها مسبقًا ولكن لم يتم ضبطها للتعليمات) وإصدارات “التوجيه” (instruct) (تم ضبطها بالفعل للمحادثة واتباع التعليمات) لكل من عائلتي Llama و Mistral.
  2. مجموعة بيانات المجال (Domain Corpus): تم تجميع مجموعة بيانات متخصصة تركز على علم المواد من المنشورات العلمية والبيانات المعالجة.
  3. خطوط أنابيب التدريب (Training Pipelines): تم تطبيق مجموعات مختلفة من تقنيات التدريب:
    • CPT فقط
    • CPT متبوعًا بـ SFT (CPT-SFT)
    • CPT-SFT متبوعًا بـ ORPO (CPT-SFT-ORPO)
    • CPT-SFT متبوعًا بـ DPO (CPT-SFT-DPO)
    • بعض الاختلافات تبدأ مباشرة من نموذج Instruct (مثل Instruct-CPT-SFT-DPO).
  4. دمج النماذج (Model Merging): بالنسبة للعديد من النماذج التي تم ضبطها بدقة، تم إجراء دمج SLERP، وعادةً ما يتم دمج النموذج المكيف للمجال مع نموذج “التوجيه” (instruct) المقابل للأغراض العامة من نفس العائلة (على سبيل المثال، نموذج Llama CPT-SFT-DPO مدمج مع نموذج Llama 3.1 Instruct القياسي).
  5. التقييم (Evaluation): تم تقييم أداء جميع النماذج الناتجة (المدمجة وغير المدمجة) عبر مجموعة من المقاييس المعيارية ذات الصلة المصممة لاختبار معرفة المجال والاستدلال واتباع التعليمات.

النتائج الرئيسية عبر Llama و Mistral:

  • دمج SLERP يعزز الأداء باستمرار: عبر كلتا عائلتي النماذج وخطوط أنابيب التدريب المختلفة، حققت النماذج المحسنة عبر دمج SLERP بشكل عام أعلى دقة في مقاييس التقييم. هذا يدعم بقوة الفرضية القائلة بأن SLERP تقنية فعالة للجمع بين نقاط قوة النماذج.
  • تأكيد التأثيرات التآزرية: غالبًا ما تجاوز أداء نماذج SLERP المدمجة متوسطًا بسيطًا لأداء النموذجين الأم. كشف رسم النتيجة الفعلية المحققة مقابل هذا المتوسط المتوقع عن انحراف إيجابي كبير، مما يؤكد أن عملية الدمج غالبًا ما تطلق مكاسب تآزرية وقدرات ناشئة. كان الكيان المدمج أكثر قدرة بشكل واضح من مجرد مجموع أجزائه.
  • تحسين التفضيل يضيف قيمة: غالبًا ما يوفر دمج مراحل تحسين التفضيل (DPO أو ORPO) دفعة أداء إضافية، لا سيما عند دمجه مع دمج SLERP. كانت الاستراتيجيات مثل CPT-SFT-DPO-SLERP أو CPT-SFT-ORPO-SLERP في كثير من الأحيان من بين الأفضل أداءً.
  • تختلف الاستراتيجية المثلى غير المدمجة: بدون دمج، اختلفت الاستراتيجية الأفضل أداءً قليلاً بين عائلات النماذج. بالنسبة لـ Llama 3.1، أظهر Instruct-CPT-SFT-DPO نتائج قوية، بينما بالنسبة لـ Mistral، كان أداء Base-CPT-SFT جيدًا بشكل مماثل لنظيره Instruct.
  • تأثير مدة CPT: أظهر تحليل إضافي على نماذج Mistral أن الأداء تحسن بشكل عام مع المزيد من حقب التدريب المسبق المستمر (حتى الخمس التي تم اختبارها)، خاصة عند البدء من نموذج Instruct، مما يعزز قيمة التعرض الكافي للمجال أثناء CPT.

ترسم هذه النتائج صورة واضحة: في حين أن الضبط الدقيق المتسلسل ذو قيمة، فإن دمج النماذج الاستراتيجي باستخدام SLERP يوفر مسارًا قويًا لتعزيز أداء LLM بشكل كبير، لا سيما للمجالات المتخصصة، وغالبًا ما ينتج عنه قدرات تتجاوز التجميع البسيط.

نظرة أعمق: ما الذي يجعل الدمج فعالاً؟

يدفع النجاح المستمر لدمج SLERP إلى إلقاء نظرة فاحصة على الآليات الأساسية والعوامل المؤثرة. لماذا ينتج هذا النهج الهندسي مثل هذه النتائج القوية، وما هي الظروف التي تحسن فعاليته؟

  • التفاعلات غير الخطية (Non-Linear Interactions): كما تم التنظير، يبدو أن مسار SLERP غير الخطي عبر فضاء المعلمات أمر بالغ الأهمية. يسمح للنموذج المدمج باستكشاف مجموعات من المعلمات التي قد يفوتها المتوسط الخطي. يمكن أن تمثل هذه المجموعات تفاعلات جديدة بين الميزات المتعلمة، مما يؤدي إلى قدرات استدلال أو حل مشكلات ناشئة مصممة خصيصًا للمجال. تخيل دمج المعلمات التي تمثل، بشكل فردي، فهم “قوة المادة” و “الهياكل البيولوجية” - قد يجد SLERP مجموعة تمثل بشكل فعال “المواد عالية القوة المستوحاة من الأحياء” بطريقة لم يفعلها أي من النموذجين الأم بشكل صريح.

  • دور التنوع (The Role of Diversity): ما مدى اختلاف النماذج الأم؟ أشارت التحليلات إلى علاقات معقدة. في حين أن التنوع الشديد قد يبدو مفيدًا، أشارت بعض الارتباطات إلى أنه في سياقات معينة (مثل نماذج Llama)، قد يقلل تنوع الأداء الأعلى بين الآباء قليلاً من الاعتماد على SFT اللاحق، ربما لأن الدمج يلتقط بالفعل مجموعة قدرات أوسع. التفاعل دقيق ويعتمد على الأرجح على طرق الضبط الدقيق المحددة المستخدمة للآباء.

  • نقطة البداية Base مقابل Instruct: اختيار نموذج البداية مهم. بالنسبة لتجارب Llama، نشأ النموذج المدمج الأفضل أداءً من إصدار Instruct. على العكس من ذلك، بالنسبة لـ Mistral، تم اشتقاق أحد أفضل النماذج أداءً من نموذج Base قبل الخضوع لـ CPT و SFT والدمج. يشير هذا إلى أن الاختلافات المعمارية أو الاختلافات في تكوينات التدريب المسبق الأولية لعائلتي Llama و Mistral تؤثر على كيفية استجابتها لخطوط أنابيب الضبط الدقيق والدمج المحددة. لا توجد نقطة بداية عالمية واحدة “أفضل”؛ يتطلب الأمر اختبارًا تجريبيًا.

  • جودة البيانات في CPT: الأساس الذي تم وضعه أثناء التدريب المسبق المستمر (CPT) حاسم. أدت التجارب التي استخدمت مجموعة بيانات CPT أكبر ولكن “أكثر ضوضاء” (تحتوي على المزيد من أخطاء التنسيق أو القطع الأثرية من التعرف البصري على الأحرف) إلى انخفاض الأداء مقارنة باستخدام مجموعة بيانات أصغر وأنظف. يؤكد هذا على أهمية البيانات عالية الجودة والمعالجة جيدًا الخاصة بالمجال لكي تكون مرحلة CPT فعالة. مبدأ “القمامة تدخل، القمامة تخرج” لا يزال ساريًا.

  • ضبط معلمات SLERP: يحتوي SLERP نفسه على معلمات، لا سيما معامل الاستيفاء (يُشار إليه غالبًا بـ ‘t’، ويتراوح من 0 إلى 1) الذي يحدد مقدار الوزن المعطى لكل نموذج أم. علاوة على ذلك، لا يجب أن يكون الدمج موحدًا عبر جميع طبقات النموذج. استكشفت التجارب تغيير عامل الاستيفاء بشكل مختلف لطبقات الانتباه الذاتي (self-attention) مقابل طبقات الإدراك متعدد الطبقات (MLP - multilayer perceptron)، أو حتى تغييره تدريجيًا عبر عمق النموذج. أظهرت النتائج أن مخططات الترجيح غير الموحدة المحددة يمكن أن تتفوق على النهج الموحد القياسي، مما يشير إلى إمكانية تحسين إضافية عن طريق تكييف عملية الدمج بعناية عبر بنية الشبكة. أثبت التقدم الخطي البسيط للأوزان عبر الطبقات فعاليته في إحدى حالات Llama.

  • تأثير التنظيم (Regularization Effect): قد يعمل SLERP أيضًا كشكل من أشكال التنظيم. من خلال إيجاد مسار سلس بين نموذجين متخصصين محتملين، قد يثبط التجهيز الزائد (overfitting) لخصوصيات بيانات تدريب أي من الوالدين، مما يؤدي إلى تعميم أفضل على مشاكل المجال غير المرئية. قد يساعد أيضًا في التخفيف من “النسيان الكارثي”، حيث يمحو الضبط الدقيق لمهمة واحدة المعرفة من مهمة سابقة.

في جوهره، تنبع فعالية SLERP من قدرته على التنقل في الهندسة المعقدة لفضاء معلمات LLM بذكاء، وتعزيز التفاعلات غير الخطية المفيدة مع الحفاظ على هياكل المعرفة المتعلمة. ومع ذلك، يتطلب تحسين استخدامه دراسة متأنية لاختيار النموذج الأم، وتاريخ التدريب، وجودة البيانات، وربما حتى التفاصيل الدقيقة للدمج نفسه.

هل الحجم مهم؟ استكشاف تأثيرات الحجم مع النماذج الأصغر

تثير التأثيرات التآزرية المثيرة للإعجاب التي لوحظت مع نماذج 7 مليارات و 8 مليارات معلمة سؤالًا طبيعيًا: هل تظهر هذه القدرات الناشئة التي يطلقها دمج SLERP أيضًا في نماذج لغوية أصغر بكثير؟ أم أن هناك عتبة حجم تتلاشى دونها السحر؟

للتحقيق في ذلك، تم إجراء تجارب مماثلة باستخدام سلسلة نماذج SmolLM، وتحديداً متغير يحتوي على 1.7 مليار معلمة فقط. هذا النموذج أصغر بكثير، مما يجعله مناسبًا للبيئات ذات الموارد المحدودة مثل الأجهزة المحمولة أو الحوسبة الطرفية، ولكنه قد يفتقر إلى ثراء المعلمات الموجود في أبناء عمومته الأكبر.

خضعت نماذج SmolLM لنفس خط الأنابيب: CPT مع مجموعة بيانات علم المواد، متبوعًا بـ SFT و DPO (الذي أثبت فعاليته أكثر من ORPO لهذه البنية الأصغر). تم بعد ذلك تطبيق دمج SLERP، حيث تم دمج نموذج SmolLM المضبوط بدقة مع نسخته الأساسية أو متغيرات أخرى.

النتائج مع SmolLM:

  • الضبط الدقيق لا يزال مفيدًا: أدى خط أنابيب CPT-SFT-DPO إلى تحسين أداء نموذج SmolLM في مهام المجال مقارنة بحالته الأصلية. كانت عملية الضبط الدقيق نفسها مفيدة، حيث عززت معرفته المتخصصة.
  • الظهور غائب إلى حد كبير: ومع ذلك، على عكس تجارب Llama و Mistral، فإن نماذج SmolLM المدمجة بـ SLERP بشكل عام لم تظهر تأثيرات تآزرية كبيرة. عادةً ما كان أداؤها قريبًا من المتوسط البسيط للنماذج الأم، أو أعلى بقليل فقط. كانت قفزات الأداء الدراماتيكية والعلامات الواضحة للقدرات الناشئة التي شوهدت في نماذج 7B/8B مفقودة.

الآثار المترتبة:

يشير هذا التباين إلى أن حجم النموذج هو على الأرجح عامل رئيسي في تحقيق الإمكانات الكاملة لدمج SLERP لتوليد خصائص ناشئة. قد تفتقر النماذج الأصغر، ذات فضاءات المعلمات الأقل تعقيدًا والأقل أبعادًا، إلى القدرة التمثيلية أو الثراء المطلوب لحدوث هذه التفاعلات غير الخطية القوية أثناء الدمج. يبدو أن “المساحة” لاكتشاف مجموعات معلمات جديدة ومفيدة مقيدة بشكل كبير مقارنة بالنماذج الأكبر.

تتوافق هذه النتائج مع الملاحظات الأوسع حول قوانين القياس (scaling laws) في التعلم العميق، حيث غالبًا ما تظهر قدرات نوعية معينة فقط بمجرد وصول النماذج إلى عتبة حجم معينة. يبدو أن القوة التآزرية لدمج SLERP قد تكون إحدى هذه القدرات التي تعتمد بشكل حاسم على حجم النموذج وتعقيده الكافيين.

قياس المكاسب: نظرة فاحصة على رفع الأداء من الدمج

بينما تُظهر المقاييس المعيارية أن النماذج المدمجة غالبًا ما تكون الأفضل أداءً بشكل عام، فمن المفيد تحديد مقدار التحسن الذي تحققه مقارنة بآبائها بدقة. على وجه التحديد، هل يتفوق النموذج المدمج باستمرار حتى على النموذج الأقوى من بين النموذجين المستخدمين لإنشائه؟

لتحليل ذلك، تم حساب انحراف الأداء لكل نموذج مدمج بـ SLERP. تم تعريف هذا الانحراف على النحو التالي:

انحراف الأداء = أداء (النموذج المدمج) - الحد الأقصى (أداء (الأب 1)، أداء (الأب 2))

  • الانحراف الإيجابي (يُعرض بظلال اللون الأزرق) يعني أن نموذج SLERP كان أداؤه أفضل من أفضل آبائه - دليل واضح على التآزر.
  • الانحراف السلبي (يُعرض باللون الأحمر) يعني أن نموذج SLERP كان أداؤه أسوأ من أحد آبائه على الأقل، مما يشير إلى أن الدمج كان ضارًا أو، في أحسن الأحوال، متوسطًا.

كشف التحليل:

عبر غالبية التجارب التي شملت نماذج Llama 3.1 (8B) و Mistral (7B)، كانت انحرافات الأداء إيجابية في الغالب. في كثير من الحالات، خاصة بالنسبة لخطوط الأنابيب المحسنة جيدًا (مثل تلك التي تتضمن CPT و SFT وتحسين التفضيل و SLERP)، أظهرت النماذج المدمجة انحرافات إيجابية كبيرة، مما يشير إلى أنها تجاوزت بشكل كبير قدرات حتى أقوى آبائها.

كانت هناك حالات، لا سيما مع النماذج الأم الأقل تحسينًا أو ربما معلمات الدمج دون المستوى الأمثل، حيث كان الانحراف سلبيًا قليلاً أو قريبًا من الصفر. ومع ذلك، كان الاتجاه العام واضحًا: غالبًا ما يوفر دمج SLERP الاستراتيجي رفعًا حقيقيًا للأداء يتجاوز ما يمكن أن يحققه أي من النموذجين الأم بمفرده. وهذا يعزز فكرة أن الدمج ليس مجرد متوسط، ولكنه عملية قادرة على تجميع قدرات متفوقة. نتائج SmolLM (1.7B)، على النقيض من ذلك، ستظهر انحرافات أصغر بكثير أو سلبية، بما يتفق مع عدم وجود تأثيرات ناشئة قوية بهذا الحجم.

من المقاييس