نموذج Nvidia مفتوح المصدر يتفوق على DeepSeek-R1

نماذج Llama-Nemotron من Nvidia تجاوزت رسميًا DeepSeek-R1، وتم الكشف عن تفاصيل تدريبها بالكامل، مما يوفر رؤى حول كيفية تطوير هذه النماذج لتحقيق أداء فائق.

هذه النماذج الآن مفتوحة المصدر بالكامل، مما يمثل تقدمًا كبيرًا في تكنولوجيا الذكاء الاصطناعي المتاحة. هذا يعني أن سلسلة من نماذج الاستدلال التي تتفوق بشكل كبير على DeepSeek-R1 من حيث إنتاجية الاستدلال وكفاءة الذاكرة متاحة الآن لأي شخص لاستخدامها وتعديلها.

الكشف عن أسرار نجاح النموذج

إذن، كيف تم إنشاء هذه النماذج التي تتفوق على DeepSeek-R1 بالضبط؟ يكشف التقرير الفني لـ Nvidia عن العناصر الحاسمة في عملية التدريب الخاصة بهم:

  • الضبط الدقيق الخاضع للإشراف مع البيانات الاصطناعية + التعلم المعزز: يعزز هذا المزيج بشكل كبير قدرات الاستدلال لدى النموذج.
  • عملية ما بعد التدريب الشاملة: تعتبر عملية ما بعد التدريب القوية والمصممة جيدًا أمرًا بالغ الأهمية لتحسين أداء النموذج.

في الشهر الماضي، أعلنت Nvidia رسميًا عن Llama-Nemotron 253B، والذي سرعان ما طغى على Llama 4 (الذي كان عمره ثلاثة أيام فقط ويواجه “أزمة سلامة” بسبب التلاعب بلوحة المتصدرين). أثار إطلاق هذه السلسلة من النماذج ضجة كبيرة في الصناعة.

وفقًا لمؤشر تحليل الذكاء الاصطناعي الاصطناعي، يعتبر Llama-Nemotron-Ultra حاليًا النموذج مفتوح المصدر “الأكثر ذكاءً” اعتبارًا من أبريل 2025.

أطلقت Nvidia ثلاثة نماذج في سلسلة Llama-Nemotron: LN-Nano 8B و LN-Super 49B و LN-Ultra 253B.

والجدير بالذكر أن LN-Ultra لا يتفوق على DeepSeek-R1 في الأداء فحسب، بل يعمل أيضًا على عقدة 8xH100 واحدة، مما يوفر إنتاجية استدلال أعلى.

تم تحسين هذه النماذج للاستدلال عالي الإنتاجية مع الحفاظ على قدرات استدلال قوية وطول سياق يصل إلى 128 ألفًا.

علاوة على ذلك، قدمت Nvidia ميزة تبديل الاستدلال الرائدة في مجتمع الذكاء الاصطناعي مفتوح المصدر العالمي. يمكن للمستخدمين التبديل ديناميكيًا بين وضع الدردشة القياسي ووضع الاستدلال باستخدام موجه النظام “التفكير التفصيلي قيد التشغيل/الإيقاف”.

يسمح هذا التصميم للنموذج بتلبية الاحتياجات اليومية العامة والتعامل مع مهام الاستدلال المعقدة ومتعددة الخطوات دون الحاجة إلى نماذج أو هياكل مختلفة.

عملية البناء: نهج من خمس مراحل

ينقسم بناء نماذج Llama-Nemotron إلى خمس مراحل متميزة:

المرحلة 1: تحسين كفاءة الاستدلال باستخدام البحث عن البنية العصبية (NAS) استنادًا إلى نماذج سلسلة Llama 3، مع إدخال Feedforward Network Fusion (FFN Fusion).

المرحلة 2: استعادة أداء النموذج من خلال تقطير المعرفة والتدريب المسبق المستمر.

المرحلة 3: الضبط الدقيق الخاضع للإشراف (SFT)، الذي يجمع بين بيانات التعليمات القياسية وعمليات الاستدلال من نماذج المعلم القوية مثل DeepSeek-R1، مما يمكن النموذج من إجراء استدلال متعدد الخطوات.

المرحلة 4: التعلم المعزز واسع النطاق على مجموعات البيانات الرياضية و STEM المعقدة، وهو أمر بالغ الأهمية لكي يتجاوز نموذج الطالب قدرات نموذج المعلم. بالنسبة إلى LN-Ultra، تعمل هذه المرحلة على تحسين الأداء بشكل كبير في معيار GPQA-D، مما يجعله أقوى نموذج للاستدلال العلمي في مجال المصادر المفتوحة.

لدعم هذا التدريب المعزز واسع النطاق، طور الفريق إطار عمل تدريبي جديد مع تدابير تحسين متعددة، والأهم من ذلك دعم قدرة توليد دقة FP8.

المرحلة 5: تدريب محاذاة موجز يركز على اتباع التعليمات والالتزام بالتفضيلات البشرية.

بنية مبتكرة لتحسين كفاءة الاستدلال

تستفيد LN-Super و LN-Ultra من إطار عمل Puzzle للبحث عن البنية العصبية لتحسين كفاءة استدلال النموذج.

يحول Puzzle نماذج اللغة الكبيرة إلى إصدارات فعالة ومكيفة للأجهزة، ومحسّنة للنشر.

من خلال “تقطير محلي كتلة تلو الأخرى”، قام المطورون ببناء مكتبة من وحدات Transformer البديلة باستخدام Llama 3 Instruct.

في هذه العملية، يتم تدريب كل وحدة بشكل مستقل ومتوازٍ، وتقريب وظائف الوحدة الأصلية مع تحسين الأداء الحسابي.

لكل وحدة بديلة مقايضات محددة بين “الدقة والكفاءة”. بعض الوحدات أكثر كفاءة ولكنها قد تؤدي إلى انخفاض معين في الجودة، مما يخلق مقايضة واضحة بين التكلفة الحسابية ودقة النموذج.

تتضمن اختلافات الوحدة النمطية هذه:

إزالة آلية الانتباه: تحذف بعض الوحدات النمطية آلية الانتباه تمامًا، مما يقلل من مقدار الحساب واستهلاك ذاكرة تخزين KV المؤقتة.

أبعاد FFN المتغيرة: يتم تعديل الأبعاد المتوسطة لشبكات التغذية الأمامية، مما يسمح بضغط النموذج بدرجات مختلفة.

بعد بناء مكتبة الوحدات النمطية، يختار Puzzle وحدة نمطية من كل طبقة لتجميع نموذج كامل.

يتم التحكم في عملية الاختيار هذه بواسطة حل برمجة عددية مختلطة (MIP)، والذي يجد التكوين الأمثل استنادًا إلى قيود مثل توافق الأجهزة أو الحد الأقصى المسموح به من زمن الوصول أو ميزانية الذاكرة أو إنتاجية الاستدلال المطلوبة.

الضغط الرأسي و FFN Fusion

في نموذج LN-Ultra، قدم الباحثون FFN Fusion (Feedforward Network Fusion)، وهي تقنية ضغط إضافية لتقليل عمق تسلسل النموذج وتحسين كفاءة زمن الوصول للاستدلال.

تؤدي إزالة Puzzle لبعض طبقات الانتباه إلى هيكل فريد: تظهر كتل FFN مستمرة متعددة بشكل متكرر في هيكل النموذج.

تحدد FFN Fusion هذه الهياكل المستمرة وتستبدلها بطبقات FFN أقل ولكن أوسع وقابلة للتنفيذ بالتوازي.

تقلل طريقة الاستبدال هذه من خطوات الحساب المتسلسل دون التضحية بتعبير النموذج، مما يحسن بشكل كبير من استخدام موارد الحوسبة - خاصة في بيئات GPU المتعددة، حيث يكون الحمل الزائد للاتصال عبر الطبقات كبيرًا.

يتفوق نموذج LN-Ultra باستمرار على DeepSeek-R1 و Llama-3.1-405B من حيث الدقة والكفاءة، ويحقق توازنًا مثاليًا.

تدريب ما بعد NAS: تقطير المعرفة والتدريب المسبق المستمر

بعد مرحلة البحث عن البنية العصبية (NAS)، خضع كل من LN-Super و LN-Ultra لتدريب إضافي لتحسين التوافق بين الوحدات النمطية واستعادة أي فقدان في الجودة قد يكون حدث أثناء استبدال الوحدة النمطية.

  • تم تدريب LN-Super على مجموعة بيانات Distillation Mix مقابل 40 مليار رمز ضمن هدف تقطير المعرفة.
  • تم تدريب LN-Ultra في البداية على نفس مجموعة بيانات التقطير مقابل 65 مليار رمز، يليه تدريب مستمر على مجموعة بيانات التدريب المسبق للمرحلة الرابعة من Nemotron-H مقابل 88 مليار رمز.

مكّنت خطوة التدريب المسبق النهائية هذه LN-Ultra من ليس فقط اللحاق بالنموذج المرجعي، Llama 3.1-405B-Instruct، ولكن أيضًا تجاوزها في اختبارات قياسية رئيسية.

يوضح هذا أن التقطير والتدريب المسبق الموجزين يمكن أن يحققا التوافق بين التحسين المعماري العدواني وأداء النموذج العالي.

الضبط الدقيق الخاضع للإشراف: تحسين براعة الاستدلال

يعمل الضبط الدقيق الخاضع للإشراف (SFT) كـ “مدرب شخصي” لنماذج Llama-Nemotron، ويستهدف على وجه التحديد خطوات الاستدلال لمهام معينة وتعلم تقنيات الاستدلال من نماذج “الطلاب النجوم” مثل DeepSeek-R1.

لغرس مهارات الاستدلال الحقيقية، تعتبر بيانات التدريب على الاستدلال واسعة النطاق وعالية الجودة ضرورية.

البيانات الاصطناعية: مصممة خصيصًا للاستدلال

قام الباحثون برعاية عينات البيانات بعناية تحتوي على بيانات الاستدلال وغير الاستدلال للضبط الدقيق الخاضع للإشراف.

بالنسبة لعينات الاستدلال، أضافوا “التفكير التفصيلي قيد التشغيل” إلى تعليمات النظام، بينما بالنسبة لعينات غير الاستدلال، استخدموا “التفكير التفصيلي قيد الإيقاف”.

يسمح هذا الإعداد للنموذج بتبديل سلوك الاستدلال بناءً على المطالبات أثناء مرحلة الاستدلال.

تم إعداد البيانات الاصطناعية للاستدلال في الرياضيات والترميز والمجالات ذات الصلة.

لتدريب النموذج على اتباع تعليمات “تبديل الاستدلال”، قام الباحثون ببناء مجموعات بيانات مقترنة، حيث تتوافق كل مطالبة مع استجابة مع الاستدلال وأخرى بدون استدلال.

تمكن هذه المطابقة النموذج من تعلم ضبط سلوك الاستدلال الخاص به بناءً على تعليمات النظام.

يتم إجراء تصفية لاحقة لهذه الاستجابات بناءً على الإجابات القياسية أو نماذج المكافآت.

عملية الضبط الدقيق

تم تدريب جميع النماذج على بيانات الضبط الدقيق للتعليمات باستخدام خسارة الإنتروبيا المتقاطعة على مستوى الرمز المميز.

في معظم إعدادات التدريب، يتم خلط بيانات الاستدلال وغير الاستدلال لتشكيل دفعات التدريب، حيث تقترن كل مطالبة باستجابة مقابلة بناءً على تعليمات النظام “التفكير التفصيلي قيد التشغيل/الإيقاف”.

يمكن أن يؤدي تمديد التدريب إلى جولات متعددة إلى تحسين الأداء، خاصة بالنسبة للنماذج الأصغر.

تم استخدام NeMo-Aligner لتدريب التعلم المعزز، ودعم GRPO وتدريب النماذج غير المتجانسة.

تم استخدام vLLM لمرحلة التوليد، وتم استخدام Megatron-LM لمرحلة التدريب.

شاركت مرحلتا التدريب والاستدلال في نفس مجموعة وحدات معالجة الرسومات (GPUs)، وتم إنجازها على نفس الجهاز.

استخدمت عملية التدريب بأكملها 72 عقدة، كل منها مزودة بـ 8 وحدات معالجة رسومات H100.

استخدمت مرحلة التوليد دقة FP8، واستخدمت مرحلة التدريب دقة BF16، واستخدمت حالة المُحسِّن FP32.

حافظت كل مرحلة على وزن نموذج مستقل، والذي تمت مزامنته في بداية كل خطوة.

التعلم المعزز: المفتاح لتجاوز قدرة R1 على الاستدلال

يمكّن الضبط الدقيق الخاضع للإشراف (SFT) النموذج من استخراج المعرفة من نماذج المعلم القوية، وتحقيق قدرات ممتازة.

ومع ذلك، فإن تقطير المعرفة يضع بطبيعته حدًا لأداء نموذج الطالب، خاصة عندما لا تتجاوز قدرة النموذج الأساسي لنموذج الطالب قدرة نموذج المعلم.

من خلال الضبط الدقيق الخاضع للإشراف، يمكن لأداء LN-Ultra الاقتراب من DeepSeek-R1 ولكن لا يمكن تجاوزه.

يعتبر التعلم المعزز واسع النطاق (RL) طريقة قابلة للتطبيق لتمكين نموذج الطالب من تجاوز نموذج المعلم لأنه يسمح للنموذج باستكشاف إمكانيات جديدة والتعلم الذاتي باستمرار.

نظرًا لقيود الموارد، طبق الباحثون RL للاستدلال فقط على LN-Ultra، مما أدى إلى نموذج طالب تجاوز نموذج المعلم.

طوال عملية التدريب على التعلم المعزز للاستدلال، تحسنت دقة LN-Ultra في مجموعة بيانات GPQA-Diamond.

عملية التدريب: التركيز على الاستدلال العلمي

بالنسبة إلى LN-Ultra، عزز الباحثون قدرته على الاستدلال العلمي من خلال التعلم المعزز واسع النطاق (RL)، باستخدام خوارزمية Grouped Relative Policy Optimization (GRPO)، وهي نفس الخوارزمية التي يستخدمها DeepSeek-R1.

تطلبت عملية التدريب بأكملها ما يقرب من 140000 ساعة H100، وتدريب النموذج باستمرار حتى يتقارب في مهام الاستدلال.

تضمن تصميم آلية المكافأة فئتين:

  • مكافأة الدقة: استنادًا إلى الإجابات القياسية (رقمية/جملة/فقرة)، يقوم استدعاء نموذج Llama-3.3-70B-Instruct بتقييم درجة المطابقة لنتائج التنبؤ.
  • مكافأة التنسيق: باتباع مخطط DeepSeek-AI، يتم إجبار النموذج على تغليف عملية الاستدلال بعلامات <think\> في وضع “التفكير التفصيلي”، ويُحظر ظهور هذه العلامات في وضع التفكير غير التفصيلي.

قام فريق البحث أيضًا بمعالجة البيانات مسبقًا، بما في ذلك تصفية البيانات والتدريب على المناهج الدراسية.

  • فحص البيانات: يتم استخدام LN-Super مسبقًا لإنشاء 8 استجابات لكل سؤال، وتتم إزالة العينات البسيطة التي يزيد معدل النجاح فيها عن أو يساوي 75%.
  • التدريب على المناهج الدراسية: يتم اعتماد تخصيص الدفعات التدريجي بناءً على معدل النجاح.

التوزيع الديناميكي: نمذجة صعوبة الدفعة باستخدام دالة جاوسية، والتركيز في البداية على العينات عالية معدل النجاح (البسيطة) والتحول لاحقًا إلى العينات منخفضة معدل النجاح (الصعبة).

منطق الحشو: يتم تخصيص العينات وفقًا للتوزيع المستهدف أولاً، ويتم استكمال السعة المتبقية من أكبر تجمع للعينات المتبقية.

المعالجة داخل الدفعة: يتم خلط العينات في نفس الدفعة بشكل عشوائي للحفاظ على التنوع.

التعلم المعزز لتحسين التفضيلات

بعد الانتهاء من التدريب على الاستدلال العلمي، أجرى الباحثون مرحلة تعلم معزز موجزة لنموذجي LN-Super و LN-Ultra، مع التركيز علىتحسين قدراتهم على اتباع التعليمات.

استخدم الباحثون أيضًا RLHF لتحسين قدرات المساعدة العامة وأداء الدردشة للنماذج مع الاحتفاظ بقدرات النماذج في الرياضيات والعلوم والمجالات الأخرى.

حقق LN-Super نتيجة عالية بلغت 88.3 في اختبار Arena Hard، متجاوزًا النماذج الاحتكارية مثل Claude 3.5 Sonnet و GPT-4o-2024-05-13، وأيضًا أفضل من النماذج مفتوحة المصدر الأكبر حجمًا.

لتحقيق هذه النتيجة، اعتمدوا طريقة “OnLine Reward-Policy Optimization“، مما زاد من مكافأة التنبؤ بالنموذج على مجموعة بيانات HelpSteer2. كان نموذج المكافأة المستخدم هو Llama-3.1-Nemotron-70B-Reward.

أدت جولتان من تدريب RPO عبر الإنترنت إلى زيادة درجة Arena Hard من 69.1 إلى 88.1.

بالنسبة إلى LN-Ultra، استخدموا عملية مماثلة ولكنهم اعتمدوا GRPO.

بالنسبة إلى LN-Nano، أجروا جولتين من تدريب RPO دون اتصال بالإنترنت، باستخدام بيانات التدريب التي تم إنشاؤها بواسطة السياسة.

جمعت الجولة الأولى بين بيانات الاستدلال وغير الاستدلال مع مطالبات النظام المناسبة لتحسين قدرة النموذج على التحكم في الاستدلال. ركزت الجولة الثانية على تحسين القدرات على اتباع التعليمات.

نتائج التقييم: تقييم شامل

قام الباحثون بتقييم أداء جميع نماذج Llama-Nemotron في فئتين من المعايير: مهام الاستدلال ومهام غير الاستدلال.

تضمنت معايير الاستدلال: AIME24 و AIME25 و GPQA-Diamond و LiveCodeBench و MATH500.

تضمنت معايير غير الاستدلال: IFEval لتقييم اتباع التعليمات و BFCL V2 Live لتقييم استخدام أداة استدعاء الوظائف و Arena-Hard لتقييم التوافق مع تفضيلات المحادثة البشرية.

حقق LN-Nano أداءً ممتازًا في جميع معايير الاستدلال، على الرغم من صغر حجمه.

يوضح هذا أن عمليات الضبط الدقيق الخاضعة للإشراف ومجموعات بيانات الاستدلال المنظمة جيدًا فعالة في نقل قدرات الاستدلال المنظمة إلى نماذج أصغر.

أظهر LN-Super قدرة تنافسية قوية في كل من مهام الاستدلال وغير الاستدلال مقارنة بنماذج أخرى ذات مقياس معلمات مماثل.

في وضع “إيقاف تشغيل الاستدلال”، كان أداء LN-Super مماثلاً لنموذج المصدر المقطر الخاص به، Llama-3.3-70B؛ في وضع “تشغيل الاستدلال”، تجاوز النماذج المنافسة الأخرى، مثل DeepSeek-R1-Distilled-Llama-70B، مما يدل على قدرة استدلال قوية مع الحفاظ على قدرة جيدة على اتباع التعليمات.

تشير هذه النتائج إلى أن LN-Super هو نموذج متعدد الاستخدامات يجمع بين مزايا النماذج المحسنة للاستدلال والنماذج غير الاستدلالية، مما يجعله مناسبًا لمهام المساعدة اليومية ومهام الاستدلال المنظمة.

كان أداء LN-Ultra على قدم المساواة مع أو أفضل من جميع نماذج الأوزان مفتوحة المصدر الحالية في معايير الاستدلال وغير الاستدلال. لقد حقق المستوى الأكثر تقدمًا في النماذج مفتوحة المصدر على GPQA، مما يدل بشكل كامل على فعالية طرق تدريب التعلم المعزز واسعة النطاق لـ Nvidia researchers.

على عكس DeepSeek-R1، الذي يتطلب تكوين أجهزة 8 × H200، تم تحسين LN-Ultra ليعمل بكفاءة على عقدة 8 × H100 واحدة، مما يوفر إنتاجية استدلال أعلى وكفاءة نشر.

اقتربت مرحلة SFT في LN-Ultra أو وصلت إلى أداء DeepSeek-R1 في معايير استدلال متعددة (بما في ذلك GPQA و AIME).

بالإضافة إلى قدرات الاستدلال والحوار التي تم تدريب النموذج عليها في الأصل، فقد اختبروا أيضًا النموذج على مهمة توزيع.

على وجه التحديد، تم اختبار النموذج على مجموعة بيانات JudgeBench، مما يتطلب منه التمييز بين الإجابات عالية الجودة والإجابات منخفضة الجودة.

تفوق النموذج الجديد على أفضل النماذج الاحتكارية ومفتوحة المصدر الحالية في هذه المهمة.

أصبح LN-Ultra أفضل نموذج مفتوح المصدر أداءً، متجاوزًا بشكل كبير DeepSeek-R1، وثاني أفضل من النموذج الاحتكاري o3-mini(high).

بالإضافة إلى ذلك، تجاوز أداء LN-Super أيضًا o1-mini، مما يشير إلى أن النموذج الجديد لديه قدرة تعميم قوية في مختلف المهام.