NVIDIA تكشف AceReason-Nemotron: ثورة التعلم بالتعزيز في الاستدلال الرياضي والبرمجي
لطالما كان السعي وراء الذكاء الاصطناعي القادر على الاستدلال الحقيقي هدفًا مركزيًا في هذا المجال. أثارت الإثارة الأولية حول نموذج OpenAI “o1” اهتمامًا واسع النطاق بالاستفادة من تقنيات التعلم بالتعزيز واسع النطاق (RL) لبناء أنظمة قادرة على الاستدلال المتطور. بعد ذلك، عزز قرار DeepSeek-R1 بإطلاق نموذجه كمصدر مفتوح الحماس بشكل أكبر ومكّن مجتمع الذكاء الاصطناعي من متابعة تطوير نماذج استدلال متطورة بقوة.
ومع ذلك، سرعان ما خفت حدة هذا النشاط الأولي بسبب عقبة كبيرة. التفاصيل الفنية الحاسمة، التي تعتبر ذات أهمية حيوية للتكرار الناجح - على وجه التحديد، الاستراتيجيات الدقيقة المستخدمة لتنظيم البيانات والوصفات المعقدة التي تحكم تدريب RL - كانت غائبة بشكل واضح عن تقرير DeepSeek-R1 الأصلي. ترك هذا الإغفال الباحثين في حالة من الإحباط الشديد، وهم يتصارعون مع تحدي إعادة إنتاج النجاحات المبلغ عنها. كانت النتيجة عبارة عن مشهد بحثي مجزأ إلى حد ما، مع بذل العديد من الجهود المستقلة لاستكشاف أحجام النماذج المختلفة ونقاط التفتيش الأولية المختلفة ومجموعة متنوعة من المجالات المستهدفة. على الرغم من هذا النشاط المكثف، ظلت وصفة التدريب الشاملة والفعالة باستمرار بعيدة المنال.
ركزت الأساليب التقليدية لتدريب نماذج اللغة للاستدلال في المقام الأول على مجالات الرياضيات وكود الكمبيوتر. تعتمد هذه المنهجيات عمومًا على مزيج من التدريب المسبق على مجموعات بيانات كبيرة والضبط الدقيق الخاضع للإشراف لتخصيص النماذج لهذه المهام المحددة. لم تسفر المحاولات المبكرة لدمج التعلم بالتعزيز في هذه العملية، عادةً عن طريق استخدام نماذج المكافآت الخاصة بالمجال، إلا عن مكاسب محدودة. نشأ هذا من التحديات الكامنة المرتبطة بالمهام الرياضية ومهام الترميز، حيث يمكن أن تؤدي الأخطاء الطفيفة إلى نتائج غير صحيحة بشكل كبير.
استكشفت التحقيقات الحديثة، التي حفزها إصدار DeepSeek-R1، استخدام طرق التحقق القائمة على القواعد. في مجال الرياضيات، تتضمن هذه الطرق غالبًا طلب تنسيقات إخراج محددة تمكن من التحقق الدقيق والتلقائي من الحل. وبالمثل، في سياق التعليمات البرمجية، استفاد الباحثون من آليات التغذية الراجعة الكامنة في الترجمة والتنفيذ لتوجيه عملية التعلم. ومع ذلك، ركزت هذه الأساليب بشكل عام بشكل ضيق على المجالات الفردية، وتفتقر إلى القدرة على التعامل بفعالية مع المطالبات غير المتجانسة التي تمزج بين المشكلات الرياضية والبرمجية. علاوة على ذلك، غالبًا ما اقتصرت التقييمات على معايير محددة مثل AIME و LiveCodeBench، مما يحد من إمكانية تعميم النتائج. أخيرًا، لا يزال عدم استقرار التدريب يمثل مشكلة مستمرة، وغالبًا ما يتطلب استخدام تقنيات معقدة مثل الزيادات التدريجية في طول الاستجابة وتخفيف انهيار الإنتروبيا.
الآن، يقوم الباحثون في NVIDIA بتغيير قواعد اللعبة، حيث يوضحون الإمكانات الكبيرة للتعلم بالتعزيز واسع النطاق لتحسين قدرات الاستدلال للنماذج الصغيرة والمتوسطة الحجم بشكل كبير. تحقق أساليبهم مستويات أداء تتجاوز أحدث الأساليب القائمة على تقنيات التقطير. يستخدم نهج NVIDIA إستراتيجية تدريب تسلسلية: أولاً، إجراء تدريب RL حصريًا على المطالبات المتعلقة بالرياضيات، ثم التبديل لاحقًا إلى المطالبات التي تركز فقط على التعليمات البرمجية.
طريقة تسلسلية لتحسين الاستدلال
ما هي النتائج؟ لا يؤدي تدريب RL الأولي على المشكلات الرياضية إلى تحسين الأداء بشكل كبير على المعايير الرياضية فحسب، بل يولد أيضًا، بشكل مفاجئ، دفعة كبيرة في قدرات الاستدلال على التعليمات البرمجية. علاوة على ذلك، فإن التكرارات الممتدة لتدريب RL التي تركز تحديدًا على التعليمات البرمجية تزيد من تحسين أداء التعليمات البرمجية مع الحد الأدنى من التدهور في الأداء الرياضي. يسلط هذا النهج الضوء على نقطة حاسمة: يمكن أن يكون التدريب الرياضي بمثابة أساس قوي لمهام الاستدلال الأكثر تعقيدًا مثل الترميز.
جزء لا يتجزأ من نجاح نهج NVIDIA هو خط أنابيب تنظيم بيانات قوي. تم تصميم خط الأنابيب هذا بدقة لجمع المطالبات الصعبة التي تتميز بصعوبة عالية وتوافر إجابات وحالات اختبار عالية الجودة وقابلة للتحقق. يسمح ذلك بتطبيق RL المستند إلى التحقق بشكل فعال عبر المجالات الرياضية والبرمجية.
تنظيم البيانات للرياضيات والتعليمات البرمجية
تفرق منهجية تنظيم البيانات التي يستخدمها باحثو NVIDIA بعناية بين متطلبات RL للرياضيات فقط وRL للتعليمات البرمجية فقط.
RL للرياضيات فقط: يتضمن إنشاء بيانات التدريب لـ RL للرياضيات فقط دمج البيانات من مجموعتي بيانات DeepScaler وNuminaMath. تشمل مجموعات البيانات هذه مجموعة واسعة من الموضوعات الرياضية، بما في ذلك الجبر والتوافيق ونظرية الأعداد والهندسة. للحفاظ على سلامة البيانات، يتم تطبيق عملية تصفية صارمة، باستخدام مرشح 9-gram لإزالة المحتوى الزائد أو غير المناسب وتنفيذ قواعد استبعاد صارمة لإزالة الإدخالات التي يحتمل أن تكون إشكالية. ثم يلعب نموذج DeepSeek-R1 دورًا حاسمًا في التحقق من جودة الأسئلة. يخضع كل سؤال لثماني محاولات مستقلة من قبل النموذج، ولا يتم الاحتفاظ إلا بتلك الحلول التي تتلقى تصويت أغلبية على الصحة عبر التحقق القائم على القواعد لإدراجها في مجموعة البيانات النهائية.
RL للتعليمات البرمجية فقط: يتم إنشاء مجموعة البيانات الخاصة بـ RL للتعليمات البرمجية فقط باستخدام البيانات التي يتم الحصول عليها من منصات البرمجة التنافسية الحديثة. توفر هذه المنصات مصدرًا غنيًا لمشكلات الترميز التي تغطي مجموعة متنوعة من الموضوعات الخوارزمية. يتم تنسيق المشكلات لتتوافق مع اصطلاحات استدعاء الوظائف والإدخال/الإخراج القياسي (stdin/stdout) المستخدمة بشكل شائع في هذه البيئات. يتعهد الباحثون بعملية تصفية دقيقة لإزالة المشكلات غير المتوافقة وتنظيم حالات الاختبار الشاملة بدقة المصممة لتغطية الحالات الحافة والشروط الحدودية. علاوة على ذلك، يتم تعيين درجة صعوبة لكل مشكلة يتم تحديدها من خلال التقييم بواسطة نموذج DeepSeek-R1-671B. تؤدي هذه العملية الصارمة إلى مجموعة بيانات عالية الجودة تتكون من 8520 مشكلة ترميز تم التحقق منها.
AceReason-Nemotron: النتائج والمعايير
نتائج بحث NVIDIA مقنعة. يحقق نموذج AceReason-Nemotron-7B تحسينات كبيرة في الدقة بنسبة 14.5٪ و 14.6٪ في مسابقتي AIME 2024 و 2025 الصعبة، على التوالي، مقارنة بنماذج SFT الأولية. علاوة على ذلك، فإنه يوضح مكاسب كبيرة بنسبة 14.2٪ و 8٪ في معايير LiveCodeBench v5 و v6، على التوالي. يعرض المتغير الأكبر 14B من النموذج أداءً أكبر، ويتفوق على النماذج الأكبر مثل DeepSeek-R1-Distill-Qwen-32B و DeepSeek-R1-Distill-Llama-70B. يحقق هذا أفضل النتائج في فئته بين نماذج الاستدلال القائمة على RL المفتوحة.
بالمقارنة مع أحدث النماذج القائمة على التقطير، يتفوق AceReason-Nemotron-14B على OpenMath-14B/32B بنسبة 2.1٪/4.4٪ في معايير AIME و OpenCodeReasoning-14B بنسبة 1.7٪/0.8٪ في LiveCodeBench. يوضح هذا بشكل مقنع أن RL يمكن أن يحقق حدودًا عليا للأداء أعلى من طرق التقطير مع الحفاظ على أداء تنافسي ضد النماذج الحدودية المتقدمة مثل QWQ-32B و o3-mini.
آثار هذه النتائج كبيرة. تشير إلى أن RL واسع النطاق لديه القدرة على إطلاق مستويات جديدة من قدرات الاستدلال في نماذج الذكاء الاصطناعي، متجاوزًا قيود الأساليب التقليدية. توفر إستراتيجية التدريب الخاصة بالمجال التسلسلية، جنبًا إلى جنب مع خط أنابيب تنظيم البيانات القوي، مخططًا للبحث المستقبلي في هذا المجال.
التعلم بالتعزيز يدفع حدود الاستدلال
يؤكد هذا البحث على الإمكانات الكبيرة للتعلم بالتعزيز لدفع حدود قدرات الاستدلال النموذجية. من خلال توظيفالتدريب الخاص بالمجال بشكل استراتيجي وتنظيم البيانات عالية الجودة بدقة، يتيح ذلك لنماذج الذكاء الاصطناعي حل المشكلات التي كانت مستعصية سابقًا وتحديد معايير جديدة لتطوير نماذج الاستدلال ويؤدي في النهاية إلى جيل جديد من أنظمة الذكاء الاصطناعي القادرة على مواجهة تحديات العالم الحقيقي بدقة وكفاءة غير مسبوقتين. القدرة على الاستدلال بفعالية هي حجر الزاوية في الذكاء، وتمثل التطورات التي حققتها NVIDIA خطوة رئيسية نحو تحقيق الإمكانات الكاملة للذكاء الاصطناعي. من المرجح أن يركز البحث المستقبلي على توسيع نطاق هذه التقنيات لتشمل نماذج أكبر واستكشاف استراتيجيات جديدة لتنظيم البيانات لزيادة تحسين أداء الاستدلال. سيكون تطوير وظائف المكافأة الأكثر تطوراً واستراتيجيات الاستكشاف أمرًا بالغ الأهمية أيضًا للتغلب على التحديات المرتبطة بتدريب نماذج الذكاء الاصطناعي لمهام الاستدلال المعقدة. في النهاية، الهدف هو إنشاء أنظمة الذكاء الاصطناعي التي يمكنها الاستدلال والتعلم والتكيف بطريقة مماثلة للبشر، مما يمكنها من حل المشكلات المعقدة واتخاذ قرارات مستنيرة عبر مجموعة واسعة من المجالات.
علاوة على ذلك، يوفر استخدام RL مزايا تتجاوز الدقة الأولية. يمكن لوكلاء RL أن يتعلموا التحسين لتحقيق مجموعة متنوعة من الأهداف، مثل الكفاءة والقوة والتفسير. على سبيل المثال، يمكن تدريب وكيل RL لإنشاء تعليمات برمجية ليست صحيحة فحسب، بل أيضًا فعالة وسهلة الفهم. هذه القدرة مهمة بشكل خاص في التطبيقات الحيوية للسلامة، حيث من الضروري التأكد من أن أنظمة الذكاء الاصطناعي موثوقة ويمكن التنبؤ بها.
يسلط عمل NVIDIA الضوء على الأهمية المتزايدة لتنظيم البيانات في أبحاث الذكاء الاصطناعي. جودة بيانات التدريب لها تأثير كبير على أداء نماذج الذكاء الاصطناعي، وتعتبر مجموعات البيانات المنظمة بعناية ضرورية لتحقيق أحدث النتائج. يعد خط أنابيب تنظيم البيانات الذي طورته NVIDIA موردًا قيمًا للباحثين الذين يعملون على نماذج الاستدلال، ويمكن تعديله للاستخدام في مجالات أخرى أيضًا.
ثبت أن الجمع بين RL واسع النطاق والتدريب الخاص بالمجال وتنظيم البيانات القوي هو تركيبة ناجحة لتحسين قدرات الاستدلال لنماذج الذكاء الاصطناعي. مع استمرار تطور هذه التقنيات، يمكننا أن نتوقع رؤية المزيد من التطورات الرائعة في مجال الذكاء الاصطناعي، ونأمل أن نرى تقدمًا مستمرًا في نماذج الذكاء الاصطناعي في المستقبل القريب.