Nvidia का नया ओपन-सोर्स मॉडल: DeepSeek-R1 से बेहतर | hi

Nvidia के Llama-Nemotron सीरीज मॉडल ने आधिकारिक तौर पर DeepSeek-R1 को पीछे छोड़ दिया है, और उनके प्रशिक्षण का विवरण पूरी तरह से disclosed किया गया है, जिससे यह पता चलता है कि इन मॉडलों को बेहतर प्रदर्शन प्राप्त करने के लिए कैसे विकसित किया गया था।

ये मॉडल अब पूरी तरह से ओपन-सोर्स हैं, जो accessible AI टेक्नोलॉजी में एक महत्वपूर्ण advancement का प्रतीक है। इसका मतलब है कि inference मॉडलों की एक series जो inference throughput और memory efficiency के मामले में DeepSeek-R1 से काफी बेहतर प्रदर्शन करती है, अब किसी के भी उपयोग और modify करने के लिए उपलब्ध है।

मॉडल की सफलता के पीछे के रहस्य का अनावरण

तो, वास्तव में इन मॉडलों, जो DeepSeek-R1 से बेहतर हैं, कैसे बनाए गए? Nvidia की टेक्निकल रिपोर्ट उनके प्रशिक्षण प्रक्रिया के महत्वपूर्ण तत्वों को reveal करती है:

सिंथेटिक डेटा + रीइन्फोर्समेंट लर्निंग के साथ सुपरवाइज्ड फाइन-ट्यूनिंग: यह combination मॉडल की रीजनिंग क्षमताओं को काफी हद तक enhance करता है।
व्यापक पोस्ट-ट्रेनिंग प्रोसेस: मॉडल के प्रदर्शन को optimizing करने के लिए एक robust और well-designed पोस्ट-ट्रेनिंग प्रोसेस महत्वपूर्ण है।

पिछले महीने, Nvidia ने आधिकारिक तौर पर Llama-Nemotron 253B की घोषणा की, जिसने जल्दी ही Llama 4 को overshadowed कर दिया (जो केवल तीन दिन पुराना था और leaderboard manipulation के कारण "integrity crisis" का सामना कर रहा था)। इस सीरीज के मॉडल के release ने उद्योग में काफी हलचल मचा दी।

आर्टिफिशियल एनालिसिस इंटेलिजेंस इंडेक्स के अनुसार, Llama-Nemotron-Ultra को वर्तमान में अप्रैल 2025 तक "सबसे बुद्धिमान" ओपन-सोर्स मॉडल माना जाता है।

Nvidia ने Llama-Nemotron सीरीज में तीन मॉडल लॉन्च किए: LN-Nano 8B, LN-Super 49B, और LN-Ultra 253B।

Notably, LN-Ultra न केवल प्रदर्शन में DeepSeek-R1 से बेहतर प्रदर्शन करता है बल्कि एक single 8xH100 node पर भी चलता है, जो higher inference throughput प्रदान करता है।

ये मॉडल strong रीजनिंग क्षमताओं और 128K तक की context length को बनाए रखते हुए high-throughput inference के लिए optimized हैं।

Moreover, Nvidia ने ग्लोबल AI ओपन-सोर्स कम्युनिटी में एक groundbreaking inference switch feature पेश किया है। उपयोगकर्ता सिस्टम प्रॉम्प्ट "detailed thinking on/off" का उपयोग करके standard चैट मोड और रीजनिंग मोड के बीच dynamically switch कर सकते हैं।

यह डिज़ाइन मॉडल को सामान्य everyday आवश्यकताओं को पूरा करने और विभिन्न मॉडलों या architectures की आवश्यकता के बिना complex, multi-step रीजनिंग कार्यों को संभालने की अनुमति देता है।

निर्माण प्रक्रिया: एक पांच-चरण दृष्टिकोण

Llama-Nemotron मॉडल का निर्माण पांच distinct चरणों में विभाजित है:

स्टेज 1: Llama 3 सीरीज मॉडलों के आधार पर neural architecture search (NAS) का उपयोग करके रीजनिंग दक्षता का optimization, जिसमें Feedforward Network Fusion (FFN Fusion) का परिचय दिया गया है।

स्टेज 2: ज्ञान आसवन और निरंतर प्री-ट्रेनिंग के माध्यम से मॉडल प्रदर्शन की रिकवरी।

स्टेज 3: सुपरवाइज्ड फाइन-ट्यूनिंग (SFT), जो standard instruction डेटा को DeepSeek-R1 जैसे शक्तिशाली टीचर मॉडल से रीजनिंग प्रोसेस के साथ जोड़ती है, जिससे मॉडल मल्टी-स्टेप रीजनिंग करने में सक्षम होता है।

स्टेज 4: Complex गणितीय और STEM datasets पर बड़े पैमाने पर रीइन्फोर्समेंट लर्निंग, जो छात्र मॉडल के लिए टीचर मॉडल की क्षमताओं को surpass करने के लिए महत्वपूर्ण है। LN-Ultra के लिए, यह चरण GPQA-D बेंचमार्क पर प्रदर्शन में काफी सुधार करता है, जिससे यह ओपन-सोर्स डोमेन में वैज्ञानिक रीजनिंग के लिए सबसे मजबूत मॉडल बन जाता है।

इस तरह के बड़े पैमाने पर रीइन्फोर्समेंट लर्निंग ट्रेनिंग का समर्थन करने के लिए, टीम ने कई optimization उपायों के साथ एक नया ट्रेनिंग फ्रेमवर्क विकसित किया, जो सबसे महत्वपूर्ण रूप से FP8 precision generation क्षमता का समर्थन करता है।

स्टेज 5: instruction following और मानवीय प्राथमिकताओं का पालन करने पर केंद्रित एक संक्षिप्त alignment ट्रेनिंग।

Optimized Inference दक्षता के लिए अभिनव आर्किटेक्चर

LN-Super और LN-Ultra मॉडल inference दक्षता को optimized करने के लिए neural architecture search के लिए Puzzle फ्रेमवर्क का लाभ उठाते हैं।

Puzzle बड़े लैंग्वेज मॉडलों को हार्डवेयर-adapted, efficient version में बदल देता है, जो deployment के लिए optimized हैं।

"ब्लॉक-बाय-ब्लॉक लोकल डिस्टिलेशन" के माध्यम से, डेवलपर्स ने Llama 3 Instruct का उपयोग करके alternative Transformer मॉड्यूल की एक library बनाई।

इस प्रक्रिया में, प्रत्येक मॉड्यूल को स्वतंत्र रूप से और समानांतर में प्रशिक्षित किया जाता है, कम्प्यूटेशनल प्रदर्शन को optimizing करते हुए मूल मॉड्यूल की कार्यक्षमता का अनुमान लगाता है।

प्रत्येक alternative मॉड्यूल में विशिष्ट "precision-efficiency" trade-offs होते हैं। कुछ मॉड्यूल अधिक efficient होते हैं लेकिन इसके परिणामस्वरूप कुछ गुणवत्ता में गिरावट आ सकती है, जिससे कम्प्यूटेशनल लागत और मॉडल accuracy के बीच एक स्पष्ट trade-off बनता है।

इन मॉड्यूल variations में शामिल हैं:

अटेंशन मैकेनिज्म रिमूवल: कुछ मॉड्यूल कम्प्यूटेशन और KV cache मेमोरी consumption की मात्रा को कम करते हुए अटेंशन मैकेनिज्म को पूरी तरह से छोड़ देते हैं।

वेरिएबल FFN डायमेंशन्स: फ़ीडफ़ॉरवर्ड नेटवर्क के इंटरमीडिएट डायमेंशन्स को adjusted किया जाता है, जिससे विभिन्न granularities पर मॉडल compression की अनुमति मिलती है।

मॉड्यूल लाइब्रेरी बनाने के बाद, Puzzle एक complete मॉडल को assemble करने के लिए प्रत्येक लेयर से एक मॉड्यूल का चयन करता है।

यह चयन प्रक्रिया एक मिश्रित-पूर्णांक प्रोग्रामिंग (MIP) सॉल्वर द्वारा नियंत्रित की जाती है, जो हार्डवेयर compatibility, अधिकतम अनुमत लेटेंसी, मेमोरी बजट, या वांछित inference थ्रूपुट जैसी constraints के आधार पर इष्टतम कॉन्फ़िगरेशन ढूंढता है।

वर्टिकल Compression और FFN फ्यूजन

LN-Ultra मॉडल में, शोधकर्ताओं ने मॉडल की sequence डेप्थ को कम करने और रीजनिंग लेटेंसी दक्षता में सुधार करने के लिए एक additional compression तकनीक FFN Fusion (Feedforward Network Fusion) पेश की।

Puzzle द्वारा कुछ अटेंशन लेयर्स को हटाने के परिणामस्वरूप एक अद्वितीय संरचना बनती है: मॉडल संरचना में कई continuous FFN ब्लॉक अक्सर दिखाई देते हैं।

FFN Fusion इन continuous संरचनाओं की पहचान करता है और उन्हें कम लेकिन व्यापक, समानांतर-executable FFN लेयर्स से बदल देता है।

यह रिप्लेसमेंट मेथड मॉडल expressiveness का त्याग किए बिना sequential कैलकुलेशन के चरणों को कम करता है, कंप्यूटिंग संसाधनों के उपयोग में काफी सुधार करता है - खासकर मल्टी-GPU environments में, जहां क्रॉस-लेयर कम्युनिकेशन ओवरहेड महत्वपूर्ण है।

LN-Ultra मॉडल accuracy और दक्षता के मामले में लगातार DeepSeek-R1 और Llama-3.1-405B से बेहतर प्रदर्शन करता है, एक इष्टतम बैलेंस प्राप्त करता है।

पोस्ट-NAS ट्रेनिंग: ज्ञान आसवन और निरंतर प्री-ट्रेनिंग

neural architecture search (NAS) चरण के बाद, LN-Super और LN-Ultra दोनों ने मॉड्यूल के बीच compatibility में सुधार करने और मॉड्यूल रिप्लेसमेंट के दौरान होने वाले किसी भी गुणवत्ता नुकसान को recover करने के लिए अतिरिक्त ट्रेनिंग ली।

LN-Super को ज्ञान आसवन उद्देश्य के तहत डिस्टिलेशन मिक्स डेटासेट पर 40 बिलियन टोकन के लिए प्रशिक्षित किया गया था।
LN-Ultra को शुरू में उसी डिस्टिलेशन डेटासेट पर 65 बिलियन टोकन के लिए प्रशिक्षित किया गया था, जिसके बाद नेमोट्रॉन-एच चौथे चरण के प्री-ट्रेनिंग डेटासेट पर 88 बिलियन टोकन के लिए निरंतर ट्रेनिंग दी गई।

इस अंतिम प्री-ट्रेनिंग चरण ने LN-Ultra को न केवल रेफरेंस मॉडल, Llama 3.1-405B-Instruct के साथ catch up करने में सक्षम बनाया, बल्कि इसे प्रमुख बेंचमार्क टेस्ट में भी surpass कर दिया।

यह दर्शाता है कि संक्षिप्त आसवन और प्री-ट्रेनिंग आक्रामक वास्तुशिल्प अनुकूलन और उच्च मॉडल प्रदर्शन के बीच compatibility प्राप्त कर सकते हैं।

सुपरवाइज्ड फाइन-ट्यूनिंग: रीजनिंग प्रवीणता को रिफाइन करना

सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) Llama-Nemotron मॉडलों के लिए एक "पर्सनल ट्रेनर" के रूप में कार्य करता है, विशेष रूप से विशिष्ट कार्यों के लिए रीजनिंग चरणों को लक्षित करता है और DeepSeek-R1 जैसे "स्टार स्टूडेंट" मॉडल से inference तकनीक सीखता है।

वास्तविक रीजनिंग कौशल को जगाने के लिए, बड़े पैमाने पर, उच्च गुणवत्ता वाले रीजनिंग ट्रेनिंग डेटा आवश्यक है।

सिंथेटिक डेटा: रीजनिंग के लिए टेलर

शोधकर्ताओं ने सुपरवाइज्ड फाइन-ट्यूनिंग के लिए रीजनिंग और नॉन-रीजनिंग दोनों डेटा वाले डेटा सैंपलों को सावधानीपूर्वक क्यूरेट किया।

रीजनिंग सैंपलों के लिए, उन्होंने सिस्टम निर्देशों में "detailed thinking on" जोड़ा, जबकि नॉन-रीजनिंग सैंपलों के लिए, उन्होंने "detailed thinking off" का उपयोग किया।

यह सेटिंग मॉडल को रीजनिंग चरण के दौरान प्रॉम्प्ट के आधार पर रीजनिंग व्यवहार को switch करने की अनुमति देती है।

मैथ, कोडिंग और संबंधित क्षेत्रों में रीजनिंग के लिए सिंथेटिक डेटा तैयार किया गया था।

मॉडल को "रीजनिंग स्विच" निर्देशों का पालन करने के लिए प्रशिक्षित करने के लिए, शोधकर्ताओं ने paired datasets बनाए, जहां प्रत्येक प्रॉम्प्ट रीजनिंग के साथ और एक बिना रीजनिंग के प्रतिक्रिया से मेल खाता है।

यह पेयरिंग मॉडल को सिस्टम निर्देशों के आधार पर अपने रीजनिंग व्यवहार को adjust करना सीखने में सक्षम बनाता है।

इन प्रतिक्रियाओं की बाद की फ़िल्टरिंग मानक उत्तरों या reward मॉडल के आधार पर की जाती है।

फाइन-ट्यूनिंग प्रोसेस

सभी मॉडलों को टोकन-लेवल क्रॉस-एंट्रॉपी लॉस का उपयोग करके instruction फाइन-ट्यूनिंग डेटा पर प्रशिक्षित किया गया था।

अधिकांश ट्रेनिंग सेटिंग्स में, "detailed thinking on/off" सिस्टम निर्देशों के आधार पर प्रत्येक प्रॉम्प्ट को एक corresponding प्रतिक्रिया के साथ पेयर किया जाता है, जहां रीजनिंग और नॉन-रीजनिंग डेटा को ट्रेनिंग बैच बनाने के लिए मिलाया जाता है।

ट्रेनिंग को कई राउंड तक बढ़ाने से प्रदर्शन में सुधार हो सकता है, खासकर छोटे मॉडलों के लिए।

NeMo-Aligner का उपयोग रीइन्फोर्समेंट लर्निंग ट्रेनिंग के लिए किया गया था, जो GRPO और हेटेरोजेनस मॉडलों की ट्रेनिंग का समर्थन करता है।

जेनरेशन चरण के लिए vLLM का उपयोग किया गया था, और ट्रेनिंग चरण के लिए Megatron-LM का उपयोग किया गया था।

ट्रेनिंग और रीजनिंग चरणों ने GPU के एक ही बैच को साझा किया, जो एक ही डिवाइस पर पूरा हुआ।

पूरी ट्रेनिंग प्रक्रिया में 72 नोड्स का उपयोग किया गया, जिनमें से प्रत्येक में 8 H100 GPU लगे थे।

जेनरेशन चरण ने FP8 precision का उपयोग किया, ट्रेनिंग चरण ने BF16 precision का उपयोग किया, और ऑप्टिमाइज़र स्टेट ने FP32 का उपयोग किया।

प्रत्येक चरण ने एक स्वतंत्र मॉडल वेट बनाए रखा, जिसे प्रत्येक चरण की शुरुआत में सिंक्रोनाइज़ किया गया था।

रीइन्फोर्समेंट लर्निंग: R1 की रीजनिंग क्षमता को Surpass करने की कुंजी

सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) मॉडल को शक्तिशाली टीचर मॉडलों से ज्ञान निकालने में सक्षम बनाता है, जो उत्कृष्ट क्षमताएं प्राप्त करता है।

हालांकि, ज्ञान आसवन स्वाभाविक रूप से छात्र मॉडल के प्रदर्शन पर एक सीमा निर्धारित करता है, खासकर जब छात्र मॉडल की बेस मॉडल क्षमता टीचर मॉडल की तुलना में अधिक न हो।

सुपरवाइज्ड फाइन-ट्यूनिंग के माध्यम से, LN-Ultra का प्रदर्शन DeepSeek-R1 के करीब पहुंच सकता है लेकिन इसे surpass नहीं कर सकता है।

बड़े पैमाने पर रीइन्फोर्समेंट लर्निंग (RL) छात्र मॉडल को टीचर मॉडल को surpass करने में सक्षम बनाने का एक viable तरीका है क्योंकि यह मॉडल को लगातार नई संभावनाओं का पता लगाने और स्व-सीखने की अनुमति देता है।

संसाधन constraints के कारण, शोधकर्ताओं ने केवल LN-Ultra पर रीजनिंग RL लागू किया, जिसके परिणामस्वरूप एक छात्र मॉडल बना जिसने टीचर मॉडल को surpass कर दिया।

पूरी रीजनिंग रीइन्फोर्समेंट लर्निंग ट्रेनिंग प्रक्रिया के दौरान, GPQA-Diamond डेटासेट पर LN-Ultra की accuracy में सुधार हुआ।

ट्रेनिंग प्रोसेस: वैज्ञानिक रीजनिंग पर फोकस

LN-Ultra के लिए, शोधकर्ताओं ने Grouped Relative Policy Optimization (GRPO) एल्गोरिथम का उपयोग करके बड़े पैमाने पर रीइन्फोर्समेंट लर्निंग (RL) के माध्यम से अपनी वैज्ञानिक रीजनिंग क्षमता को बढ़ाया, उसी का उपयोग DeepSeek-R1 द्वारा किया गया था।

पूरी ट्रेनिंग प्रक्रिया में लगभग 140,000 H100 घंटे लगे, मॉडल को लगातार रीजनिंग कार्यों पर तब तक प्रशिक्षित किया गया जब तक कि यह अभिसरित न हो जाए।

reward मैकेनिज्म डिज़ाइन में दो श्रेणियां शामिल थीं:

accuracy रिवार्ड: मानक उत्तरों (संख्यात्मक/वाक्य/पैराग्राफ) के आधार पर, Llama-3.3-70B-Instruct मॉडल भविष्यवाणी परिणामों की मिलान डिग्री का न्याय करता है।
फॉर्मेट रिवार्ड: DeepSeek-AI की योजना का पालन करते हुए, मॉडल को "detailed thinking" मोड में रीजनिंग प्रक्रिया को <think\> टैग के साथ रैप करने के लिए मजबूर किया जाता है, और गैर-विस्तृत सोच मोड में ऐसे टैग की उपस्थिति निषिद्ध है।

अनुसंधान टीम ने डेटा फ़िल्टरिंग और पाठ्यक्रम ट्रेनिंग सहित डेटा को प्री-प्रोसेस भीकिया।

डेटा स्क्रीनिंग: LN-Super का उपयोग प्रत्येक प्रश्न के लिए 8 प्रतिक्रियाएं उत्पन्न करने के लिए अग्रिम में किया जाता है, और 75% ≥ पास दर वाले सरल सैंपलों को हटा दिया जाता है।
पाठ्यक्रम ट्रेनिंग: पास दर के आधार पर प्रोग्रेसिव बैच आवंटन अपनाया जाता है।

डायनामिक डिस्ट्रीब्यूशन: एक गॉसियन फ़ंक्शन के साथ मॉडलिंग बैच कठिनाई, शुरू में उच्च-पास-दर (सरल) सैंपलों पर ध्यान केंद्रित करना और बाद में कम-पास-दर (कठिन) सैंपलों पर शिफ्ट होना।

पैडिंग लॉजिक: सैंपलों को पहले लक्ष्य वितरण के अनुसार आवंटित किया जाता है, और शेष क्षमता को सबसे बड़े शेष सैंपल पूल से supplement किया जाता है।

इंट्रा-बैच प्रोसेसिंग: विविधता बनाए रखने के लिए एक ही बैच में सैंपलों को बेतरतीब ढंग से शफ़ल किया जाता है।

वरीयता अनुकूलन के लिए रीइन्फोर्समेंट लर्निंग

वैज्ञानिक रीजनिंग ट्रेनिंग पूरी करने के बाद, शोधकर्ताओं ने LN-Super और LN-Ultra मॉडल के लिए instruction-following क्षमताओं में सुधार पर ध्यान केंद्रित करते हुए एक संक्षिप्त रीइन्फोर्समेंट लर्निंग चरण आयोजित किया।

शोधकर्ताओं ने RLHF का उपयोग मॉडलों की सामान्य सहायता क्षमताओं और चैट प्रदर्शन को optimizing करने के लिए भी किया, जबकि गणित, विज्ञान और अन्य क्षेत्रों में मॉडलों की क्षमताओं को बनाए रखा।

LN-Super ने एरेना हार्ड टेस्ट में 88.3 का उच्च स्कोर प्राप्त किया, जो Claude 3.5 Sonnet और GPT-4o-2024-05-13 जैसे मालिकाना मॉडल को surpass कर गया, और बड़े ओपन-सोर्स मॉडल से भी बेहतर प्रदर्शन किया।

इस परिणाम को प्राप्त करने के लिए, उन्होंने "OnLine Reward-Policy Optimization" विधि को अपनाया, जिससे HelpSteer2 डेटासेट पर मॉडल की भविष्यवाणी reward अधिकतम हो गई। उपयोग किया गया reward मॉडल Llama-3.1-Nemotron-70B-Reward था।

ऑनलाइन RPO ट्रेनिंग के दो राउंड ने एरेना हार्ड स्कोर को 69.1 से बढ़ाकर 88.1 कर दिया।

LN-Ultra के लिए, उन्होंने एक समान प्रक्रिया का उपयोग किया लेकिन GRPO को अपनाया।

LN-Nano के लिए, उन्होंने नीति-उत्पादित ट्रेनिंग डेटा का उपयोग करते हुए ऑफ़लाइन RPO ट्रेनिंग के दो राउंड आयोजित किए।

पहले राउंड में मॉडल की रीजनिंग नियंत्रण क्षमता को अनुकूलित करने के लिए उचित सिस्टम प्रॉम्प्ट के साथ रीजनिंग और नॉन-रीजनिंग डेटा को मिलाया गया। दूसरा राउंड instruction-following क्षमताओं में सुधार पर केंद्रित था।

मूल्यांकन परिणाम: एक व्यापक मूल्यांकन

शोधकर्ताओं ने सभी Llama-Nemotron मॉडल के प्रदर्शन का मूल्यांकन दो बेंचमार्क श्रेणियों पर किया: रीजनिंग कार्य और नॉन-रीजनिंग कार्य।

रीजनिंग बेंचमार्क में शामिल हैं: AIME24 और AIME25, GPQA-Diamond, LiveCodeBench, और MATH500।

नॉन-रीजनिंग बेंचमार्क में शामिल हैं: instruction following मूल्यांकन के लिए IFEval, फ़ंक्शन कॉल टूल उपयोग मूल्यांकन के लिए BFCL V2 Live, और मानवीय बातचीत प्राथमिकताओं के साथ alignment का मूल्यांकन करने के लिए Arena-Hard।

LN-Nano ने अपने छोटे आकार के बावजूद, सभी रीजनिंग बेंचमार्क में उत्कृष्ट प्रदर्शन प्राप्त किया।

यह दर्शाता है कि सुपरवाइज्ड फाइन-ट्यूनिंग प्रोसेस और अच्छी तरह से क्यूरेट किए गए रीजनिंग डेटासेट छोटे मॉडल में संरचित रीजनिंग क्षमताओं को स्थानांतरित करने में प्रभावी हैं।

LN-Super ने समान पैरामीटर स्केल के अन्य मॉडलों की तुलना में रीजनिंग और नॉन-रीजनिंग दोनों कार्यों में मजबूत प्रतिस्पर्धा दिखाई।

"रीजनिंग ऑफ" मोड में, LN-Super का प्रदर्शन इसके आसुत स्रोत मॉडल, Llama-3.3-70B के समान था; "रीजनिंग ऑन" मोड में, इसने DeepSeek-R1-Distilled-Llama-70B जैसे अन्य प्रतिस्पर्धी मॉडलों को surpass किया, जो अच्छी instruction-following क्षमता बनाए रखते हुए मजबूत रीजनिंग क्षमता का प्रदर्शन करता है।

ये परिणाम संकेत करते हैं कि LN-Super एक बहुमुखी मॉडल है जो रीजनिंग-अनुकूलित मॉडल और नॉन-रीजनिंग मॉडल के लाभों को जोड़ता है, जिससे यह दैनिक सहायक कार्यों और संरचित रीजनिंग कार्यों के लिए उपयुक्त है।

LN-Ultra ने रीजनिंग और नॉन-रीजनिंग बेंचमार्क में सभी मौजूदा ओपन-सोर्स वेट मॉडल के समान या बेहतर प्रदर्शन किया। इसने जीपीक्यूए पर ओपन-सोर्स मॉडल में सबसे उन्नत स्तर हासिल किया, जो Nvidia शोधकर्ताओं की बड़े पैमाने पर रीइन्फोर्समेंट लर्निंग ट्रेनिंग विधियों की प्रभावशीलता को पूरी तरह से प्रदर्शित करता है।

DeepSeek-R1 के विपरीत, जिसके लिए 8×H200 हार्डवेयर कॉन्फ़िगरेशन की आवश्यकता होती है, LN-Ultra को एकल 8×H100 नोड पर कुशलतापूर्वक चलाने के लिए अनुकूलित किया गया है, जो उच्च रीजनिंग थ्रूपुट और deployment दक्षता प्रदान करता है।

LN-Ultra का SFT चरण कई रीजनिंग बेंचमार्क (GPQA और AIME सहित) पर DeepSeek-R1 के प्रदर्शन के करीब पहुंच गया है या पहुंच गया है।

मॉडल को मूल रूप से प्रशिक्षित किए गए रीजनिंग और संवाद क्षमताओं के अलावा, उन्होंने मॉडल का वितरण कार्य पर भी परीक्षण किया।

विशेष रूप से, मॉडल का जज बेंच डेटासेट पर परीक्षण किया गया, जिसमें उसे उच्च-गुणवत्ता और निम्न-गुणवत्ता वाले उत्तरों के बीच अंतर करने की आवश्यकता थी।

नए मॉडल ने इस कार्य पर वर्तमान शीर्ष मालिकाना और ओपन-सोर्स मॉडल से बेहतर प्रदर्शन किया।

LN-Ultra सबसे अच्छा प्रदर्शन करने वाला ओपन-सोर्स मॉडल बन गया, जो DeepSeek-R1 से काफी अधिक है, केवल मालिकाना मॉडल o3-mini(high) के बाद दूसरा।

इसके अलावा, LN-Super का प्रदर्शन भी o1-mini से अधिक हो गया, यह दर्शाता है कि नए मॉडल में विभिन्न कार्यों में मजबूत सामान्यीकरण क्षमता है।

पर अपडेट किया गया २०२५-०५-०७

# Nvidia # Nemotron # Fine-Tuning