Nvidia चे नवे मॉडेल DeepSeek-R1 पेक्षा सरस

Nvidia च्या Llama-Nemotron मालिकेतील मॉडेलने अधिकृतपणे DeepSeek-R1 ला मागे टाकले आहे आणि त्यांच्या प्रशिक्षणाचे तपशील पूर्णपणे उघड केले आहेत, ज्यामुळे हे मॉडेल उत्कृष्ट कामगिरी करण्यासाठी कसे विकसित केले गेले याबद्दल माहिती मिळते.

हे मॉडेल आता पूर्णपणे ओपन-सोर्स आहेत, जे सुलभ AI तंत्रज्ञानातील एक महत्त्वपूर्ण प्रगती दर्शवतात. याचा अर्थ असा आहे की, अनुमान थ्रुपुट आणि मेमरी कार्यक्षमतेच्या दृष्टीने DeepSeek-R1 पेक्षा लक्षणीयरीत्या सरस असलेल्या अनुमाना मॉडेलची मालिका आता कोणालाही वापरण्यासाठी आणि सुधारण्यासाठी उपलब्ध आहे.

मॉडेलच्या यशामागील रहस्य उघडणे

तर, DeepSeek-R1 पेक्षा सरस असलेले हे मॉडेल नेमके कसे तयार केले गेले? Nvidia च्या तांत्रिक अहवालात त्यांच्या प्रशिक्षण प्रक्रियेतील महत्त्वाचे घटक उघड झाले आहेत:

  • सिंथेटिक डेटा + रीइन्फोर्समेंट लर्निंगसह सुपरवाईज्ड फाइन-ट्यूनिंग: हे संयोजन मॉडेलच्या तर्क क्षमतेत लक्षणीय वाढ करते.
  • सर्वसमावेशक पोस्ट-ट्रेनिंग प्रक्रिया: मॉडेलची कार्यक्षमता ऑप्टिमाइझ करण्यासाठी एक मजबूत आणि व्यवस्थित पोस्ट-ट्रेनिंग प्रक्रिया महत्त्वपूर्ण आहे.

गेल्या महिन्यात, Nvidia ने अधिकृतपणे Llama-Nemotron 253B ची घोषणा केली, ज्याने Llama 4 ला त्वरित मागे टाकले (जे फक्त तीन दिवसांचे होते आणि लीडरबोर्डमध्ये फेरफार केल्यामुळे "Integrity crisis" चा सामना करत होते). या मॉडेलच्या मालिकेच्या प्रकाशनाने उद्योगात खळबळ उडवून दिली.

Artificial Analysis Intelligence Index नुसार, Llama-Nemotron-Ultra हे एप्रिल 2025 पर्यंतचे "सर्वात बुद्धिमान" ओपन-सोर्स मॉडेल मानले जाते.

Nvidia ने Llama-Nemotron मालिकेत तीन मॉडेल लाँच केले: LN-Nano 8B, LN-Super 49B, आणि LN-Ultra 253B.

विशेष म्हणजे, LN-Ultra केवळ कार्यक्षमतेत DeepSeek-R1 ला मागे टाकत नाही, तर ते सिंगल 8xH100 नोडवर चालते, ज्यामुळे जास्त अनुमान थ्रुपुट मिळते.

हे मॉडेल उच्च-थ्रुपुट अनुमानासाठी ऑप्टिमाइझ केलेले आहेत, तसेच मजबूत तर्क क्षमता आणि 128K पर्यंत संदर्भ लांबी राखतात.

शिवाय, Nvidia ने जागतिक AI ओपन-सोर्स समुदायात एक उत्कृष्ट अनुमान स्विच फीचर सादर केले आहे. वापरकर्ते सिस्टीम प्रॉम्प्ट "detailed thinking on/off" वापरून स्टँडर्ड चॅट मोड आणि रिझनिंग मोडमध्ये डायनॅमिक पद्धतीने स्विच करू शकतात.

हे डिझाइन मॉडेलला सामान्य दैनंदिन गरजा पूर्ण करण्यास आणि भिन्न मॉडेल किंवा आर्किटेक्चरची आवश्यकता नसताना जटिल, बहु-चरणांचे तर्क कार्य हाताळण्यास अनुमती देते.

बांधकाम प्रक्रिया: पाच- टप्प्यांचा दृष्टिकोन

Llama-Nemotron मॉडेलची रचना पाच वेगवेगळ्या टप्प्यात विभागलेली आहे:

स्टेज 1: Llama 3 मालिकेतील मॉडेलवर आधारित न्यूरल आर्किटेक्चर सर्च (NAS) वापरून तर्क कार्यक्षमतेचे ऑप्टिमायझेशन, फीडफॉरवर्ड नेटवर्क फ्यूजन (FFN Fusion) ची ओळख.

स्टेज 2: ज्ञान डिस्टिलेशन आणि सतत प्री-ट्रेनिंगद्वारे मॉडेल कार्यक्षमतेची पुनर्प्राप्ती.

स्टेज 3: सुपरवाईज्ड फाइन-ट्यूनिंग (SFT), जे स्टँडर्ड इंस्ट्रक्शन डेटाला DeepSeek-R1 सारख्या शक्तिशाली शिक्षक मॉडेलच्या तर्क प्रक्रियेसह एकत्रित करते, ज्यामुळे मॉडेलला बहु-चरणांचे तर्क करता येते.

स्टेज 4: जटिल गणितीय आणि STEM डेटासेटवर मोठ्या प्रमाणावर रीइन्फोर्समेंट लर्निंग, जे विद्यार्थी मॉडेलला शिक्षक मॉडेलच्या क्षमतेपेक्षा अधिक सक्षम बनवण्यासाठी महत्त्वपूर्ण आहे. LN-Ultra साठी, हा टप्पा GPQA-D बेंचमार्कवरील कार्यक्षमतेत लक्षणीय सुधारणा करतो, ज्यामुळे ते ओपन-सोर्स डोमेनमध्ये वैज्ञानिक तर्कांसाठी सर्वात শক্তিশালী मॉडेल म्हणून स्थापित होते.

अशा मोठ्या प्रमाणावर रीइन्फोर्समेंट लर्निंग प्रशिक्षणास समर्थन देण्यासाठी, टीमने अनेक ऑप्टिमायझेशन उपायांसह एक नवीन प्रशिक्षण फ्रेमवर्क विकसित केले, जे FP8 अचूकता जनरेशन क्षमतेस समर्थन देते.

स्टेज 5: सूचनांचे पालन आणि मानवी प्राधान्यांचे पालन यावर लक्ष केंद्रित केलेले संक्षिप्त अलाइनमेंट प्रशिक्षण.

ऑप्टिमाइज्ड अनुमान कार्यक्षमतेसाठी अभिनव आर्किटेक्चर

LN-Super आणि LN-Ultra मॉडेल अनुमान कार्यक्षमतेचे ऑप्टिमायझेशन करण्यासाठी न्यूरल आर्किटेक्चर शोधासाठी Puzzle फ्रेमवर्कचा वापर करतात.

Puzzle हे मोठ्या भाषेतील मॉडेलला हार्डवेअर-अनुकूलित, कार्यक्षम आवृत्त्यांमध्ये रूपांतरित करते, जे डिप्लॉयमेंटसाठी ऑप्टिमाइझ केलेले आहेत.

"ब्लॉक-बाय-ब्लॉक लोकल डिस्टिलेशन" च्या माध्यमातून, डेव्हलपर्सनी Llama 3 Instruct वापरून पर्यायी Transformer मॉड्यूलची लायब्ररी तयार केली.

या प्रक्रियेत, प्रत्येक मॉड्यूलला स्वतंत्रपणे आणि समांतर प्रशिक्षित केले जाते, ** computational कार्यक्षमतेचे ऑप्टिमायझेशन करताना मूळ मॉड्यूलच्या कार्यक्षमतेच्या जवळपास आणले जाते**.

प्रत्येक पर्यायी मॉड्यूलमध्ये विशिष्ट "अचूकता-कार्यक्षमता" ट्रेड-ऑफ असतात. काही मॉड्यूल्स अधिक कार्यक्षम असतात परंतु काही प्रमाणात गुणवत्तेत घट करतात, ज्यामुळे computational खर्च आणि मॉडेल अचूकता यांच्यात स्पष्ट ट्रेड-ऑफ तयार होतो.

या मॉड्यूल विविधतेमध्ये खालील गोष्टींचा समावेश आहे:

अटेंशन मेकॅनिझम काढणे: काही मॉड्यूल्स अटेंशन मेकॅनिझम पूर्णपणे वगळतात, ज्यामुळे computation आणि KV cache मेमरीचा वापर कमी होतो.

व्हेरिएबल FFN डायमेंशन: फीडफॉरवर्ड नेटवर्कचे इंटरमिजिएट डायमेंशन समायोजित केले जातात, ज्यामुळे वेगवेगळ्या प्रमाणात मॉडेल कॉम्प्रेशन करता येते.

मॉड्यूल लायब्ररी तयार केल्यानंतर, Puzzle प्रत्येक लेयरमधून एक मॉड्यूल निवडते आणि संपूर्ण मॉडेल एकत्र करते.

ही निवड प्रक्रिया mixed-integer programming (MIP) solver द्वारे नियंत्रित केली जाते, जे हार्डवेअर सुसंगतता, कमाल अनुमत लेटन्सी, मेमरी बजेट किंवा इच्छित अनुमान थ्रुपुट यांसारख्या मर्यादांवर आधारित इष्टतम कॉन्फिगरेशन शोधते.

वर्टिकल कॉम्प्रेशन आणि FFN फ्यूजन

LN-Ultra मॉडेलमध्ये, संशोधकांनी FFN Fusion (Feedforward Network Fusion) सादर केले, जे मॉडेलची क्रमवारी खोली कमी करण्यासाठी आणि तर्क लेटन्सी कार्यक्षमतेत सुधारणा करण्यासाठी एक अतिरिक्त कॉम्प्रेशन तंत्र आहे.

Puzzle च्या काही अटेंशन लेयर काढल्यामुळे एक अद्वितीय रचना तयार होते: मॉडेल स्ट्रक्चरमध्ये अनेक सतत FFN ब्लॉक्स वारंवार दिसतात.

FFN फ्यूजन या सतत स्ट्रक्चरला ओळखते आणि त्याऐवजी कमी परंतु विस्तृत, समांतर-कार्यक्षम FFN लेयर वापरते.

ही रिप्लेसमेंट पद्धत मॉडेलची अभिव्यक्ती क्षमता कमी न करता sequential कॅलक्युलेशनचे टप्पे कमी करते, ज्यामुळे compute संसाधनांचा वापर लक्षणीयरीत्या सुधारतो - विशेषत: मल्टी-GPU वातावरणात, जेथे क्रॉस-लेयर कम्युनिकेशन ओव्हरहेड महत्त्वपूर्ण आहे.

LN-Ultra मॉडेल अचूकता आणि कार्यक्षमतेच्या दृष्टीने DeepSeek-R1 आणि Llama-3.1-405B पेक्षा सातत्याने सरस ठरते, ज्यामुळे एक इष्टतम समतोल साधला जातो.

पोस्ट-NAS प्रशिक्षण: ज्ञान डिस्टिलेशन आणि सतत प्री-ट्रेनिंग

न्यूरल आर्किटेक्चर सर्च (NAS) टप्प्यानंतर, LN-Super आणि LN-Ultra दोन्ही मॉड्यूल्समधील सुसंगतता सुधारण्यासाठी आणि मॉड्यूल रिप्लेसमेंट दरम्यान झालेले कोणतेही गुणवत्ता नुकसान भरून काढण्यासाठी अतिरिक्त प्रशिक्षण देण्यात आले.

  • LN-Super ला ज्ञान डिस्टिलेशन उद्देशाने डिस्टिलेशन मिक्स डेटासेटवर 40 अब्ज टोकनसाठी प्रशिक्षित केले गेले.
  • LN-Ultra ला सुरुवातीला 65 अब्ज टोकनसाठी त्याच डिस्टिलेशन डेटासेटवर प्रशिक्षित केले गेले, त्यानंतर 88 अब्ज टोकनसाठी Nemotron-H चौथ्या- टप्प्यातील प्री-ट्रेनिंग डेटासेटवर सतत प्रशिक्षण दिले गेले.

या अंतिम प्री-ट्रेनिंग स्टेपमुळे LN-Ultra ला केवळ संदर्भ मॉडेल, Llama 3.1-405B-Instruct च्या बरोबरीने येण्यास मदत झाली नाही, तर प्रमुख बेंचमार्क चाचण्यांमध्ये त्यापेक्षा सरस ठरण्यास देखील मदत झाली.

हे दर्शवते की संक्षिप्त डिस्टिलेशन आणि प्री-ट्रेनिंग आक्रमक आर्किटेक्चरल ऑप्टिमायझेशन आणि उच्च मॉडेल कार्यक्षमता यांच्यात सुसंगतता साधू शकते.

सुपरवाईज्ड फाइन-ट्यूनिंग: तर्क क्षमतेत सुधारणा

सुपरवाईज्ड फाइन-ट्यूनिंग (SFT) Llama-Nemotron मॉडेलसाठी "पर्सनल ट्रेनर" म्हणून कार्य करते, विशेषत: विशिष्ट कार्यांसाठी तर्क स्टेप्सला लक्ष्य करते आणि DeepSeek-R1 सारख्या "स्टार स्टुडंट" मॉडेलकडून अनुमान तंत्र शिकते.

खऱ्या तर्क कौशल्यांचा विकास करण्यासाठी, मोठ्या प्रमाणावर, उच्च-गुणवत्तेचे तर्क प्रशिक्षण डेटा असणे आवश्यक आहे.

सिंथेटिक डेटा: तर्कांसाठी तयार केलेला

संशोधकांनी सुपरवाईज्ड फाइन-ट्यूनिंगसाठी तर्क आणि गैर-तर्क दोन्ही डेटा असलेले डेटा नमुने काळजीपूर्वक तयार केले.

तर्क नमुन्यांसाठी, त्यांनी सिस्टीम इंस्ट्रक्शनमध्ये "detailed thinking on" जोडले, तर गैर-तर्क नमुन्यांसाठी त्यांनी "detailed thinking off" वापरले.

ही सेटिंग मॉडेलला तर्क टप्प्यात प्रॉम्प्टवर आधारित तर्क वर्तन स्विच करण्यास अनुमती देते.

गणित, कोडिंग आणि संबंधित क्षेत्रांमध्ये तर्कांसाठी सिंथेटिक डेटा तयार केला गेला.

मॉडेलला "तर्क स्विच" इंस्ट्रक्शनचे पालन करण्यास प्रशिक्षित करण्यासाठी, संशोधकांनी जोडलेले डेटासेट तयार केले, जेथे प्रत्येक प्रॉम्प्ट तर्कासह आणि तर्काशिवाय प्रतिसादाशी जुळतो.

हे जोडणी मॉडेलला सिस्टीम इंस्ट्रक्शनवर आधारित त्याचे तर्क वर्तन समायोजित करण्यास शिकवते.

त्यानंतर, या प्रतिसादांचे फिल्टरिंग स्टँडर्ड उत्तरांवर किंवा रिवॉर्ड मॉडेलवर आधारित केले जाते.

फाइन-ट्यूनिंग प्रक्रिया

सर्व मॉडेल्सना टोकन-लेव्हल क्रॉस-एंट्रॉपी लॉस वापरून इंस्ट्रक्शन फाइन-ट्यूनिंग डेटावर प्रशिक्षित केले गेले.

बहुतेक प्रशिक्षण सेटिंग्जमध्ये, प्रशिक्षण बॅच तयार करण्यासाठी तर्क आणि गैर-तर्क डेटा एकत्र केला जातो, जेथे प्रत्येक प्रॉम्प्ट "detailed thinking on/off" सिस्टीम इंस्ट्रक्शनवर आधारित प्रतिसादाशी जोडलेला असतो.

प्रशिक्षण अनेक फेऱ्यांपर्यंत वाढवल्याने कार्यक्षमता सुधारू शकते, विशेषत: लहान मॉडेल्ससाठी.

रीइन्फोर्समेंट लर्निंग प्रशिक्षणासाठी NeMo-Aligner वापरला गेला, जो GRPO आणि विषम मॉडेलच्या प्रशिक्षणास समर्थन देतो.

जनरेशन टप्प्यासाठी vLLM आणि प्रशिक्षण टप्प्यासाठी Megatron-LM वापरला गेला.

प्रशिक्षण आणि तर्क टप्प्यांनी GPUs चा समान बॅच सामायिक केला, जो त्याच डिव्हाइसवर पूर्ण झाला.

संपूर्ण प्रशिक्षण प्रक्रियेत 72 नोड्स वापरले गेले, ज्यामध्ये प्रत्येकी 8 H100 GPUs होते.

जनरेशन टप्प्यात FP8 अचूकता, प्रशिक्षण टप्प्यात BF16 अचूकता आणि ऑप्टिमायझर स्थितीत FP32 वापरली गेली.

प्रत्येक टप्प्यात स्वतंत्र मॉडेल वेट राखले गेले, जे प्रत्येक स्टेपच्या सुरुवातीला सिंक्रोनाइझ केले गेले.

रीइन्फोर्समेंट लर्निंग: R1 च्या तर्क क्षमतेपेक्षा अधिक क्षमता मिळवण्याची गुरुकिल्ली

सुपरवाईज्ड फाइन-ट्यूनिंग (SFT) मॉडेलला शक्तिशाली शिक्षक मॉडेलकडून ज्ञान मिळवण्यास सक्षम करते, ज्यामुळे उत्कृष्ट क्षमता प्राप्त होतात.

तथापि, ज्ञान डिस्टिलेशन हे विद्यार्थी मॉडेलच्या कार्यक्षमतेवर नैसर्गिकरित्या मर्यादा घालते, विशेषत: जेव्हा विद्यार्थी मॉडेलची मूलभूत मॉडेल क्षमता शिक्षक मॉडेलपेक्षा जास्त नसते.

सुपरवाईज्ड फाइन-ट्यूनिंगद्वारे, LN-Ultra ची कार्यक्षमता DeepSeek-R1 च्या जवळपास पोहोचू शकते, परंतु त्यापेक्षा सरस ठरू शकत नाही.

मोठ्या प्रमाणावर रीइन्फोर्समेंट लर्निंग (RL) हा विद्यार्थी मॉडेलला शिक्षक मॉडेलपेक्षा अधिक सक्षम बनवण्याचा एक व्यवहार्य मार्ग आहे, कारण ते मॉडेलला सतत नवीन शक्यता शोधण्याची आणि स्व-शिकण्याची परवानगी देते.

संसाधनांच्या कमतरतेमुळे, संशोधकांनी केवळ LN-Ultra वर तर्क RL लागू केले, परिणामी एक विद्यार्थी मॉडेल तयार झाले जे शिक्षक मॉडेलपेक्षा सरस ठरले.

तर्क रीइन्फोर्समेंट लर्निंग प्रशिक्षण प्रक्रियेदरम्यान, GPQA-Diamond डेटासेटवरील LN-Ultra ची अचूकता सुधारली.

प्रशिक्षण प्रक्रिया: वैज्ञानिक तर्कावर लक्ष केंद्रित करणे

LN-Ultra साठी, संशोधकांनी ग्रुपेड रिलेटिव्ह पॉलिसी ऑप्टिमायझेशन (GRPO) अल्गोरिदम वापरून मोठ्या प्रमाणावर रीइन्फोर्समेंट लर्निंग (RL) द्वारे तिची वैज्ञानिक तर्क क्षमता वाढवली, जो DeepSeek-R1 द्वारे वापरला जाणाराच आहे.

संपूर्ण प्रशिक्षण प्रक्रियेस अंदाजे 140,000 H100 तास लागले, मॉडेलला तर्क कार्यांवर एकत्रित होईपर्यंत सतत प्रशिक्षित केले गेले.

रिवॉर्ड मेकॅनिझम डिझाइनमध्ये दोन श्रेणींचा समावेश आहे:

  • अचूकता रिवॉर्ड: स्टँडर्ड उत्तरांवर आधारित (अंक/वाक्य/परिच्छेद), Llama-3.3-70B-Instruct मॉडेल भविष्यवाणी परिणामांच्या जुळण्याच्या डिग्रीचे मूल्यांकन करते.
  • फॉर्मेट रिवॉर्ड: DeepSeek-AI च्या योजनेचे अनुसरण करून, मॉडेलला "detailed thinking" मोडमध्ये <think\> टॅगसह तर्क प्रक्रिया गुंडाळण्यास भाग पाडले जाते आणि गैर-तपशीलवार विचार मोडमध्ये अशा टॅगचा देखावा निषिद्ध आहे.

संशोधन टीमने डेटा फिल्टरिंग आणि अभ्यासक्रम प्रशिक्षणासह डेटाचे पूर्व-प्रक्रिया देखील केली.

  • डेटा स्क्रीनिंग: प्रत्येक प्रश्नासाठी 8 प्रतिसाद व्युत्पन्न करण्यासाठी LN-Super चा आगाऊ वापर केला जातो आणि 75% ≥ पास दराचे साधे नमुने काढले जातात.
  • अभ्यासक्रम प्रशिक्षण: पास दरावर आधारित प्रगतीशील बॅच वाटप स्वीकारले जाते.

डायनॅमिक वितरण: Gaussian फंक्शनसह बॅच अडचणीचे मॉडेलिंग, सुरुवातीला उच्च-पास-दर (साधे) नमुन्यांवर लक्ष केंद्रित करणे आणि नंतर कमी-पास-दर (कठीण) नमुन्यांकडे वळणे.

पॅडिंग लॉजिक: नमुन्यांचे वाटप प्रथम लक्ष्य वितरणानुसार केले जाते आणि उर्वरित क्षमता सर्वात मोठ्या उर्वरित नमुना पूलद्वारे पूरक केली जाते.

इंट्रा-बॅच प्रोसेसिंग: विविधता राखण्यासाठी एकाच बॅचमधील नमुने यादृच्छिकपणे मिसळले जातात.

प्राधान्य ऑप्टिमायझेशनसाठी रीइन्फोर्समेंट लर्निंग

वैज्ञानिक तर्क प्रशिक्षण पूर्ण केल्यानंतर, संशोधकांनी LN-Super आणि LN-Ultra मॉडेलसाठी संक्षिप्त रीइन्फोर्समेंट लर्निंग टप्पा आयोजित केला, जो त्यांची सूचना-अनुसरण क्षमता सुधारण्यावर केंद्रित होता.

संशोधकांनी मॉडेलची गणित, विज्ञान आणि इतर क्षेत्रांतील क्षमता टिकवून ठेवताना त्यांची सामान्य मदत क्षमता आणि चॅट कार्यक्षमता ऑप्टिमाइझ करण्यासाठी RLHF देखील वापरले.

LN-Super ने Arena Hard चाचणीमध्ये 88.3 चा उच्च गुण मिळवला, जो Claude 3.5 Sonnet आणि GPT-4o-2024-05-13 सारख्या मालकीच्या मॉडेलला मागे टाकतो आणि मोठ्या ओपन-सोर्स मॉडेलपेक्षाही चांगला आहे.

हे परिणाम साध्य करण्यासाठी, त्यांनी "OnLine Reward-Policy Optimization" पद्धत स्वीकारली, हेल्पस्टीयर 2 डेटासेटवर मॉडेलच्या भविष्यवाणी रिवॉर्डला जास्तीत जास्त केले. वापरलेले रिवॉर्ड मॉडेल Llama-3.1-Nemotron-70B-Reward होते.

दोन फेऱ्यांच्या ऑनलाइन RPO प्रशिक्षणाने Arena Hard स्कोअर 69.1 वरून 88.1 पर्यंत वाढवला.

LN-Ultra साठी, त्यांनी तत्सम प्रक्रिया वापरली परंतु GRPO स्वीकारले.

LN-Nano साठी, त्यांनी दोन फेऱ्यांचे ऑफलाइन RPO प्रशिक्षण आयोजित केले, ज्यात धोरण-व्युत्पन्न प्रशिक्षण डेटा वापरला.

पहिल्या फेरीत मॉडेलची तर्क नियंत्रण क्षमता ऑप्टिमाइझ करण्यासाठी योग्य सिस्टीम प्रॉम्प्टसह तर्क आणि गैर-तर्क डेटा एकत्रित केला गेला. दुसरी फेरी सूचना-अनुसरण क्षमता सुधारण्यावर केंद्रित होती.

मूल्यांकन निकाल: एक सर्वसमावेशक मूल्यांकन

संशोधकांनी Llama-Nemotron च्या सर्व मॉडेल्सच्या कार्यक्षमतेचे मूल्यांकन दोन बेंचमार्क श्रेणींमध्ये केले: तर्क कार्ये आणि गैर-तर्क कार्ये.

तर्क बेंचमार्क मध्ये हे समाविष्ट होते: AIME24 आणि AIME25, GPQA-Diamond, LiveCodeBench आणि MATH500.

गैर-तर्क बेंचमार्क मध्ये हे समाविष्ट होते: सूचना-अनुसरण मूल्यांकनासाठी IFEval, फंक्शन कॉल टूल वापर मूल्यांकनासाठी BFCL V2 Live आणि मानवी संभाषणाच्या प्राधान्यांशी जुळण्यासाठी Arena-Hard.

LN-Nano ने लहान आकार असूनही, सर्व तर्क बेंचमार्क मध्ये उत्कृष्ट कामगिरी केली.

हे दर्शवते की पर्यवेक्षित फाइन-ट्यूनिंग प्रक्रिया आणि व्यवस्थित क्युरेट केलेले तर्क डेटासेट लहान मॉडेलमध्ये संरचित तर्क क्षमता हस्तांतरित करण्यात प्रभावी आहेत.

LN-Super ने समान पॅरामीटर स्केलच्या इतर मॉडेलच्या तुलनेत तर्क आणि गैर-तर्क दोन्ही कार्यांमध्ये मजबूत स्पर्धात्मकता दर्शविली.

"तर्क बंद" मोडमध्ये, LN-Super ची कार्यक्षमता त्याच्या डिस्टिल्ड स्त्रोत मॉडेल, Llama-3.3-70B च्या तुलनेत होती; "तर्क चालू" मोडमध्ये, त्याने DeepSeek-R1-Distilled-Llama-70B सारख्या इतर प्रतिस्पर्धी मॉडेलला मागे टाकले, ज्यामुळे चांगली सूचना-अनुसरण क्षमता राखताना मजबूत तर्क क्षमता दर्शविली.

हे परिणाम सूचित करतात की LN-Super हे एक बहुमुखी मॉडेल आहे जे तर्क-ऑप्टिमाइझ्ड मॉडेल आणि गैर-तर्क मॉडेल चे फायदे एकत्र करते, ज्यामुळे ते दैनंदिन सहाय्यक कार्ये आणि संरचित तर्क कार्यांसाठी योग्य बनते.

LN-Ultra ने तर्क आणि गैर-तर्क बेंचमार्क मध्ये विद्यमान सर्व ओपन-सोर्स वेट मॉडेलच्या बरोबरीने किंवा त्याहूनही चांगले प्रदर्शन केले. त्याने GPQA वरील ओपन-सोर्स मॉडेलमध्ये सर्वात प्रगत स्तर गाठला, Nvidia संशोधकांच्या मोठ्या प्रमाणावर रीइन्फोर्समेंट लर्निंग प्रशिक्षण पद्धतीची प्रभावीता पूर्णपणे दर्शविली.

DeepSeek-R1 ला 8×H200 हार्डवेअर कॉन्फिगरेशनची आवश्यकता असते, त्याउलट LN-Ultra एका सिंगल 8×H100 नोडवर कार्यक्षमतेने चालण्यासाठी ऑप्टिमाइझ केलेले आहे, जे उच्च तर्क थ्रुपुट आणि डिप्लॉयमेंट कार्यक्षमता प्रदान करते.

LN-Ultra चा SFT टप्पा अनेक तर्क बेंचमार्क (GPQA आणि AIME सह) वर DeepSeek-R1 च्या कार्यक्षमतेपर्यंत पोहोचला आहे किंवा गाठला आहे.

मॉडेलला मूळतः ज्या तर्क आणि संवाद क्षमतेसाठी प्रशिक्षित केले गेले होते, त्याव्यतिरिक्त, त्यांनी मॉडेलची वितरण कार्यावर देखील चाचणी केली.

विशेषतः, मॉडेलची जज बेंच डेटासेटवर चाचणी घेण्यात आली, ज्यामध्ये त्याला उच्च-गुणवत्तेची आणि कमी-गुणवत्तेची उत्तरे वेगळी करण्याची आवश्यकता होती.

नवीन मॉडेलने या कार्यात सध्याच्या शीर्ष मालकीच्या आणि ओपन-सोर्स मॉडेलपेक्षा सरस कामगिरी केली.

LN-Ultra हे सर्वोत्तम-कार्यक्षम ओपन-सोर्स मॉडेल बनले, जे DeepSeek-R1 पेक्षा लक्षणीयरीत्या जास्त आहे, फक्त मालकीचे मॉडेल o3-mini(high) दुसऱ्या क्रमांकावर आहे.

याव्यतिरिक्त, LN-Super ची कार्यक्षमता देखील o1-mini पेक्षा जास्त होती, हे दर्शवते की नवीन मॉडेलमध्ये विविध कार्यांमध्ये मजबूत सामान्यीकरण क्षमता आहे.