Nvidia வின் Llama-Nemotron தொடர் மாதிரிகள் அதிகாரப்பூர்வமாக DeepSeek-R1 ஐ விஞ்சிவிட்டன, மேலும் இந்த மாதிரிகள் எவ்வாறு உயர்ந்த செயல்திறனை அடைய உருவாக்கப்பட்டன என்பது பற்றிய நுண்ணறிவுகளை வழங்கும் அவற்றின் பயிற்சி விவரங்கள் முழுமையாக வெளியிடப்பட்டுள்ளன.
இந்த மாதிரிகள் இப்போது முழுவதுமாக திறந்த மூலமாகும், இது அணுகக்கூடிய AI தொழில்நுட்பத்தில் ஒரு குறிப்பிடத்தக்க முன்னேற்றத்தைக் குறிக்கிறது. இதன் பொருள், அனுமானத் திறன் மற்றும் நினைவக செயல்திறன் ஆகியவற்றின் அடிப்படையில் DeepSeek-R1 ஐ விட கணிசமாக அதிகமான தொடர் அனுமான மாதிரிகள் இப்போது எவரும் பயன்படுத்தவும் மாற்றவும் கிடைக்கும்.
மாதிரி வெற்றியின் பின்னணியில் உள்ள ரகசியங்களை வெளிப்படுத்துதல்
அப்படியானால், DeepSeek-R1 ஐ விஞ்சும் இந்த மாதிரிகள் எவ்வாறு உருவாக்கப்பட்டன? Nvidia வின் தொழில்நுட்ப அறிக்கை அவர்களின் பயிற்சி செயல்முறையின் முக்கியமான கூறுகளை வெளிப்படுத்துகிறது:
- செயற்கை தரவு + வலுவூட்டல் கற்றல் மூலம் மேற்பார்வையிடப்பட்ட நன்றாக ட்யூனிங் செய்தல்: இந்த கலவையானது மாதிரியின் பகுத்தறியும் திறன்களை கணிசமாக மேம்படுத்துகிறது.
- விரிவான பிந்தைய பயிற்சி செயல்முறை: மாதிரியின் செயல்திறனை மேம்படுத்துவதற்கு ஒரு வலுவான மற்றும் நன்கு வடிவமைக்கப்பட்ட பிந்தைய பயிற்சி செயல்முறை முக்கியமானது.
கடந்த மாதம், Nvidia அதிகாரப்பூர்வமாக Llama-Nemotron 253B ஐ அறிவித்தது, இது விரைவில் Llama 4 ஐ விட உயர்ந்தது (இது மூன்று நாட்களே பழமையானது மற்றும் தலைவர் பலகை கையாளுதல் காரணமாக "ஒருமைப்பாடு நெருக்கடியை" எதிர்கொண்டது). இந்த தொடர் மாதிரிகளின் வெளியீடு தொழில்துறையில் பெரும் பரபரப்பை ஏற்படுத்தியது.
செயற்கை நுண்ணறிவு பகுப்பாய்வு குறியீட்டின்படி, Llama-Nemotron-Ultra தற்போது ஏப்ரல் 2025 நிலவரப்படி "மிகவும் அறிவார்ந்த" திறந்த மூல மாதிரியாக கருதப்படுகிறது.
Nvidia Llama-Nemotron தொடரில் மூன்று மாதிரிகளை அறிமுகப்படுத்தியது: LN-Nano 8B, LN-Super 49B, மற்றும் LN-Ultra 253B.
குறிப்பாக, LN-Ultra செயல்திறனில் DeepSeek-R1 ஐ விட அதிகமாக இருப்பது மட்டுமல்லாமல், ஒற்றை 8xH100 நோடில் இயங்குகிறது, மேலும் அதிக அனுமானத் திறனை வழங்குகிறது.
இந்த மாதிரிகள் வலுவான பகுத்தறியும் திறன்களையும் 128K வரை உள்ள சூழல் நீளத்தையும் பராமரிக்கும் அதே வேளையில் அதிக-திறன் அனுமானத்திற்காக மேம்படுத்தப்பட்டுள்ளன.
மேலும், Nvidia உலகளாவிய AI திறந்த மூல சமூகத்தில் ஒரு அற்புதமான அனுமான சுவிட்ச் அம்சத்தை அறிமுகப்படுத்தியுள்ளது. பயனர்கள் கணினி தூண்டுதல் "விரிவான சிந்தனை ஆன் / ஆஃப்" ஐப் பயன்படுத்தி நிலையான அரட்டை முறைக்கும் பகுத்தறிவு முறைக்கும் இடையில் மாறும் வகையில் மாறலாம்.
இந்த வடிவமைப்பு மாதிரியானது பொதுவான அன்றாட தேவைகளை பூர்த்தி செய்யவும், வெவ்வேறு மாதிரிகள் அல்லது கட்டமைப்புகள் தேவையில்லாமல் சிக்கலான, பல-படி பகுத்தறியும் பணிகளைக் கையாளவும் அனுமதிக்கிறது.
கட்டுமான செயல்முறை: ஐந்து-நிலை அணுகுமுறை
Llama-Nemotron மாதிரிகளின் கட்டுமானம் ஐந்து தனித்துவமான நிலைகளாக பிரிக்கப்பட்டுள்ளது:
நிலை 1: Llama 3 தொடர் மாதிரிகளின் அடிப்படையில் நரம்பியல் கட்டமைப்பு தேடல் (NAS) ஐப் பயன்படுத்தி பகுத்தறியும் திறனை மேம்படுத்துதல், Feedforward Network Fusion (FFN Fusion) அறிமுகத்துடன்.
நிலை 2: அறிவு வடிகட்டுதல் மற்றும் தொடர்ச்சியான முன் பயிற்சி மூலம் மாதிரி செயல்திறனை மீட்டெடுப்பது.
நிலை 3: மேற்பார்வையிடப்பட்ட நன்றாக ட்யூனிங் (SFT), இது நிலையான அறிவுறுத்தல் தரவை DeepSeek-R1 போன்ற சக்திவாய்ந்த ஆசிரியர் மாதிரிகளிடமிருந்து பகுத்தறியும் செயல்முறைகளுடன் இணைக்கிறது, இது மாதிரியை பல-படி பகுத்தறிவைச் செய்ய அனுமதிக்கிறது.
நிலை 4: சிக்கலான கணித மற்றும் STEM தரவுத்தொகுப்புகளில் பெரிய அளவிலான வலுவூட்டல் கற்றல், மாணவர் மாதிரி ஆசிரியர் மாதிரியின் திறன்களை விஞ்ச முக்கியமானது. LN-Ultra க்கு, இந்த நிலை GPQA-D தரநிலைகளில் செயல்திறனை கணிசமாக மேம்படுத்துகிறது, இது திறந்த மூல களத்தில் அறிவியல் பகுத்தறிவிற்கான வலுவான மாதிரியாக தன்னை நிலைநிறுத்துகிறது.
இத்தகைய பெரிய அளவிலான வலுவூட்டல் கற்றல் பயிற்சியை ஆதரிக்க, குழு பல மேம்படுத்தல் நடவடிக்கைகளுடன் ஒரு புதிய பயிற்சி கட்டமைப்பை உருவாக்கியது, மிக முக்கியமாக FP8 துல்லியமான தலைமுறை திறனை ஆதரிக்கிறது.
நிலை 5: அறிவுறுத்தல் பின்பற்றுதல் மற்றும் மனித விருப்பங்களுக்கு இணங்குதல் ஆகியவற்றில் கவனம் செலுத்தும் ஒரு சுருக்கமான சீரமைப்பு பயிற்சி.
மேம்படுத்தப்பட்ட அனுமான செயல்திறனுக்கான புதுமையான கட்டமைப்பு
LN-Super மற்றும் LN-Ultra மாதிரி அனுமானத் திறனை மேம்படுத்த நரம்பியல் கட்டமைப்பு தேடலுக்கான புதிர் கட்டமைப்பைப் பயன்படுத்துகின்றன.
புதிர் பெரிய மொழி மாதிரிகளை வன்பொருள்-தழுவிய, திறமையான பதிப்புகளாக மாற்றுகிறது, இது பயன்படுத்த மேம்படுத்தப்பட்டுள்ளது.
"பிளாக்-பை-பிளாக் உள்ளூர் வடிகட்டுதல்" மூலம், டெவலப்பர்கள் Llama 3 ஐப் பயன்படுத்தி மாற்று டிரான்ஸ்ஃபார்மர் தொகுதிகளின் நூலகத்தை உருவாக்கினர்.
இந்த செயல்பாட்டில், ஒவ்வொரு தொகுதியும் தனித்தனியாகவும் இணையாகவும் பயிற்றுவிக்கப்படுகிறது, கணக்கீட்டு செயல்திறனை மேம்படுத்தும் அதே வேளையில் அசல் தொகுதியின் செயல்பாட்டை நெருங்குகிறது.
ஒவ்வொரு மாற்று தொகுதிக்கும் குறிப்பிட்ட "துல்லியம்-திறன்" வர்த்தகங்கள் உள்ளன. சில தொகுதிகள் மிகவும் திறமையானவை, ஆனால் அவை ஒரு குறிப்பிட்ட தர வீழ்ச்சியை ஏற்படுத்தக்கூடும், இது கணக்கீட்டு செலவுக்கும் மாதிரி துல்லியத்திற்கும் இடையே ஒரு தெளிவான வர்த்தகத்தை உருவாக்குகிறது.
இந்த தொகுதி மாறுபாடுகளில் பின்வருவன அடங்கும்:
கவனம் செலுத்தும் பொறிமுறையை அகற்றுதல்: சில தொகுதிகள் கவன பொறிமுறையை முழுவதுமாக விட்டுவிடுகின்றன, இது கணக்கீட்டின் அளவையும் KV கேச் நினைவக நுகர்வையும் குறைக்கிறது.
மாறுபட்ட FFN பரிமாணங்கள்: ஃபீட்ஃபார்வர்ட் நெட்வொர்க்குகளின் இடைநிலை பரிமாணங்கள் சரிசெய்யப்படுகின்றன, இது வெவ்வேறு துகள்களில் மாதிரி சுருக்கத்திற்கு அனுமதிக்கிறது.
தொகுதி நூலகத்தை உருவாக்கிய பிறகு, புதிர் ஒவ்வொரு அடுக்கிலிருந்தும் ஒரு தொகுதியைத் தேர்ந்தெடுத்து ஒரு முழுமையான மாதிரியை ஒருங்கிணைக்கிறது.
இந்த தேர்வு செயல்முறை ஒரு கலப்பு-முழு நிரலாக்க (MIP) தீர்வு மூலம் கட்டுப்படுத்தப்படுகிறது, இது வன்பொருள் பொருந்தக்கூடிய தன்மை, அதிகபட்ச அனுமதிக்கப்பட்ட தாமதம், நினைவக பட்ஜெட் அல்லது விரும்பிய அனுமானத் திறன் போன்ற கட்டுப்பாடுகளின் அடிப்படையில் உகந்த உள்ளமைவைக் கண்டறிகிறது.
செங்குத்து சுருக்கம் மற்றும் FFN இணைப்பு
LN-Ultra மாதிரியில், ஆராய்ச்சியாளர்கள் FFN இணைப்பு (Feedforward Network Fusion) ஐ அறிமுகப்படுத்தினர், இது மாதிரியின் தொடர் ஆழத்தைக் குறைக்கவும் பகுத்தறியும் தாமதத் திறனை மேம்படுத்தவும் ஒரு கூடுதல் சுருக்க நுட்பமாகும்.
சில கவன அடுக்குகளை புதிர் அகற்றுவதன் விளைவாக ஒரு தனித்துவமான அமைப்பு உருவாகிறது: பல தொடர்ச்சியான FFN தொகுதிகள் அடிக்கடி மாதிரி கட்டமைப்பில் தோன்றும்.
FFN இணைப்பு இந்த தொடர்ச்சியான கட்டமைப்புகளை அடையாளம் கண்டு, அவற்றை குறைவான ஆனால் அகலமான, இணையாக இயக்கக்கூடிய FFN அடுக்குகளுடன் மாற்றுகிறது.
இந்த மாற்று முறை மாதிரி வெளிப்பாட்டை தியாகம் செய்யாமல் தொடர்ச்சியான கணக்கீட்டின் படிகளைக் குறைக்கிறது, கணினி வளங்களின் பயன்பாட்டை கணிசமாக மேம்படுத்துகிறது - குறிப்பாக பல-ஜிபியு சூழல்களில், குறுக்கு-அடுக்கு தொடர்பு மேல்நிலை குறிப்பிடத்தக்கது.
LN-Ultra மாதிரி துல்லியம் மற்றும் செயல்திறன் அடிப்படையில் DeepSeek-R1 மற்றும் Llama-3.1-405B ஐ தொடர்ந்து விஞ்சுகிறது, ஒரு உகந்த சமநிலையை அடைகிறது.
NAS க்கு பிந்தைய பயிற்சி: அறிவு வடிகட்டுதல் மற்றும் தொடர்ச்சியான முன் பயிற்சி
நரம்பியல் கட்டமைப்பு தேடல் (NAS) கட்டத்திற்குப் பிறகு, LN-Super மற்றும் LN-Ultra ஆகிய இரண்டும் தொகுதிகளுக்கு இடையிலான பொருந்தக்கூடிய தன்மையை மேம்படுத்தவும், தொகுதி மாற்றத்தின் போது ஏற்பட்ட தர இழப்பை மீட்டெடுக்கவும் கூடுதல் பயிற்சிக்கு உட்படுத்தப்பட்டன.
- LN-Super அறிவு வடிகட்டுதல் நோக்கத்தின் கீழ் 40 பில்லியன் டோக்கன்களுக்கு வடிகட்டுதல் கலவை தரவுத்தொகுப்பில் பயிற்சி அளிக்கப்பட்டது.
- LN-Ultra ஆரம்பத்தில் அதே வடிகட்டுதல் தரவுத்தொகுப்பில் 65 பில்லியன் டோக்கன்களுக்கு பயிற்சி அளிக்கப்பட்டது, அதைத் தொடர்ந்து 88 பில்லியன் டோக்கன்களுக்கு Nemotron-H நான்காவது நிலை முன் பயிற்சி தரவுத்தொகுப்பில் பயிற்சி அளிக்கப்பட்டது.
இந்த இறுதி முன் பயிற்சி படி LN-Ultra ஐ குறிப்பு மாதிரி, Llama 3.1-405B-Instruct உடன் பிடிக்க மட்டுமல்லாமல், முக்கிய தரநிலை சோதனைகளிலும் அதை விஞ்சியது.
ஆக்கிரமிப்பு கட்டிடக்கலை மேம்பாடு மற்றும் அதிக மாதிரி செயல்திறன் ஆகியவற்றுக்கு இடையே சுருக்கமான வடிகட்டுதல் மற்றும் முன் பயிற்சி பொருந்தக்கூடிய தன்மையை அடைய முடியும் என்பதை இது காட்டுகிறது.
மேற்பார்வையிடப்பட்ட நன்றாக ட்யூனிங்: பகுத்தறியும் திறனை செம்மைப்படுத்துதல்
மேற்பார்வையிடப்பட்ட நன்றாக ட்யூனிங் (SFT) Llama-Nemotron மாதிரிகளுக்கான "தனிப்பட்ட பயிற்சியாளராக" செயல்படுகிறது, குறிப்பாக குறிப்பிட்ட பணிகளுக்கான பகுத்தறியும் படிகளை குறிவைத்து, DeepSeek-R1 போன்ற "நட்சத்திர மாணவர்" மாதிரிகளிடமிருந்து அனுமான நுட்பங்களைக் கற்றுக்கொள்கிறது.
உண்மையான பகுத்தறியும் திறன்களைப் புகுத்த, பெரிய அளவிலான, உயர்தர பகுத்தறியும் பயிற்சி தரவு அவசியம்.
செயற்கை தரவு: பகுத்தறிவதற்காக வடிவமைக்கப்பட்டது
ஆராய்ச்சியாளர்கள் மேற்பார்வையிடப்பட்ட நன்றாக ட்யூனிங்கிற்கான பகுத்தறிவு மற்றும் பகுத்தறிவற்ற தரவு மாதிரிகளை கவனமாகத் தொகுத்தனர்.
பகுத்தறியும் மாதிரிகளுக்கு, அவர்கள் கணினி வழிமுறைகளில் "விரிவான சிந்தனை ஆன்" ஐச் சேர்த்தனர், அதே நேரத்தில் பகுத்தறிவற்ற மாதிரிகளுக்கு அவர்கள் "விரிவான சிந்தனை ஆஃப்" ஐப் பயன்படுத்தினர்.
இந்த அமைப்பு மாதிரி பகுத்தறிவு கட்டத்தில் தூண்டுதல்களின் அடிப்படையில் பகுத்தறிவு நடத்தையை மாற்ற அனுமதிக்கிறது.
கணிதம், கோடிங் மற்றும் அதனுடன் தொடர்புடைய துறைகளில் பகுத்தறிவிற்கான செயற்கை தரவு தயாரிக்கப்பட்டது.
"பகுத்தறிவு சுவிட்ச்" வழிமுறைகளைப் பின்பற்ற மாதிரிக்கு பயிற்சி அளிக்க, ஆராய்ச்சியாளர்கள் ஜோடி தரவுத்தொகுப்புகளை உருவாக்கினர், அங்கு ஒவ்வொரு தூண்டுதலும் பகுத்தறிவுடன் ஒரு பதிலுக்கும் பகுத்தறிவில்லாமல் ஒரு பதிலுக்கும் ஒத்திருக்கிறது.
இந்த ஜோடி மாதிரியானது கணினி வழிமுறைகளின் அடிப்படையில் அதன் பகுத்தறிவு நடத்தையை சரிசெய்ய கற்றுக்கொள்ள உதவுகிறது.
இந்த பதில்களின் அடுத்தடுத்த வடிகட்டுதல் நிலையான பதில்கள் அல்லது வெகுமதி மாதிரிகளின் அடிப்படையில் செய்யப்படுகிறது.
நன்றாக ட்யூனிங் செயல்முறை
அனைத்து மாதிரிகளும் டோக்கன்-நிலை குறுக்கு-எண்ட்ரோபி இழப்பைப் பயன்படுத்தி அறிவுறுத்தல் நன்றாக ட்யூனிங் தரவில் பயிற்சி அளிக்கப்பட்டன.
பெரும்பாலான பயிற்சி அமைப்புகளில், பகுத்தறிவு மற்றும் பகுத்தறிவற்ற தரவு பயிற்சி தொகுதிகளை உருவாக்க கலக்கப்படுகின்றன, அங்கு ஒவ்வொரு தூண்டுதலும் "விரிவான சிந்தனை ஆன் / ஆஃப்" கணினி வழிமுறைகளின் அடிப்படையில் ஒரு தொடர்புடைய பதிலுடன் ஜோடியாக இருக்கும்.
பயிற்சியை பல சுற்றுகளுக்கு நீட்டிப்பது செயல்திறனை மேம்படுத்தும், குறிப்பாக சிறிய மாதிரிகளுக்கு.
பல்வேறு மாதிரிகளின் GRPO மற்றும் பயிற்சிக்கு ஆதரவளிக்கும் NeMo-Aligner வலுவூட்டல் கற்றல் பயிற்சிக்கு பயன்படுத்தப்பட்டது.
தலைமுறை கட்டத்திற்கு vLLM பயன்படுத்தப்பட்டது, மேலும் பயிற்சி கட்டத்திற்கு Megatron-LM பயன்படுத்தப்பட்டது.
பயிற்சி மற்றும் பகுத்தறியும் கட்டங்கள் ஒரே ஜிபியு தொகுதியைப் பகிர்ந்துகொண்டன, அவை ஒரே சாதனத்தில் முடிக்கப்பட்டன.
முழு பயிற்சி செயல்முறை 8 H100 GPU களுடன் பொருத்தப்பட்ட 72 முனைகளைப் பயன்படுத்தியது.
தலைமுறை கட்டம் FP8 துல்லியத்தையும், பயிற்சி கட்டம் BF16 துல்லியத்தையும், மற்றும் ஆப்டிமைசர் நிலை FP32 ஐயும் பயன்படுத்தியது.
ஒவ்வொரு கட்டமும் ஒரு சுயாதீன மாதிரி எடையை பராமரித்தது, இது ஒவ்வொரு அடியின் தொடக்கத்தில் ஒத்திசைக்கப்பட்டது.
வலுவூட்டல் கற்றல்: R1 இன் பகுத்தறியும் திறனை விஞ்சும் திறவுகோல்
மேற்பார்வையிடப்பட்ட நன்றாக ட்யூனிங் (SFT) மாதிரியானது சக்திவாய்ந்த ஆசிரியர் மாதிரிகளிடமிருந்து அறிவைப் பிரித்தெடுக்கவும் சிறந்த திறன்களை அடையவும் உதவுகிறது.
இருப்பினும், அறிவு வடிகட்டுதல் உள்ளார்ந்தமாக மாணவர் மாதிரியின் செயல்திறனுக்கு ஒரு வரம்பை அமைக்கிறது, குறிப்பாக மாணவர் மாதிரியின் அடிப்படை மாதிரி திறன் ஆசிரியர் மாதிரியின் திறனை விட அதிகமாக இல்லாவிட்டால்.
மேற்பார்வையிடப்பட்ட நன்றாக ட்யூனிங் மூலம், LN-Ultra இன் செயல்திறன் DeepSeek-R1 ஐ அணுக முடியும், ஆனால் அதை விஞ்ச முடியாது.
பெரிய அளவிலான வலுவூட்டல் கற்றல் (RL) மாணவர் மாதிரியை ஆசிரியர் மாதிரியை விஞ்ச அனுமதிக்கும் ஒரு சாத்தியமான முறையாகும், ஏனெனில் இது புதிய சாத்தியக்கூறுகளை தொடர்ந்து ஆராயவும் சுய-கற்றுக்கொள்ளவும் மாதிரியை அனுமதிக்கிறது.
வள கட்டுப்பாடுகள் காரணமாக, ஆராய்ச்சியாளர்கள் பகுத்தறிவு RL ஐ LN-Ultra க்கு மட்டுமே பயன்படுத்தினர், இதன் விளைவாக ஆசிரியர் மாதிரியை விஞ்சும் ஒரு மாணவர் மாதிரி கிடைத்தது.
பகுத்தறிவு வலுவூட்டல் கற்றல் பயிற்சி செயல்முறை முழுவதும், GPQA-Diamond தரவுத்தொகுப்பில் LN-Ultra இன் துல்லியம் மேம்பட்டது.
பயிற்சி செயல்முறை: அறிவியல் பகுத்தறிவில் கவனம் செலுத்துதல்
LN-Ultra க்கு, ஆராய்ச்சியாளர்கள் பெரிய அளவிலான வலுவூட்டல் கற்றல் (RL) மூலம் அதன் அறிவியல் பகுத்தறியும் திறனை மேம்படுத்தினர், குழுவான சார்பு கொள்கை மேம்படுத்தல் (GRPO) அல்காரிதத்தைப் பயன்படுத்தி, DeepSeek-R1 பயன்படுத்திய அதே.
முழு பயிற்சி செயல்முறைக்கும் சுமார் 140,000 H100 மணிநேரம் தேவைப்பட்டது, பகுத்தறிவு பணிகளில் அது கூடும் வரை மாதிரியை தொடர்ந்து பயிற்றுவித்தது.
வெகுமதி பொறிமுறை வடிவமைப்பில் இரண்டு வகைகள் அடங்கும்:
- துல்லிய வெகுமதி: நிலையான பதில்களின் அடிப்படையில் (எண்ணியல் / வாக்கியம் / பத்தி), Llama-3.3-70B-Instruct மாதிரி கணிப்பு முடிவுகளின் பொருந்தும் அளவை தீர்மானிக்கிறது.
- வடிவமைப்பு வெகுமதி: DeepSeek-AI இன் திட்டத்தைப் பின்பற்றி, மாதிரி "விரிவான சிந்தனை" முறையில் <think\> குறிச்சொற்களுடன் பகுத்தறிவு செயல்முறையை மடிக்க வேண்டிய கட்டாயத்தில் உள்ளது, மேலும் அத்தகைய குறிச்சொற்களின் தோற்றம் விரிவான சிந்தனை அல்லாத பயன்முறையில் தடைசெய்யப்பட்டுள்ளது.
ஆராய்ச்சி குழு தரவு வடிகட்டுதல் மற்றும் பாடத்திட்ட பயிற்சி உட்பட தரவையும் முன்கூட்டியே செயலாக்கியது.
- தரவு வடிகட்டுதல்: ஒவ்வொரு கேள்விக்கும் 8 பதில்களை உருவாக்க LN-Super முன்கூட்டியே பயன்படுத்தப்படுகிறது, மேலும் 75% ≥ தேர்ச்சி விகிதம் கொண்ட எளிய மாதிரிகள் அகற்றப்படுகின்றன.
- பாடத்திட்ட பயிற்சி: தேர்ச்சி விகிதத்தின் அடிப்படையில் முற்போக்கான தொகுதி ஒதுக்கீடு ஏற்றுக்கொள்ளப்படுகிறது.
மாறும் விநியோகம்: ஒரு காசியன் செயல்பாட்டுடன் தொகுதி சிரமத்தை மாதிரியாக்குதல், ஆரம்பத்தில் அதிக தேர்ச்சி விகிதம் (எளிய) மாதிரிகளில் கவனம் செலுத்துதல் மற்றும் பின்னர் குறைந்த தேர்ச்சி விகிதம் (கடினமான) மாதிரிகளுக்கு மாறுதல்.
பேடிங் லாஜிக்: மாதிரிகள் முதலில் இலக்கு விநியோகத்தின்படி ஒதுக்கப்படுகின்றன, மேலும் மீதமுள்ள திறன் மிகப்பெரிய மீதமுள்ள மாதிரி குளத்திலிருந்து நிரப்பப்படுகிறது.
தொகுதி உள் செயலாக்கம்: பன்முகத்தன்மையை பராமரிக்க ஒரே தொகுதியில் உள்ள மாதிரிகள் தோராயமாக கலக்கப்படுகின்றன.
விருப்ப மேம்பாட்டிற்கான வலுவூட்டல் கற்றல்
அறிவியல் பகுத்தறிவு பயிற்சியை முடித்த பிறகு, ஆராய்ச்சியாளர்கள் LN-Super மற்றும் LN-Ultra மாதிரிகளுக்கு ஒரு சுருக்கமான வலுவூட்டல் கற்றல் கட்டத்தை நடத்தினர், அவற்றின் அறிவுறுத்தல் பின்பற்றும் திறன்களை மேம்படுத்துவதில் கவனம் செலுத்தினர்.
ஆராய்ச்சியாளர்கள் மாதிரிகளின் பொதுவான உதவி திறன்கள் மற்றும் அரட்டை செயல்திறனை மேம்படுத்த RLHF ஐப் பயன்படுத்தினர், அதே நேரத்தில் கணிதம், அறிவியல் மற்றும் பிற துறைகளில் மாதிரிகளின் திறன்களை ** தக்க வைத்துக் கொண்டனர் **.
LN-Super Arena Hard சோதனையில் 88.3 என்ற உயர் மதிப்பெண்ணைப் பெற்றது, Claude 3.5 Sonnet மற்றும் GPT-4o-2024-05-13 போன்ற தனியுரிம மாதிரிகளை விஞ்சிவிட்டது, மேலும் பெரிய திறந்த மூல மாதிரிகளை விடவும் சிறந்தது.
இந்த முடிவை அடைய, அவர்கள் "OnLine Reward-Policy Optimization" முறையை ஏற்றுக்கொண்டனர், HelpSteer2 தரவுத்தொகுப்பில் மாதிரியின் கணிப்பு வெகுமதியை அதிகப்படுத்துகிறது. Llama-3.1-Nemotron-70B-Reward வெகுமதி மாதிரி பயன்படுத்தப்பட்டது.
இரண்டு சுற்று ஆன்லைன் RPO பயிற்சி Arena Hard மதிப்பெண்ணை 69.1 இலிருந்து 88.1 ஆக உயர்த்தியது.
LN-Ultra க்கு, அவர்கள் இதேபோன்ற செயல்முறையைப் பயன்படுத்தினர், ஆனால் GRPO ஐ ஏற்றுக்கொண்டனர்.
LN-Nano க்கு, அவர்கள் கொள்கை உருவாக்கிய பயிற்சி தரவைப் பயன்படுத்தி இரண்டு சுற்று ஆஃப்லைன் RPO பயிற்சியை நடத்தினர்.
முதல் சுற்று பகுத்தறிவு மற்றும் பகுத்தறிவற்ற தரவை பொருத்தமான கணினி தூண்டுதல்களுடன் இணைத்து மாதிரியின் பகுத்தறிவு கட்டுப்பாட்டு திறனை மேம்படுத்தியது. இரண்டாவது சுற்று அறிவுறுத்தல் பின்பற்றும் திறன்களை மேம்படுத்துவதில் கவனம் செலுத்தியது.
மதிப்பீட்டு முடிவுகள்: ஒரு விரிவான மதிப்பீடு
ஆராய்ச்சியாளர்கள் அனைத்து Llama-Nemotron மாதிரிகளின் செயல்திறனை இரண்டு தரநிலை வகைகளில் மதிப்பீடு செய்தனர்: பகுத்தறிவு பணிகள் மற்றும் பகுத்தறிவற்ற பணிகள்.
பகுத்தறிவு தரநிலைகளில் AIME24 மற்றும் AIME25, GPQA-Diamond, LiveCodeBench மற்றும் MATH500 ஆகியவை அடங்கும்.
பகுத்தறிவற்ற தரநிலைகளில் அறிவுறுத்தல் பின்தொடர்தல் மதிப்பீட்டிற்கான IFEval, செயல்பாடு அழைப்பு கருவி பயன்பாட்டு மதிப்பீட்டிற்கான BFCL V2 Live மற்றும் மனித உரையாடல் விருப்பங்களுடன் சீரமைப்பை மதிப்பிடுவதற்கான Arena-Hard ஆகியவை அடங்கும்.
LN-Nano அதன் சிறிய அளவு இருந்தபோதிலும் அனைத்து பகுத்தறிவு தரநிலைகளிலும் சிறந்த செயல்திறனை அடைந்தது.
கட்டமைக்கப்பட்ட பகுத்தறிவு திறன்களை சிறிய மாதிரிகளுக்கு மாற்றுவதில் மேற்பார்வையிடப்பட்ட நன்றாக ட்யூனிங் செயல்முறைகள் மற்றும் நன்கு தொகுக்கப்பட்ட பகுத்தறிவு தரவுத்தொகுப்புகள் பயனுள்ளதாக இருக்கும் என்பதை இது காட்டுகிறது.
LN-Super இதேபோன்ற அளவுரு அளவிலான பிற மாதிரிகளுடன் ஒப்பிடும்போது பகுத்தறிவு மற்றும் பகுத்தறிவற்ற பணிகளில் வலுவான போட்டித்தன்மையை காட்டியது.
"பகுத்தறிவு ஆஃப்" பயன்முறையில், LN-Super இன் செயல்திறன் அதன் வடிகட்டிய மூல மாதிரி, Llama-3.3-70B உடன் ஒப்பிடத்தக்கது; "பகுத்தறிவு ஆன்" பயன்முறையில், இது DeepSeek-R1-Distilled-Llama-70B போன்ற மற்ற போட்டியிடும் மாதிரிகளை விஞ்சியது, நல்ல அறிவுறுத்தல் பின்பற்றும் திறனை பராமரிக்கும் போது வலுவான பகுத்தறியும் திறனை நிரூபிக்கிறது.
இந்த முடிவுகள் LN-Super என்பது பகுத்தறிவு-மேம்படுத்தப்பட்ட மாதிரிகள் மற்றும் பகுத்தறிவற்ற மாதிரிகளின் நன்மைகளை ஒருங்கிணைக்கும் ஒரு பல்துறை மாதிரி என்பதைக் குறிக்கிறது, இது தினசரி உதவி பணிகளுக்கும் கட்டமைக்கப்பட்ட பகுத்தறிவு பணிகளுக்கும் ஏற்றது.
LN-Ultra பகுத்தறிவு மற்றும் பகுத்தறிவற்ற தரநிலைகளில் தற்போதுள்ள அனைத்து திறந்த மூல எடை மாதிரிகளுடன் சமமாக அல்லது சிறப்பாக செயல்பட்டது. இது GPQA இல் திறந்த மூல மாதிரிகளில் மிகவும் மேம்பட்ட நிலையை அடைந்தது, Nvidia ஆராய்ச்சியாளர்களின் பெரிய அளவிலான வலுவூட்டல் கற்றல் பயிற்சி முறைகளின் செயல்திறனை முழுமையாக நிரூபித்தது.
8×H200 வன்பொருள் உள்ளமைவு தேவைப்படும் DeepSeek-R1 போலல்லாமல், LN-Ultra ஒற்றை 8×H100 நோடில் திறமையாக இயங்குவதற்கு மேம்படுத்தப்பட்டுள்ளது, அதிக பகுத்தறிவு திறன் மற்றும் வரிசைப்படுத்தல் திறனை வழங்குகிறது.
LN-Ultra இன் SFT கட்டம் பல பகுத்தறிவு தரநிலைகளில் (GPQA மற்றும் AIME உட்பட) DeepSeek-R1 இன் செயல்திறனை நெருங்கியுள்ளது அல்லது அடைந்துள்ளது.
மாடலுக்கு பயிற்சி அளித்த பகுத்தறிவு மற்றும் உரையாடல் திறன்களுக்கு கூடுதலாக, அவர்கள் விநியோக பணியிலும் மாதிரியை சோதித்தனர்.
குறிப்பாக, மாதிரி ஜட்ஜ் பெஞ்ச் தரவுத்தொகுப்பில் சோதிக்கப்பட்டது, அதற்கு உயர்தர மற்றும் குறைந்த தரம் கொண்ட பதில்களை வேறுபடுத்தி அறிய தேவைப்பட்டது.
புதிய மாதிரி இந்த பணியில் தற்போதுள்ள சிறந்த தனியுரிம மற்றும் திறந்த மூல மாதிரிகளை விஞ்சியது.
LN-Ultra சிறந்த செயல்திறன் கொண்ட திறந்த மூல மாதிரியாக மாறியது, தனியுரிம மாதிரி o3-mini(high) ஐ விட இரண்டாவது இடத்தில், DeepSeek-R1 ஐ கணிசமாக மீறியது.
கூடுதலாக, LN-Super இன் செயல்திறனும் o1-mini ஐ விட அதிகமாக இருந்தது, இது புதிய மாதிரி பல்வேறு பணிகளில் வலுவான பொதுமைப்படுத்தும் திறனைக் கொண்டுள்ளது என்பதைக் காட்டுகிறது.