NVIDIA AI அறிமுகம்: AceReason-Nemotron

ரீஇன்போர்ஸ்மென்ட் லேர்னிங் கணிதம் மற்றும் குறியீடு பகுத்தறிவில் புரட்சியை ஏற்படுத்துகிறது

உண்மையாகவே காரணப்படுத்தக்கூடிய செயற்கை நுண்ணறிவை உருவாக்குவதற்கான தேடல் நீண்ட காலமாக துறையின் மைய நாட்டம் ஆகும். OpenAI இன் "o1" மாடலைச் சுற்றியுள்ள ஆரம்பக் கிளர்ச்சி, அதிநவீன பகுத்தறிவுக்குத் திறன் கொண்ட அமைப்புகளை உருவாக்க, பெரிய அளவிலான வலுவூட்டல் கற்றல் (RL) நுட்பங்களைப் பயன்படுத்துவதில் ஒரு பரவலான ஆர்வத்தைத் தூண்டியது. இதைத் தொடர்ந்து, டீப்சீக்-ஆர்1 தனது மாதிரியை ஓப்பன் சோர்ஸாக வெளியிட முடிவு செய்தது மேலும் உற்சாகத்தை அளித்ததுடன், அதிநவீன பகுத்தறிவு மாதிரிகளின் வளர்ச்சியைத் தீவிரமாகத் தொடர AI சமூகத்திற்கு அதிகாரம் அளித்தது.

இருப்பினும், இந்த ஆரம்ப செயல்பாட்டின் வெடிப்பு ஒரு குறிப்பிடத்தக்க தடையால் விரைவாகக் குறைக்கப்பட்டது. முக்கியமான தொழில்நுட்ப விவரங்கள், வெற்றிகரமான பிரதிக்கு இன்றியமையாதவை - குறிப்பாக, தரவு க்யூரேஷனுக்குப் பயன்படுத்தப்படும் துல்லியமான உத்திகள் மற்றும் RL பயிற்சிக்கு ஆளுகை செய்யும் சிக்கலான ரெசிபிகள் - டீப்சீக்-ஆர்1 இன் அசல் அறிக்கையில் வெளிப்படையாக இல்லை. இந்த குறைபாடு ஆராய்ச்சியாளர்களை கணிசமான விரக்தியில் ஆழ்த்தியது, தெரிவிக்கப்பட்ட வெற்றிகளை மீண்டும் உருவாக்குவதில் சவாலை எதிர்கொண்டது. இதன் விளைவாக, ஆராய்ச்சி ஒருவிதமாகப் பிளவுபட்ட நிலப்பரப்பாக இருந்தது, பலவிதமான சுயாதீன முயற்சிகள் வெவ்வேறு மாதிரி அளவுகள், பல்வேறு ஆரம்ப செக்பாயிண்ட்கள் மற்றும் பல்வேறு இலக்கு களங்களை ஆராய்கின்றன. இந்த தீவிர செயல்பாடு இருந்தபோதிலும், ஒரு விரிவான மற்றும் நிலையான பயனுள்ள பயிற்சி ரெசிபி தொடர்ந்து விடுபட்டது.

பகுத்தறிவுக்கான மொழி மாதிரிகளுக்கு பயிற்சி அளிப்பதற்கான பாரம்பரிய அணுகுமுறைகள் முதன்மையாகக் கணிதம் மற்றும் கணினி குறியீட்டுத் துறைகளில் கவனம் செலுத்தியுள்ளன. இந்த முறைகள் பொதுவாக பெரிய தரவுத்தொகுப்புகளில் முன் பயிற்சியின் கலவையையும், இந்த குறிப்பிட்ட பணிகளுக்கு மாதிரிகளைச் சிறப்புச் செய்வதற்கான மேற்பார்வையிடப்பட்ட ஃபைன் ட்யூனிங் முறையையும் நம்பியுள்ளன. வலுவூட்டல் கற்றலை இந்த செயல்பாட்டில் இணைக்க முந்தைய முயற்சிகள், பொதுவாக டொமைன் சார்ந்த ரிவார்ட் மாடல்களைப் பயன்படுத்துவதன் மூலம், வரையறுக்கப்பட்ட ஆதாயங்களையே தந்தன. இது கணித மற்றும் குறியீட்டு பணிகளுடன் தொடர்புடைய உள்ளார்ந்த சவால்களிலிருந்து உருவானது, அங்கு நுட்பமான பிழைகள் வியத்தகு முறையில் தவறான முடிவுகளுக்கு வழிவகுக்கும்.

டீப்சீக்-ஆர்1 வெளியிடப்பட்டதைத் தொடர்ந்து, மிக சமீபத்திய விசாரணைகள் விதி அடிப்படையிலான சரிபார்ப்பு முறைகளின் பயன்பாட்டை ஆராய்ந்துள்ளன. கணிதத் துறையில், இந்த முறைகள் பெரும்பாலும் தீர்வின் துல்லியமான மற்றும் தானியங்கி சரிபார்ப்பை இயக்கும் குறிப்பிட்ட வெளியீட்டு வடிவங்களைக் கோருவதை உள்ளடக்கியது. இதேபோல், குறியீட்டின் சூழலில், ஆராய்ச்சியாளர்கள் கற்றல் செயல்முறையை வழிநடத்த தொகுத்தல் மற்றும் செயல்பாட்டின் உள்ளார்ந்த பின்னூட்ட வழிமுறைகளைப் பயன்படுத்தியுள்ளனர். இருப்பினும், இந்த அணுகுமுறைகள் பொதுவாக தனிப்பட்ட களங்களில் குறுகிய கவனம் செலுத்துகின்றன, கணித மற்றும் குறியீட்டு சிக்கல்களைக் கலக்கும் மாறுபட்ட தூண்டுதல்களை திறம்பட கையாளும் திறன் இல்லை. மேலும், மதிப்பீடுகள் பெரும்பாலும் AIME மற்றும் LiveCodeBench போன்ற குறிப்பிட்ட அளவுகோல்களுக்கு மட்டுப்படுத்தப்பட்டுள்ளன, இதனால் கண்டுபிடிப்புகளின் பொதுமைப்படுத்தலைக் கட்டுப்படுத்துகின்றன. இறுதியாக, பயிற்சி நிலையற்ற தன்மை ஒரு நிலையான பிரச்சினையாகத் தொடர்கிறது, பெரும்பாலும் படிப்படியான பதிலளிப்பு நீள அதிகரிப்புகள் மற்றும் என்ட்ரோபி சரிவு தணிப்பு போன்ற சிக்கலான நுட்பங்களைப் பயன்படுத்த வேண்டியது அவசியம்.

இப்போது, NVIDIA ஆராய்ச்சியாளர்கள் விளையாட்டை மாற்றுகிறார்கள், ஏனெனில் அவர்கள் சிறிய மற்றும் நடுத்தர அளவிலான மாதிரிகளின் பகுத்தறியும் திறன்களை வியத்தகு முறையில் மேம்படுத்துவதற்கு பெரிய அளவிலான வலுவூட்டல் கற்றல் குறிப்பிடத்தக்க திறனைக் காட்டுகிறது. அவர்களின் முறைகள் வடிகட்டுதல் நுட்பங்களை அடிப்படையாகக் கொண்ட அதிநவீன அணுகுமுறைகளை விட அதிகமான செயல்திறன் நிலைகளை அடைகின்றன. NVIDIA அணுகுமுறை ஒரு தொடர்ச்சியான பயிற்சி உத்தியைப் பயன்படுத்துகிறது: முதலில், கணிதம் தொடர்பான தூண்டுதல்களில் பிரத்தியேகமாக RL பயிற்சியை மேற்கொள்வது, பின்னர் குறியீட்டில் மட்டுமே கவனம் செலுத்தும் தூண்டுதல்களுக்கு மாறுவது.

மேம்படுத்தப்பட்ட பகுத்தறிவுக்கான தொடர்ச்சியான முறை

கண்டுபிடிப்புகள்? கணித சிக்கல்களில் ஆரம்ப RL பயிற்சி கணித அளவுகோல்களில் செயல்திறனை வியத்தகு முறையில் மேம்படுத்துவது மட்டுமல்லாமல், ஆச்சரியப்படும் விதமாக, குறியீடு பகுத்தறிவு திறன்களில் குறிப்பிடத்தக்க ஊக்கத்தையும் உருவாக்குகிறது. மேலும், குறியீட்டில் குறிப்பாக கவனம் செலுத்தும் RL பயிற்சியின் நீட்டிக்கப்பட்ட மறு செய்கைகள் குறியீடு செயல்திறனை மேலும் அதிகரிக்கிறது, கணித செயல்திறனில் குறைந்தபட்ச சரிவு மட்டுமே உள்ளது. இந்த அணுகுமுறை ஒரு முக்கியமான புள்ளியை எடுத்துக்காட்டுகிறது: கணித பயிற்சி குறியீடாக்கம் போன்ற மிகவும் சிக்கலான பகுத்தறிவு பணிகளுக்கு ஒரு வலுவான அடித்தளமாக செயல்பட முடியும்.

NVIDIA அணுகுமுறையின் வெற்றிக்கு ஒருங்கிணைந்த வலுவான தரவு க்யூரேஷன் பைப்லைன் ஆகும். உயர் சிரமம் மற்றும் உயர்தர, சரிபார்க்கக்கூடிய பதில்கள் மற்றும் சோதனை வழக்குகள் கிடைக்கும் தன்மை ஆகியவற்றால் வகைப்படுத்தப்படும் சவாலான தூண்டுதல்களை சேகரிக்க இந்த பைப்லைன் உன்னிப்பாக வடிவமைக்கப்பட்டுள்ளது. இது கணிதம் மற்றும் குறியீட்டு களங்கள் இரண்டிலும் சரிபார்ப்பு அடிப்படையிலான RL ஐ திறம்பட பயன்படுத்த அனுமதிக்கிறது.

கணிதம் மற்றும் குறியீட்டிற்கான தரவு க்யூரேஷன்

NVIDIA ஆராய்ச்சியாளர்கள் பயன்படுத்தும் தரவு க்யூரேஷன் முறை, கணிதம் சார்ந்த RL மற்றும் குறியீடு சார்ந்த RL ஆகிய இரண்டிற்கும் இடையே உள்ள தேவைகளை கவனமாக வேறுபடுத்துகிறது.

கணிதம் சார்ந்த RL: கணிதம் சார்ந்த RLக்கான பயிற்சித் தரவை உருவாக்குவது DeepScaler மற்றும் NuminaMath தரவுத்தொகுப்புகளிலிருந்து தரவை ஒன்றிணைப்பதை உள்ளடக்கியது. இந்த தரவுத்தொகுப்புகள் இயற்கணிதம், சேர்க்கையியல், எண் கோட்பாடு மற்றும் வடிவியல் உள்ளிட்ட பரந்த அளவிலான கணித தலைப்புகளை உள்ளடக்கியது. தரவு ஒருமைப்பாட்டைப் பராமரிக்க, ஒரு கண்டிப்பான வடிகட்டுதல் செயல்முறை பயன்படுத்தப்படுகிறது, தேவையற்ற அல்லது பொருத்தமற்ற உள்ளடக்கத்தை அகற்ற 9-கிராம் வடிகட்டியைப் பயன்படுத்துகிறது, மேலும் சிக்கல் வாய்ந்த உள்ளீடுகளை அகற்ற கடுமையான விலக்கு விதிகளைச் செயல்படுத்துகிறது. DeepSeek-R1 மாதிரி கேள்விகளின் தரத்தை சரிபார்ப்பதில் முக்கிய பங்கு வகிக்கிறது. ஒவ்வொரு கேள்வியும் மாதிரியால் எட்டு சுயாதீன முயற்சிகளுக்கு உட்படுத்தப்படுகிறது, மேலும் விதி அடிப்படையிலான சரிபார்ப்பு மூலம் சரியான தன்மையின் பெரும்பான்மை வாக்குகளைப் பெறும் தீர்வுகள் மட்டுமே இறுதி தரவுத்தொகுப்பில் சேர்க்கப்படும்.

குறியீடு சார்ந்த RL: குறியீடு சார்ந்த RLக்கான தரவுத்தொகுப்பு நவீன போட்டி நிரலாக்க தளங்களிலிருந்து பெறப்பட்ட தரவைப் பயன்படுத்தி உருவாக்கப்பட்டது. இந்த தளங்கள் மாறுபட்ட பலவிதமான அல்காரிதமிக் தலைப்புகளை உள்ளடக்கிய கோடிங் சிக்கல்களின் வளமான மூலத்தை வழங்குகின்றன. இந்தச் சிக்கல்கள், செயல்பாடு அழைப்பு மற்றும் நிலையான உள்ளீடு/வெளியீடு (stdin/stdout) மரபுகளுக்கு ஏற்ப வடிவமைக்கப்பட்டுள்ளன, அவை இந்தச் சூழல்களில் பொதுவாகப் பயன்படுத்தப்படுகின்றன. ஆராய்ச்சியாளர்கள் பொருந்தாத சிக்கல்களை அகற்ற ஒரு உன்னிப்பான வடிகட்டுதல் செயல்முறையை மேற்கொள்கின்றனர் மேலும் எட்ஜ் வழக்குகள் மற்றும் எல்லை நிபந்தனைகளை உள்ளடக்கும் வகையில் வடிவமைக்கப்பட்ட விரிவான சோதனை வழக்குகளை உன்னிப்பாக உருவாக்குகின்றனர். மேலும், DeepSeek-R1-671B மாதிரியால் மதிப்பீடு செய்வதன் மூலம் ஒவ்வொரு சிக்கலுக்கும் ஒரு சிரம மதிப்பெண் ஒதுக்கப்படும். இந்த கடுமையான செயல்முறை 8,520 சரிபார்க்கப்பட்ட கோடிங் சிக்கல்களைக் கொண்ட உயர்தர தரவுத்தொகுப்பில் விளைகிறது.

AceReason-Nemotron: முடிவுகள் மற்றும் பெஞ்ச்மார்க்குகள்

NVIDIA ஆராய்ச்சியின் முடிவுகள் கட்டாயப்படுத்துகின்றன. AceReason-Nemotron-7B மாதிரி ஆரம்ப SFT மாடல்களுடன் ஒப்பிடும்போது, சவாலான AIME 2024 மற்றும் 2025 போட்டிகளில் முறையே 14.5% மற்றும் 14.6% குறிப்பிடத்தக்க துல்லிய மேம்பாடுகளை அடைகிறது. மேலும், இது LiveCodeBench v5 மற்றும் v6 அளவுகோல்களில் முறையே 14.2% மற்றும் 8% கணிசமான ஆதாயங்களை நிரூபிக்கிறது. மாதிரியின் பெரிய 14B மாறுபாடு DeepSeek-R1-Distill-Qwen-32B மற்றும் DeepSeek-R1-Distill-Llama-70B போன்ற பெரிய மாடல்களை விட அதிகமான செயல்திறனைக் காட்டுகிறது. இது திறந்த RL அடிப்படையிலான பகுத்தறிவு மாதிரிகளில் சிறந்த முடிவுகளை அடைகிறது.

அதிநவீன வடிகட்டுதல் அடிப்படையிலான மாடல்களுடன் ஒப்பிடும்போது, AceReason-Nemotron-14B AIME அளவுகோல்களில் OpenMath-14B/32B ஐ விட 2.1%/4.4% மற்றும் LiveCodeBench இல் OpenCodeReasoning-14B ஐ விட 1.7%/0.8% அதிக செயல்திறன் கொண்டுள்ளது. RL வடிகட்டுதல் அணுகுமுறைகளை விட அதிக செயல்திறன் மேல் எல்லைகளை அடைய முடியும் என்பதை இது உறுதியாக நிரூபிக்கிறது, அதே நேரத்தில் QWQ-32B மற்றும் o3-mini போன்ற மேம்பட்ட எல்லை மாடல்களுக்கு எதிராக போட்டி செயல்திறனை பராமரிக்கிறது.

இந்த முடிவுகளின் தாக்கங்கள் குறிப்பிடத்தக்கவை. பெரிய அளவிலான RL ஆனது AI மாடல்களில் பகுத்தறியும் திறன்களின் புதிய நிலைகளைத் திறக்க முடியும் என்பதையும், பாரம்பரிய அணுகுமுறைகளின் வரம்புகளை மீற முடியும் என்பதையும் அவர்கள் பரிந்துரைக்கின்றனர். தொடர்ச்சியான டொமைன் சார்ந்த பயிற்சி உத்தி, வலுவான தரவு க்யூரேஷன் பைப்லைனுடன் இணைந்து, இந்த பகுதியில் எதிர்கால ஆராய்ச்சிக்கான ஒரு வரைபடத்தை வழங்குகிறது.

வலுவூட்டல் கற்றல் ஓட்டுனர்கள் பகுத்தறிவு வரம்புகள்

இந்த ஆராய்ச்சி மாதிரி பகுத்தறிதல் திறன்களின் எல்லைகளைத் தள்ளுவதற்கு வலுவூட்டல் கற்றலின் குறிப்பிடத்தக்க திறனை அடிக்கோடிட்டுக் காட்டுகிறது. டொமைன் சார்ந்த பயிற்சியை வியூக ரீதியாகப் பயன்படுத்துவதன் மூலமும், உயர்தர தரவை உன்னிப்பாகக் க்யூரேட் செய்வதன் மூலமும், இது AI மாடல்களை முன்பு தீர்க்க முடியாத சிக்கல்களைத் தீர்க்க அனுமதிக்கிறது மற்றும் பகுத்தறிவு மாதிரி மேம்பாட்டிற்கான புதிய அளவுகோல்களை நிறுவுகிறது மற்றும் இறுதியில் முன்முயற்சியற்ற துல்லியம் மற்றும் செயல்திறனுடன் நிஜ உலக சவால்களை எதிர்கொள்ளும் திறன் கொண்ட AI அமைப்புகளின் புதிய தலைமுறைக்கு வழிவகுக்கிறது. திறம்பட காரணமறிவதற்கான திறன் நுண்ணறிவின் ஒரு மூலக்கல்லாகும், மேலும் NVIDIA அடைந்த முன்னேற்றங்கள் செயற்கை நுண்ணறிவின் முழு திறனையும் உணர்ந்து கொள்வதற்கான ஒரு முக்கிய படியாகும். எதிர்கால ஆராய்ச்சி இந்த நுட்பங்களை இன்னும் பெரிய மாடல்களுக்கு அளவிடுவதிலும், பகுத்தறிவு செயல்திறனை மேலும் மேம்படுத்துவதற்காக புதிய தரவு க்யூரேஷன் உத்திகளை ஆராய்வதிலும் கவனம் செலுத்தக்கூடும். மிகவும் அதிநவீன ரிவார்ட் செயல்பாடுகளை உருவாக்குதல் மற்றும் ஆய்வு உத்திகள் சிக்கலான பகுத்தறிவு பணிகளுக்கான AI மாடல்களுக்கு பயிற்சி அளிப்பதோடு தொடர்புடைய சவால்களை சமாளிக்க முக்கியமானதாக இருக்கும். இறுதியில், சிக்கலான சிக்கல்களைத் தீர்க்கவும் மற்றும் பரந்த அளவிலான டொமைன்களில் தகவலறிந்த முடிவுகளை எடுக்கவும் மனிதர்களைப் போன்ற ஒரு முறையில் காரணமறிதல், கற்றல் மற்றும் மாற்றியமைக்க AI அமைப்புகளை உருவாக்குவதே குறிக்கோளாக உள்ளது.

மேலும், RL ஐப் பயன்படுத்துவது மூல துல்லியத்திற்கு அப்பால் நன்மைகளை வழங்குகிறது. RL ஏஜென்ட்கள் செயல்திறன், உறுதிப்பாடு மற்றும் விளக்கக்கூடிய தன்மை போன்ற பல்வேறு நோக்கங்களுக்காக மேம்படுத்த கற்றுக்கொள்ளலாம். உதாரணமாக, ஒரு RL ஏஜென்ட் சரியானதாக மட்டுமல்லாமல் திறமையானதாகவும் புரிந்துகொள்ள எளிதானதாகவும் இருக்கும் குறியீட்டை உருவாக்க பயிற்சி அளிக்கப்படலாம். இந்த திறன் குறிப்பாக பாதுகாப்பு-முக்கிய பயன்பாடுகளில் முக்கியமானது, அங்கு AI அமைப்புகள் நம்பகமானவை மற்றும் கணிக்கக்கூடியவை என்பதை உறுதிப்படுத்துவது அவசியம்.

NVIDIA இன் பணி AI ஆராய்ச்சியில் தரவு க்யூரேஷனின் வளர்ந்து வரும் முக்கியத்துவத்தை எடுத்துக்காட்டுகிறது. பயிற்சித் தரவின் தரம் AI மாடல்களின் செயல்திறனில் குறிப்பிடத்தக்க தாக்கத்தை ஏற்படுத்துகிறது, மேலும் அதிநவீன முடிவுகளை அடைய கவனமாக உருவாக்கப்பட்ட தரவுத்தொகுப்புகள் அவசியம். NVIDIA உருவாக்கிய தரவு க்யூரேஷன் பைப்லைன் பகுத்தறிவு மாதிரிகளில் பணிபுரியும் ஆராய்ச்சியாளர்களுக்கு ஒரு மதிப்புமிக்க ஆதாரமாகும், மேலும் இது மற்ற டொமைன்களிலும் பயன்படுத்த ஏற்றதாக இருக்கும்.

பெரிய அளவிலான RL, டொமைன் சார்ந்த பயிற்சி மற்றும் வலுவான தரவு க்யூரேஷன் ஆகியவற்றின் கலவையானது AI மாடல்களின் பகுத்தறிவு திறன்களை மேம்படுத்துவதற்கான ஒரு வெற்றிகரமான சூத்திரமாக நிரூபிக்கப்பட்டுள்ளது. இந்த நுட்பங்கள் தொடர்ந்து வளர்ச்சியடைந்து வருவதால், AI துறையில் இன்னும் கூடுதலான வியக்கத்தக்க முன்னேற்றங்களைக் காண எதிர்பார்க்கலாம், மேலும் AI மாடல்களின் தொடர்ச்சியான முன்னேற்றங்களை மிக விரைவில் காண நாங்கள் நம்புகிறோம்.

மேம்படுத்தப்பட்ட பகுத்தறிதலுக்கான ஒரு வரிசைமுறை முறை
கண்டுபிடிப்புகள்? கணித சிக்கல்களில் ஆரம்ப RL பயிற்சி கணித அளவுகோல்களில் செயல்திறனை வியத்தகு முறையில் மேம்படுத்துவது மட்டுமல்லாமல், ஆச்சரியப்படும் விதமாக, குறியீடு பகுத்தறிவு திறன்களில் குறிப்பிடத்தக்க ஊக்கத்தையும் உருவாக்குகிறது. மேலும், குறியீட்டில் குறிப்பாக கவனம் செலுத்தும் RL பயிற்சியின் நீட்டிக்கப்பட்ட மறு செய்கைகள் குறியீடு செயல்திறனை மேலும் அதிகரிக்கிறது, கணித செயல்திறனில் குறைந்தபட்ச சரிவு மட்டுமே உள்ளது. இந்த அணுகுமுறை ஒரு முக்கியமான புள்ளியை எடுத்துக்காட்டுகிறது: கணித பயிற்சி குறியீடாக்கம் போன்ற மிகவும் சிக்கலான பகுத்தறிவு பணிகளுக்கு ஒரு வலுவான அடித்தளமாக செயல்பட முடியும்.

கணிதம் மற்றும் குறியீட்டிற்கான தரவு க்யூரேஷன்

NVIDIA ஆராய்ச்சியாளர்கள் பயன்படுத்தும் தரவு காப்பகவியல் முறைப்படி, கணிதம் RLமட்டும் குறியீடு RLக்கு தேவைகளை கவனமாக வேறுபடுத்துகிறது.

கணிதம்RLமட்டும் கணிதம்RLக்கான பயிற்சி தரவை உருவாக்குவது DeepScaler மற்றும் NuminaMath தரவுத் தொகுப்பிலிருந்து தரவை ஒன்றிணைப்பதை உள்ளடக்கியது. இந்த தரவுத் தொகுப்புகள் இயற்கணிதம், சேர்மானவியல், எண் கோட்பாடுமற்றும் வடிவியல் உட்பட்ட பரந்த அளவிலான தலைப்புகளை கொண்டிருக்கும். தரவு ஒருமித்த தன்மையை கையாள கடுமையான வடிகட்டல் முறை பயன்படுத்தப்படுகிறது, தேவையற்ற மற்றும் தரமற்ற உள்ளடக்கங்களை அகற்ற 9-கிராம் வடிகட்டி பயன்படுத்தப்படுகிறது மற்றும் தவறான பதிவுகளை அகற்ற கடுமையான விதிகள் செயல்படுத்தப்படுகிறது. கேள்விகளின் தகுதி திறனை DeepSeek-R1 மாதிரி மூலம் சரிபாக்கப்படுகிறது. ஒவ்வொரு கேள்வியும் எட்டு தனித்த முயற்சிகளுக்கு உட்படுத்தப்படும் மாதிரியால், இந்த தீர்வுகள் அடிப்படை மூலம் சரிபார்க்கப்பட்டு, இறுதி தரவுத் தொகுப்பில் சேர்க்கப்படும்.

குறியீடுRLமட்டும்:
நவீன போட்டி நிரலாக்க தளங்களிலிருந்து பெறப்பட்ட தரவை பயன்படுத்தி குறியீடுRL தரவு தொகுப்பு உருவாக்கப்படும். இந்த தளங்கள் பலவிதமான தலைப்புகளை கொண்டிருக்கும். செயல்பாட்டின் பெயரிடல் மற்றும் நிலையான உள்ளீடு மற்றும் தரத்திற்கு இணையாக இருக்க வேண்டும். பொருந்தாத சிக்கல்களை அகற்ற ஆராய்ச்சியாளர்கள் கடுமையான வடிகட்டல் முறை மூலம் துல்லியமாக உருவாக்கிய சோதனைக்கு பின் சிக்கல் காணப்படும். மேலும் ஒவ்வொரு சிக்கலுக்கும் DeepSeek-R1-671 மாதிரி மதிப்பீடு செய்வதன் மூலம் சிரமம் மதிப்பெண் வழங்கப்படுகிறது. இந்த கடுமையான பணியின் மூலம் 8520 குறியீட்டு சிக்கல்களை சரிபார்க்கலாம்.

AceReason-Nemotron: பலன் மற்றும் அளவீடுகள்

NVIDIA ஆராய்ச்சியில் இருந்து கிடைத்த பலன்கள் கட்டாயப்படுத்துகின்றன. AceReason-Nemotron-7B மாதிரியானது ஆரம்ப SFT மாதிரிகளுடன் ஒப்பிடும்போது சவாலான AIME 2024 மற்றும் 2025 போட்டிகளில் 14.5% மற்றும் 14.6% அதிகமான பலன்களை பெற்றுள்ளது. மேலும் LiveCodeBench v5மற்றும் v6 அளவீடுகளில் 14.2 % மற்றும் 8 சதவீதம் ஆதாயம் கிடைத்துள்ளது. அந்த 14B பெரிய அளவு தரவு Qwen மற்றும் Llama வை விட கூடுதலானதாக உள்ளது. இதுவே திறந்த RL அடிப்படையிலான ஏரளமான சிறந்த பலன்களாகும்.

சமீபத்திய தரவு காப்பகவியல் அடித்தட்டத்துடன் ஒப்பிடும்போது AceReason-Nemotron-14B AIME அளவீடுகளில் OpenMath 2.1 சதவீதம் மற்றும் 4.4 சதவீதம் உள்ளது. இன்னும் குறிப்பாக QWQ-32B மற்றும் o3-mini பலன்கள் உள்ளது.

இந்த முடிவுகள் குறிப்பிடத்தக்கவை. RL மாதிரி, சிந்தனை மற்றும் காரணத்திறன் பகுத்தாரும் திறனை மேம்படுத்த உதவும். மற்றும் எதிர்கால சந்ததிக்கு தேவையான அனைத்து திறமைகளும் இதனுள் அடங்கியுள்ளது.

வலுவூட்ட கற்றல் இயக்குகிறார்கள் காரணம் வரம்புகள்
புதிய ஆராய்ச்சி மாதிரி காரணத்தின் திறன் மேம்படும் காரணம் ஆகும். RL திறன் பயிற்சி தரவு நிர்வாகிப்பதில் ஒரு முக்கிய பங்கை வகிக்கின்றது. சிக்கல்களை தீர்க்க உதவுவதுடன் AI மாடல்களில் மேலும் புதிய அளவு கோடிட்டு தீர்மானிக்க புதிய அளவுகோல்களை நிர்ணயிக்கும். மற்றும் கணிக்கின்ற துல்லியமான அணுகுமுறையை திறம்பட செயல்படுத்துகிறது. காரணம் நுண்ணறிவின் ஒரு மூலக்கல்லாகும் NVIDIA அடைந்துள்ள முன்னேற்றங்கள் செயற்கை நுண்ணறிவோன் முழு திறன்களையும் உணர்ந்து கொள்வதற்கான ஒரு முக்கிய படியாகும் எதிர்கால ஆராய்ச்சி பெரிய மாடல்களுக்கு பயிற்சி வழங்குவதற்கு உபயோகமாக இருக்கும். காரணம் திறன் மேம்பட வேண்டும் மேலும் அதிநவீன ரிவார்ட் செயல்பாடு உருவாக்குதல் மற்றும் பயிற்சி வழங்குவது மிக முக்கியமான ஒன்று காரணம் செயற்கை நுண்ணிலையில் சவால்களை எதிர் கொள்ள வேண்டும் அனைத்து விதமான பிரச்சினைகளுக்கும் தீர்வு காண ஒரு மாதிரியாக மனிதனை போல சிந்திக்க தூண்டுகிறது.

நன்மைகள் அதிக துல்லியத்தை காட்டிலும் அதிகமாக உள்ளது RL முகவரின் பல வகைகளையும் மேம்படுத்துவதில் திறன் கொண்டது மேலும் பாதுகாப்பு மிக முக்கியம் ஆகையால் இந்த அமைப்பு எளிதாக கையாண்டு தீர்வு காண பயிற்சி அளிக்க முடியும் ஒரு சரியான ஏஜென்றை உருவாக்குவதே குறிக்கோள்.

NVIDIA மிக முக்கியமாக AI காப்பக பணியில் முக்கியத்துவம் அளிக்கிறது. தரவு காப்பகத் தயாரிப்பில் கவனமாக இருக்க வேண்டும் மேலும் AI மாடல்களின் செயல்திறனில் முக்கியமான ஒன்றாகும். தரவு காப்பகவியல் ஆராய்ச்சிக்கு பயனுள்ளதாக இருக்கும் காரணம் பயனுள்ள மாதிரிகள் இதில் இருக்கிறது.

மாடலின் ஒருங்கிணைந்த RL பெரிதும் உதவுகிறது பயிற்சி மற்றும் உறுதியான காப்பகத் தயாரிப்புகளை சிறந்த சூத்திரம் ஆகும் காரணிகள் மற்றும் செயற்கை நுண்ணறிவு அனைத்து வளர்ச்சிக்கு உதவி செய்கிறது.