ஆராய்வு திறன் LLM புதுமைக்கு டீப்ஸீக்-R1

மொழி மாதிரிகளின் களம் வேகமாக மாறி வருகிறது, மேம்பட்ட பகுத்தறிவு திறன்களைக் கொண்டவற்றின் மீது ஒரு முக்கியமான கவனம் செலுத்தப்படுகிறது. OpenAI இந்த துறையில் ஆர்வத்தை ஏற்படுத்தியிருந்தாலும், ஒரு சமீபத்திய பகுப்பாய்வு டீப்ஸீக்-R1 ஆராய்ச்சி மற்றும் மேம்பாட்டை துரிதப்படுத்துவதில் முக்கிய பங்கு வகித்தது என்பதை எடுத்துக்காட்டுகிறது. இந்த மாதிரி, சுமார் நான்கு மாதங்களுக்கு முன்பு அறிமுகப்படுத்தப்பட்டதிலிருந்து, அதன் முன்னோடிகளை விட குறைவான பயிற்சி வளங்கள் தேவைப்படும் அதே நேரத்தில் வலுவான தர்க்கரீதியான பகுத்தறிவு செயல்திறனை வழங்குவதற்கான திறனுக்காக கணிசமான கவனத்தைப் பெற்றுள்ளது. இதன் தோற்றம், தொழில் முழுவதும் பிரதிபலிப்பு முயற்சிகளின் அலையைத் தூண்டியுள்ளது, உதாரணமாக மெட்டாவின் பிரத்யேக குழுக்களை உருவாக்கி அதன் கட்டமைப்பு மற்றும் வழிமுறைகளை பகுப்பாய்வு செய்து பின்பற்றுவதாக கூறப்படுகிறது.

சீனா மற்றும் சிங்கப்பூரில் உள்ள பல்வேறு நிறுவனங்களைச் சேர்ந்த ஆராய்ச்சியாளர்கள் மொழி மாதிரி நிலப்பரப்பில் டீப்ஸீக்-R1 இன் தாக்கம் குறித்து ஆழமான மதிப்பாய்வு செய்துள்ளனர். OpenAI ஆரம்ப பாதையை நிறுவியிருந்தாலும், டீப்ஸீக்-R1 சமீபத்திய பகுத்தறிவு-மையப்படுத்தப்பட்ட மொழி மாதிரிகளின் பெருக்கத்தை துரிதப்படுத்துவதில் கருவியாக இருந்தது என்று அவர்களின் கண்டுபிடிப்புகள் தெரிவிக்கின்றன. இந்த விரைவான அதிகரிப்புக்கு பல முக்கிய காரணிகள் காரணமாக இருக்கலாம், இதில் தரவு கியூரேஷனில் மேம்பாடுகள், புதுமையான பயிற்சி நுட்பங்கள் மற்றும் வலுவூட்டல் கற்றல் வழிமுறைகளை ஏற்றுக்கொள்வது ஆகியவை அடங்கும்.

பகுத்தறிவு மாதிரிகளில் தரவு தரத்தின் முதன்மை

பகுப்பாய்வின் மிக முக்கியமான கண்டுபிடிப்புகளில் ஒன்று மேற்பார்வையிடப்பட்ட நுணுக்கமான ட்யூனிங் (SFT) இன் முக்கியத்துவத்தைப் பற்றியது. SFT என்பது அடிப்படை மாதிரிகளை உன்னிப்பாகக் கியூரேட் செய்யப்பட்ட, படிப்படியான விளக்கங்களைப் பயன்படுத்தி மீண்டும் பயிற்சி செய்வதை உள்ளடக்குகிறது. தரவு தரம் மிக முக்கியமானது என்றும், பயிற்சி தரவின் மொத்த அளவை விட அதிகமாக இருக்கும் என்றும் மெட்டா-பகுப்பாய்வு வெளிப்படுத்துகிறது. குறிப்பாக, ஒரு சிறிய எண்ணிக்கையிலான கடுமையாக சரிபார்க்கப்பட்ட எடுத்துக்காட்டுகள், வரையறுக்கப்பட்ட அளவுரு அளவுகளைக் கொண்ட மாதிரிகளில் கூட (எ.கா., 7B அல்லது 1.5B), பகுத்தறிவு திறன்களை கணிசமாக மேம்படுத்தலாம். மாறாக, மோசமாக வடிகட்டப்பட்ட மில்லியன் கணக்கான எடுத்துக்காட்டுகளைப் பயன்படுத்துவது ஓரளவு முன்னேற்றங்களை மட்டுமே தருகிறது.

ஆழமான பகுத்தறிவு திறன்களுக்கு பில்லியன் கணக்கான அளவுருக்களைக் கொண்ட பாரிய மாதிரிகள் தேவை என்ற வழக்கமான ஞானத்திற்கு இந்த அவதானிப்பு சவால் விடுகிறது. அடிப்படை மாதிரி கட்டமைப்பு செயல்திறனின் மேல் வரம்புகளை இயல்பாகவே அமைக்கும் அதே நேரத்தில், பகுத்தறிவு சார்ந்த மாதிரிகள் உயர்தர பயிற்சி தரவைப் பயன்படுத்துவதன் மூலம் வள பயன்பாட்டை திறம்பட மேம்படுத்த முடியும். திறமையான மற்றும் பயனுள்ள மொழி மாதிரிகளின் வளர்ச்சிக்கு இந்த நுண்ணறிவு ஆழமான தாக்கங்களை ஏற்படுத்துகிறது, மூலோபாய தரவு கியூரேஷன் பகுத்தறிவு திறன்களை மேம்படுத்துவதற்கான ஒரு சக்திவாய்ந்த கருவியாக இருக்கும் என்று பரிந்துரைக்கிறது.

தரவு தரத்திற்கு முக்கியத்துவம் கொடுப்பது பகுத்தறிவு-இயக்கப்பட்ட மொழி மாதிரிகளின் வளர்ச்சியில் மனித நிபுணத்துவத்தின் முக்கியத்துவத்தை அடிக்கோடிட்டுக் காட்டுகிறது. உன்னிப்பாகக் கியூரேட் செய்யப்பட்ட, படிப்படியான விளக்கங்களை உருவாக்குவதற்கு அடிப்படை பகுத்தறிவு செயல்முறைகள் பற்றிய ஆழமான புரிதல் மற்றும் அவற்றை தெளிவாகவும் சுருக்கமாகவும் வெளிப்படுத்தும் திறன் தேவைப்படுகிறது. இந்த மாதிரிகள் பெருகிய முறையில் அதிநவீனமாக மாறும் போதும், இவற்றின் பயிற்சி மற்றும் செம்மைப்படுத்துதலில் மனிதர்களின் தொடர்ச்சியான தேவை இருப்பதை இது எடுத்துக்காட்டுகிறது.

பகுத்தறிவு திறன்களை உருவாக்குவதில் வலுவூட்டல் கற்றலின் மேலாதிக்கம்

மொழி மாதிரிகளுக்கு மேம்பட்ட பகுத்தறிவு திறன்களை வழங்குவதற்கு வலுவூட்டல் கற்றல் (RL) ஒரு முக்கியமான நுட்பமாக உருவெடுத்துள்ளது. இந்த சூழலில் ப்ராக்சிமல் பாலிசி ஆப்டிமைசேஷன் (PPO) மற்றும் குழு சார்பு கொள்கை ஆப்டிமைசேஷன் (GRPO) ஆகிய இரண்டு வழிமுறைகள் முக்கியத்துவம் பெற்றுள்ளன. இந்த இரண்டு வழிமுறைகளும் டீப்ஸீக்-R1 க்கு முந்தையவை என்றாலும், பகுத்தறிவு சார்ந்த மொழி மாதிரிகளைச் சுற்றியுள்ள ஆர்வத்தின் அதிகரிப்பு அவற்றை பரவலாகப் பயன்படுத்த தூண்டியுள்ளது.

PPO மாதிரியின் எடைகளை மீண்டும் மீண்டும் சரிசெய்வதன் மூலம் செயல்படுகிறது, ஒவ்வொரு சரிசெய்தலும் முந்தைய உத்திகளுக்கு அருகில் இருப்பதை உறுதி செய்கிறது. தீவிர மாற்றங்களைத் தடுக்கும் மற்றும் பயிற்சி ஸ்திரத்தன்மையை ஊக்குவிக்கும் உள்ளமைக்கப்பட்ட கிளிப்பிங் பொறிமுறையின் மூலம் இது அடையப்படுகிறது. மீண்டும் மீண்டும் செம்மைப்படுத்தும் செயல்முறை மாதிரி ஒட்டுமொத்த கற்றல் செயல்முறையை நிலை குலையாமல் படிப்படியாக அதன் பகுத்தறிவு திறன்களை மேம்படுத்த அனுமதிக்கிறது.

GRPO ஒவ்வொரு தூண்டுதலுக்கும் பல பதில்களை உருவாக்குவதன் மூலம் PPO இன் கோட்பாடுகளை உருவாக்குகிறது. இந்த விருப்பங்கள் ஒரு குழுவில் உள்ள அவற்றின் வெகுமதிகளின் அடிப்படையில் மதிப்பிடப்படுகின்றன, மேலும் மாதிரி அவற்றின் தொடர்புடைய மதிப்பெண்களின்படி புதுப்பிக்கப்படுகிறது. இந்த குழு இயல்பாக்குதல் நுட்பம் ஒரு தனி மதிப்பு நெட்வொர்க்கின் தேவையை நீக்குகிறது மற்றும் நீண்ட, சிந்தனை சங்கிலி பதில்களைக் கையாளும் போது கூட செயல்திறனை பராமரிக்கிறது. பல-படி அனுமானம் மற்றும் சிக்கல் தீர்க்கும் தேவைப்படும் பணிகளுக்கு GRPO இன் சிக்கலான பகுத்தறிவு சங்கிலிகளைக் கையாளும் திறன் மிகவும் பொருத்தமானது.

PPO மற்றும் GRPO போன்ற வலுவூட்டல் கற்றல் வழிமுறைகளை ஏற்றுக்கொள்வது ஆராய்ச்சியாளர்களை ஒத்திசைவான உரையை உருவாக்க மட்டுமல்லாமல், அவர்கள் செயலாக்கும் தகவல்களைப் பற்றியும் திறம்பட பகுத்தறிவு செய்யக்கூடிய மொழி மாதிரிகளைப் பயிற்றுவிக்க உதவியது. இது உண்மையிலேயே அறிவார்ந்த இயந்திரங்களின் வளர்ச்சியில் ஒரு குறிப்பிடத்தக்க படியாகும்.

மேம்பட்ட பகுத்தறிவுக்கான நாவல் பயிற்சி உத்திகள்

பகுத்தறிவு-இயக்கப்பட்ட மொழி மாதிரிகளின் வளர்ச்சியை மேம்படுத்த ஆராய்ச்சியாளர்கள் புதுமையான பயிற்சி உத்திகளை தீவிரமாக ஆராய்ந்து வருகின்றனர். ஒரு குறிப்பாக பயனுள்ள முறை குறுகிய பதில்களுடன் தொடங்கி படிப்படியாக அவற்றின் நீளத்தை அதிகரிப்பதை உள்ளடக்குகிறது. இந்த அணுகுமுறை மாதிரி படிப்படியாக அதன் பகுத்தறிவு திறன்களை வளர்த்துக் கொள்ள அனுமதிக்கிறது, எளிய கருத்துக்களின் அடித்தளத்தை உருவாக்குகிறது மற்றும் படிப்படியாக மிகவும் சிக்கலான சவால்களை எதிர்கொள்கிறது.

பணிகளை படிப்படியான முறையில் வழங்கும் பாடத்திட்ட கற்றல், நம்பிக்கைக்குரிய முடிவுகளை அளித்துள்ளது. பணிகளின் சிரமத்தை படிப்படியாக அதிகரிப்பதன் மூலம், பாடத்திட்ட கற்றல் மனிதர்கள் புதிய திறன்களைக் கற்கும் விதத்தைப் பின்பற்றுகிறது, மாதிரி கட்டமைக்கப்பட்ட மற்றும் திறமையான முறையில் அறிவு மற்றும் பகுத்தறிவு திறன்களைப் பெற அனுமதிக்கிறது. இந்த பயிற்சி உத்திகளின் வெற்றி AI மாதிரிகள் மனித கற்றல் செயல்முறைகளைப் பிரதிபலிக்கும் வழிகளில் உண்மையில் கற்றுக்கொள்ள முடியும் என்று அறிவுறுத்துகிறது.

புதிய பயிற்சி உத்திகளின் வளர்ச்சி பகுத்தறிவு-இயக்கப்பட்ட மொழி மாதிரிகளின் எல்லைகளைத் தள்ளுவதற்கு முக்கியமானது. மனித கற்றல் மற்றும் அறிவாற்றல் செயல்முறைகளிலிருந்து உத்வேகம் பெறுவதன் மூலம், ஆராய்ச்சியாளர்கள் இந்த மாதிரிகளில் பகுத்தறிவு திறன்களை திறம்பட வளர்க்கும் பயிற்சி முறைகளை வடிவமைக்க முடியும்.

மல்டிமாடல் பகுத்தறிவு: எல்லை விரிவாக்கம்

துறையில் மற்றொரு குறிப்பிடத்தக்க போக்கு, மல்டிமாடல் பணிகளில் பகுத்தறிவு திறன்களை ஒருங்கிணைப்பதாகும். ஆரம்பகால ஆராய்ச்சி உரை மாதிரிகளில் உருவாக்கப்பட்ட பகுத்தறிவு திறன்களை படம் மற்றும் ஆடியோ பகுப்பாய்விற்கு மாற்றுவதில் கவனம் செலுத்தியது. பகுத்தறிவு திறன்களை முறைகளுக்கு இடையில் திறம்பட மாற்ற முடியும் என்று ஆரம்ப முடிவுகள் தெரிவிக்கின்றன, வெவ்வேறு வடிவங்களில் வழங்கப்பட்ட தகவல்களைப் பற்றி மாதிரிகள் பகுத்தறிவு செய்ய உதவுகின்றன.

உதாரணமாக, OpenAI இன் சமீபத்திய மாதிரி படங்களையும் கருவி பயன்பாட்டையும் அதன் பகுத்தறிவு செயல்பாட்டில் நேரடியாக இணைக்கிறது. இந்த திறன் மாதிரி முதலில் தொடங்கப்பட்டபோது கிடைக்கவில்லை அல்லது சிறப்பம்சமாக காட்டப்படவில்லை. மல்டிமாடல் பகுத்தறிவை ஒருங்கிணைப்பது ஒரு குறிப்பிடத்தக்க முன்னேற்றத்தைக் குறிக்கிறது, மாதிரிகள் உலகத்துடன் தொடர்பு கொள்ளவும் முழுமையான வழியில் புரிந்து கொள்ளவும் உதவுகிறது.

இந்த முன்னேற்றங்கள் இருந்தபோதிலும், மல்டிமாடல் பகுத்தறிவு பகுதியில் மேம்பாட்டிற்கு இன்னும் கணிசமான இடம் இருப்பதாக ஆராய்ச்சியாளர்கள் ஒப்புக்கொள்கிறார்கள். வெவ்வேறு முறைகளிலிருந்து தகவல்களை தடையின்றி ஒருங்கிணைக்கக்கூடிய மற்றும் சிக்கலான, நிஜ உலக சூழ்நிலைகளைப் பற்றி திறம்பட பகுத்தறிவு செய்யக்கூடிய மாதிரிகளை உருவாக்க மேலும் ஆராய்ச்சி தேவைப்படுகிறது.

பகுத்தறிவின் வெளிப்படும் சவால்கள்

பகுத்தறிவு-இயக்கப்பட்ட மொழி மாதிரிகளின் வளர்ச்சி மகத்தான வாக்குறுதியைக் கொண்டிருந்தாலும், இது பாதுகாப்பு மற்றும் செயல்திறன் தொடர்பான புதிய சவால்களையும் முன்வைக்கிறது. இந்த மாதிரிகள் பகுத்தறிவு செய்ய அதிக திறன் கொண்டவையாகும்போது, அதிகப்படியான சிந்தனை மற்றும் தேவையற்ற நடத்தைகளை உருவாக்குதல் போன்ற சாத்தியமான சிக்கல்களைத் தீர்ப்பது மிகவும் முக்கியமானது.

அதிகப்படியான சிந்தனைக்கான ஒரு எடுத்துக்காட்டு Microsoft இன் Phi 4 பகுத்தறிவு மாதிரி ஆகும், இது ஒரு எளிய “ஹாய்” என்பதற்கு பதிலளிக்கும் வகையில் 50 க்கும் மேற்பட்ட “எண்ணங்களை” உருவாக்குவதாக கூறப்படுகிறது. பகுத்தறிவு மாதிரிகள் சில சூழ்நிலைகளில் அதிக வார்த்தை ஜாலமாகவும் திறமையற்றதாகவும் மாறக்கூடும் என்பதை இது எடுத்துக்காட்டுகிறது. செயற்கை பகுப்பாய்வு நடத்திய பகுப்பாய்வு, கூகிளின் ஃப்ளாஷ் 2.5 மாதிரியின் டோக்கன் பயன்பாட்டை பகுத்தறிவு 17 மடங்கு அதிகரிக்கிறது, இது கணக்கீட்டு செலவுகளை கணிசமாக அதிகரிக்கிறது.

பகுத்தறிவு AI வெளியீடுகளின் தரம் மற்றும் பாதுகாப்பை மேம்படுத்தும் அதே நேரத்தில், இது அதிக கணக்கீட்டு தேவைகள், அதிகரித்த செலவுகள் மற்றும் திறமையற்ற நடத்தைக்கு வழிவகுக்கும். பகுத்தறிவு-இயக்கப்பட்ட மொழி மாதிரிகளைப் பயன்படுத்துவதில் உள்ள வர்த்தகப் பரிமாற்றங்களை கவனமாக கருத்தில் கொள்ள வேண்டியதன் அவசியத்தை இது அடிக்கோடிட்டுக் காட்டுகிறது.

வேலைக்கு சரியான கருவியைத் தேர்வு செய்ய வேண்டிய அவசியம் மிக முக்கியமானது. தற்போது, ஒரு நிலையான LLM ஐ எப்போது பயன்படுத்த வேண்டும், எப்போது பகுத்தறிவு மாதிரியைத் தேர்வு செய்ய வேண்டும் என்பதில் ஒரு உறுதியான ஒருமித்த கருத்து இல்லை, குறிப்பாக சிக்கலான தர்க்கம், அறிவியல் அல்லது குறியீட்டு சிக்கல்கள் அடங்கும் நிகழ்வுகளைத் தவிர. OpenAI சமீபத்தில் அதன் சொந்த மாதிரிகளில் இருந்து தேர்வு செய்ய பயனர்களுக்கு உதவ ஒரு வழிகாட்டியை வெளியிட்டது, ஆனால் வழங்கப்பட்ட ஆலோசனை பகுத்தறிவு எப்போது பொருத்தமான தேர்வு என்பது பற்றிய கேள்விக்கு முழுமையாக தீர்வு காணவில்லை. நடைமுறையில், முடிவு குறிப்பிட்ட சூழலைப் பொறுத்தது மற்றும் செயல்திறன், செலவு மற்றும் பதிலின் விரும்பிய ஆழம் ஆகியவற்றின் கவனமான சமநிலையுடன் இணைக்கப்பட்டுள்ளது.

பாதுகாப்பு நிலப்பரப்பை வழிநடத்துதல்

பாதுகாப்பு என்பது பகுத்தறிவு-இயக்கப்பட்ட மொழி மாதிரிகளின் வளர்ச்சி மற்றும் வரிசைப்படுத்தலில் ஒரு முக்கியமான கவலை. இந்த மாதிரிகளில் உள்ள கட்டமைக்கப்பட்ட சிந்தனை செயல்முறை பாரம்பரிய சிறைச்சாலை உடைக்கும் தாக்குதல்களுக்கு அவற்றை மிகவும் எதிர்ப்புத் தெரிவிக்கச் செய்தாலும், அவை புதிய அபாயங்களையும் அறிமுகப்படுத்துகின்றன. அடிப்படை பகுத்தறிவு தர்க்கம் கையாளப்பட்டால், இந்த அமைப்புகள் பாதுகாப்புகள் இருக்கும்போது கூட தீங்கு விளைவிக்கும் அல்லது சிக்கலான வெளியீடுகளை உருவாக்க ஏமாற்றப்படலாம்.

இதன் விளைவாக, சிறைச்சாலை உடைக்கும் தாக்குதல்கள் AI பாதுகாப்பு துறையில் ஒரு தொடர்ச்சியான சவாலாக உள்ளன. இந்த தாக்குதல்களுக்கு எதிராக பாதுகாக்க மற்றும் பகுத்தறிவு-இயக்கப்பட்ட மொழி மாதிரிகள் பொறுப்புடனும் நெறிமுறையுடனும் பயன்படுத்தப்படுவதை உறுதிசெய்ய ஆராய்ச்சியாளர்கள் தீவிரமாக புதிய நுட்பங்களை உருவாக்கி வருகின்றனர். இந்த மாதிரிகளின் முழு திறனையும் உணர்ந்து கொள்வதற்கும், அவற்றின் தவறான பயன்பாடு தொடர்பான அபாயங்களைத் தணிப்பதற்கும் வலுவான பாதுகாப்பு நடவடிக்கைகள் தேவை.

டீப்ஸீக்-R1 பகுத்தறிவு மொழி மாதிரிகளின் வளர்ச்சியை துரிதப்படுத்துவதில் குறிப்பிடத்தக்க பங்கு வகித்துள்ளது என்று ஆய்வு முடிவடைகிறது. இந்த முன்னேற்றங்களை ஆசிரியர்கள் ஒரு தொடக்கமாகக் கருதுகின்றனர், அடுத்த கட்டம் புதிய பயன்பாடுகளுக்கு பகுத்தறிவை விரிவுபடுத்துதல், நம்பகத்தன்மையை மேம்படுத்துதல் மற்றும் இந்த அமைப்புகளுக்கு பயிற்சி அளிக்க இன்னும் திறமையான வழிகளைக் கண்டுபிடிப்பதில் கவனம் செலுத்துகிறது. மொழி மாதிரிகளின் எதிர்காலம் சந்தேகத்திற்கு இடமின்றி பகுத்தறிவு திறன்களின் தொடர்ச்சியான வளர்ச்சி மற்றும் செம்மையுடன் பின்னிப்பிணைந்துள்ளது.