RWKV-X: நீளமான சூழல் மொழி மாதிரிக்கு ஒரு புதிய கட்டமைப்பு

நீண்ட மற்றும் சிக்கலான வரிசைகளை செயலாக்குவதற்கான தேவை அதிகரித்து வருவதால், பெரிய மொழி மாதிரிகளின் (LLM) எல்லைகள் தள்ளப்பட்டுள்ளன. பாரம்பரிய டிரான்ஸ்ஃபார்மர் அடிப்படையிலான கட்டமைப்புகள் சக்திவாய்ந்தவையாக இருந்தாலும், வரிசை நீளம் தொடர்பான அவற்றின் இருபடி சிக்கல் காரணமாக குறிப்பிடத்தக்க அளவிடுதல் சிக்கல்களை எதிர்கொள்கின்றன. இந்த வரம்பு நீட்டிக்கப்பட்ட சூழல் உள்ளீடுகளைக் கையாளும் போது குறிப்பாகத் தெளிவாகத் தெரிகிறது, இது வரிசையின் தொலைதூரப் பகுதிகளிலிருந்து தகவல்களை திறம்படப் பிடிக்கவும் பயன்படுத்தவும் அவற்றின் திறனைக் குறைக்கிறது. இந்த சவாலுக்கு பதிலளிக்கும் விதமாக, நீண்ட வரிசைகளை செயலாக்குவதில் நேரியல் சிக்கலை அடைய இலக்கு வைத்து, புதுமையான அணுகுமுறைகளின் அலை எழுந்துள்ளது.

இந்த முறைகளில் நேரியல் கவனம் மாதிரிகள், நிலை இடைவெளி மாதிரிகள் (மம்பா போன்றவை), நேரியல் RNNகள் (டெல்டாநெட் போன்றவை) மற்றும் RWKV ஆகியவை அடங்கும். இந்த கட்டமைப்புகள் ஒவ்வொன்றும் இருபடி சிக்கலுக்கு ஒரு தனித்துவமான தீர்வை வழங்குகின்றன, இது நீண்ட வரிசைகளை மிகவும் திறமையாக செயலாக்க உதவுகிறது. இருப்பினும், இந்த நேரியல் கட்டமைப்புகள் பெரும்பாலும் நீண்ட சூழல் தகவல்களை முழுமையாகப் புரிந்துகொள்வதிலும் பயன்படுத்துவதிலும் சிரமங்களை எதிர்கொள்கின்றன.

உதாரணமாக, RWKV-7 (2.9B அளவுரு மாதிரி) 28K டோக்கன்கள் வரை பாஸ்கி மீட்டெடுப்பு பணிகளில் அதிக துல்லியத்தை நிரூபிக்கிறது. இருப்பினும், இந்த வரம்பிற்கு அப்பால் அதன் செயல்திறன் வேகமாக மோசமடைகிறது. 128K-நீள தரவைப் பயன்படுத்தி தொடர்ச்சியான முன் பயிற்சியுடன் கூட, நீண்ட சூழல் வரம்புகள் நீடிக்கின்றன. இந்த சிக்கல் RWKV க்கு தனித்துவமானது அல்ல; இது மம்பா போன்ற பிற கட்டமைப்புகளுக்கும் நீண்டுள்ளது, இது இந்த வகை மாதிரிகளுக்கு ஒரு அடிப்படை சவாலாக உள்ளது. நீட்டிக்கப்பட்ட சூழல்களில் செயல்திறனைப் பராமரிப்பதற்கான போராட்டம் நேரியல் சிக்கலான மொழி மாதிரிகளில் முன்னேற்றத்திற்கான ஒரு முக்கியமான பகுதியை எடுத்துக்காட்டுகிறது.

நேரியல் சிக்கலான மொழி மாதிரிகளின் நிலப்பரப்பு

நேரியல் சிக்கலான மொழி மாதிரிகள் டிரான்ஸ்ஃபார்மர் அடிப்படையிலான கட்டமைப்புகளுக்கு கவர்ச்சிகரமான மாற்றுகளாக வெளிவந்துள்ளன, நீண்ட வரிசைகளை செயலாக்குவதில் உள்ளார்ந்த இருபடி கணக்கீட்டு சுமைகளைத் தவிர்க்கின்றன. RWKV மாதிரி குடும்பம், இந்த களத்தில் தனித்து நிற்கிறது, பயிற்சி பெறும் போது டிரான்ஸ்ஃபார்மர்களின் இணைத்தன்மையையும் RNN போன்ற தொடர்ச்சியான நிலை பிரதிநிதித்துவத்தையும் திறமையாக ஒருங்கிணைக்கிறது.

RWKV இன் பரிணாமம் RWKV-4 இன் அடிப்படையிலிருந்து தொடங்கி, RWKV-5, RWKV-6 மற்றும் RWKV-7 இல் முடிவடையும் பல மறு செய்கைகளை உள்ளடக்கியது. ஒவ்வொரு மறு செய்கையும் மாதிரி திறன்களை மேம்படுத்துதல் மற்றும் வரம்புகளை நிவர்த்தி செய்தல், மேம்பாடுகள் மற்றும் திருத்தங்களை கொண்டு வந்துள்ளது. மேலும், ஜம்பா, ஜாம்பா மற்றும் மினிமேக்ஸ் போன்ற கலப்பின மொழி மாதிரிகள், தனித்துவமான கலப்பின வடிவமைப்புகளை அறிமுகப்படுத்துவதன் மூலம் தங்கள் அடையாளத்தை உருவாக்கியுள்ளன, இது நேரியல் சிக்கலான மாதிரிகளின் நிலப்பரப்பை மேலும் வளப்படுத்துகிறது.

திறமையான நீண்ட சூழல் செயலாக்கத்திற்கான முயற்சியும் புதுமையான கவனம் வழிமுறைகளின் வளர்ச்சிக்கு வழிவகுத்தது. எடுத்துக்காட்டாக, நேடிவ் ஸ்பார்ஸ் அட்டென்ஷன், டோக்கன்களை தற்காலிகத் தொகுதிகளாக ஒழுங்கமைக்கிறது, மூன்று தனித்தனி கவனம் பாதைகளைப் பயன்படுத்துகிறது: உலகளாவிய சூழலுக்கான சுருக்கப்பட்ட மொத்த-தானிய டோக்கன்கள், தேர்ந்தெடுக்கப்பட்ட முறையில் தக்கவைக்கப்பட்ட நுண்-தானிய டோக்கன்கள் உள்ளூர் விவரங்களுக்கான மற்றும் உள்ளூர் சூழல் தகவல்களைப் பிடிக்க ஸ்லைடிங் சாளரங்கள். குறிப்பிடத் தகுந்த பிற கவனம் வழிமுறைகளில் சீர்அட்டென்ஷன் மற்றும் தொகுதி கவனம் (MoBA) ஆகியவை அடங்கும், ஒவ்வொன்றும் நீண்ட வரிசைகளுக்குள் தொடர்புடைய தகவல்களுக்கு கவனம் செலுத்துவதற்கான தனித்துவமான உத்திகளை வழங்குகின்றன.

RWKV-X: மேம்படுத்தப்பட்ட நீண்ட தூர சூழல் மாடலிங்கிற்கான கலப்பின கட்டமைப்பு

குவாங்டாங் ஆய்வகம் செயற்கை நுண்ணறிவு மற்றும் டிஜிட்டல் பொருளாதாரம் (SZ), ஷென்சென், ஹோஹாய் பல்கலைக்கழகம், நான்ஜிங், ஷென்சென் பல்கலைக்கழகம் மற்றும் சிங்காய் பல்கலைக்கழகம், ஜினிங் ஆகியவற்றைச் சேர்ந்த ஆராய்ச்சியாளர்கள் RWKV-X என்ற ஒரு புதிய கலப்பின கட்டமைப்பை அறிமுகப்படுத்தியுள்ளனர். இந்த கட்டமைப்பு குறுகிய தூர சார்புகளை மாடலிங் செய்வதில் RWKV இன் செயல்திறனை நீண்ட தூர சூழலைப் பிடிக்க சிறப்பாக வடிவமைக்கப்பட்ட ஒரு ஸ்பார்ஸ் கவன வழிமுறையுடன் புத்திசாலித்தனமாக ஒருங்கிணைக்கிறது.

முந்தைய கலப்பின அணுகுமுறைகளைப் போலன்றி, RWKV-X பயிற்சி பெறும் போது நேரியல்-நேர சிக்கலையும், அனுமானம் டிகோடிங்கின் போது நிலையான நேர சிக்கலையும் அடைகிறது. இது நீண்ட வரிசைகளை செயலாக்க விதிவிலக்காக திறமையானதாக ஆக்குகிறது. 64K-டோக்கன் வரிசைகளில் தொடர்ச்சியாக முன் பயிற்சி அளித்தவுடன் மாதிரி 64K பாஸ்கி மீட்டெடுப்பு தரப்படுத்தலில் கிட்டத்தட்ட சரியான துல்லியத்தைக் காட்டுகிறது. இது குறுகிய சூழல் பணிகளில் வலுவான செயல்திறனைப் பராமரிக்கும் அதே வேளையில், முந்தைய RWKV-7 மாதிரிகளை நீண்ட சூழல் தரப்படுத்தல்களில் தொடர்ந்து மிஞ்சுகிறது.

RWKV-X இல் உள்ள கண்டுபிடிப்புகள் நீண்ட சூழல் மொழி மாதிரியின் சவால்களை எதிர்கொள்வதில் ஒரு குறிப்பிடத்தக்க முன்னேற்றத்தைக் குறிக்கின்றன. தொடர்ச்சியான மாதிரிகள் மற்றும் ஸ்பார்ஸ் கவனம் வழிமுறைகளின் பலங்களை இணைப்பதன் மூலம், RWKV-X செயல்திறன் மற்றும் துல்லியம் இடையே ஒரு சமநிலையை அடைகிறது, இது நீட்டிக்கப்பட்ட வரிசைகளை மிகவும் திறம்பட செயலாக்க வழி வகுக்கிறது.

RWKV-X: கட்டமைப்பு மற்றும் பயிற்சி

RWKV-X ஒரு கலப்பின கட்டமைப்பை உள்ளடக்கியது, இரண்டு அணுகுமுறைகளின் பலத்தையும் பயன்படுத்திக் கொள்ள RWKV-7 தொகுதிகளை ஸ்பார்ஸ் கவனம் தொகுதிகளுடன் ஒருங்கிணைக்கிறது. முதலில் இருந்து பயிற்சி அளிப்பதற்கு பதிலாக, RWKV-X ஏற்கனவே உள்ள மாதிரிகளை LLaMA Pro ஆல் ஈர்க்கப்பட்ட ஒன்றோடொன்று இணைக்கப்பட்ட தொகுதி விரிவாக்க அணுகுமுறை மற்றும் பூஜ்ஜிய துவக்க பொறிமுறையைப் பயன்படுத்தி உருவாக்குகிறது.

பயிற்சி செயல்முறை இரண்டு நிலைகளைக் கொண்டுள்ளது, குறுகிய மற்றும் நீண்ட சூழல்களில் மாதிரியின் செயல்திறனை மேம்படுத்த கவனமாக வடிவமைக்கப்பட்டுள்ளது:

  • குறுகிய சூழல் முன் பயிற்சி: ஆரம்பத்தில், மாதிரி மினிபைல் தரவுத்தொகுப்பிலிருந்து எடுக்கப்பட்ட குறுகிய 1024-டோக்கன் சூழல்களில் பயிற்சி அளிக்கப்படுகிறது. இந்த கட்டத்தில், புதிதாகச் சேர்க்கப்பட்ட தொகுதிகளில் உள்ள அளவுருக்கள் தவிர மற்ற அனைத்து அளவுருக்களும் உறைந்துள்ளன, அடிப்படை RWKV-7 மாதிரியிலிருந்து முன் பயிற்சி பெற்ற அறிவு பாதுகாக்கப்படுவதை உறுதி செய்கிறது. இது புதிதாகச் சேர்க்கப்பட்ட தொகுதிகள் முன் பயிற்சி பெற்ற பிரதிநிதித்துவங்களை சீர்குலைக்காமல் ஏற்கனவே உள்ள கட்டமைப்பிற்கு ஏற்ப அனுமதிக்கிறது.
  • நீண்ட சூழல் தொடர்ச்சியான முன் பயிற்சி: இரண்டாவது கட்டத்தில் புரோலாங்-64K தரவுத்தொகுப்பைப் பயன்படுத்தி நீண்ட சூழல் தொடர்ச்சியான முன் பயிற்சி மற்றும் 64K டோக்கன்களின் சூழல் நீளம் ஆகியவை அடங்கும், மொத்தம் சுமார் 1 பில்லியன் டோக்கன்களை செயலாக்குகிறது. இந்த கட்டத்தில், அனைத்து அளவுருக்களும் உறைந்தவை மற்றும் கூட்டாக மேம்படுத்தப்படுகின்றன, மாதிரி அதன் பிரதிநிதித்துவங்களை நன்றாக டியூன் செய்யவும் நீண்ட தூர சார்புகளை கற்றுக் கொள்ளவும் அனுமதிக்கிறது. பயிற்சியில் நீண்ட சூழல் குறுக்கு என்ட்ரோபி (LongCE) இழப்பு பயன்படுத்தப்படுகிறது, இது அவற்றின் முக்கியத்துவத்தின் அடிப்படையில் டோக்கன்களை மாறும் வகையில் எடைபோடுகிறது. இந்த இழப்பு செயல்பாடு வரிசையின் மிகவும் பொருத்தமான பகுதிகளில் மாதிரி கவனம் செலுத்த உதவுகிறது, இது நீண்ட தூர உறவுகளைப் பிடிக்கும் திறனை மேம்படுத்துகிறது.

இரண்டு-நிலை பயிற்சி செயல்முறை RWKV-7 இன் திறனை குறுகிய தூர மாடலிங்கிற்கான ஸ்பார்ஸ் கவனம் பொறிமுறையின் நீண்ட தூர சூழல் விழிப்புணர்வுடன் திறம்பட இணைக்க RWKV-X ஐ அனுமதிக்கிறது. முதலில் குறுகிய சூழல்களில் முன் பயிற்சி அளிப்பதன் மூலமும், பின்னர் நீண்ட சூழல்களில் நன்றாக டியூன் செய்வதன் மூலமும், மாதிரி வரிசையின் வெவ்வேறு பகுதிகளிலிருந்து தகவல்களை திறம்பட ஒருங்கிணைக்க கற்றுக்கொள்கிறது.

RWKV-X: மதிப்பீடு மற்றும் செயல்திறன்

குறுகிய சூழல் மதிப்பீடு, RWKV-X நிலையான தரப்படுத்தல்களில் போட்டி செயல்திறனைப் பராமரிக்கிறது என்பதைக் காட்டுகிறது, இது குறுகிய வரிசைகளை திறம்படக் கையாளும் திறனை நிரூபிக்கிறது. சிறிய RWKV-X (0.22B) சராசரியாக 51.0 மதிப்பெண்ணை அடைகிறது, இது RWKV-7 இன் 51.8 க்கு இணையானது. பெரிய அளவில், RWKV-X (3.6B) 71.9 ஐ அடைகிறது, RWKV-7 (2.9B, 72.8) மற்றும் Qwen2.5-3B (71.4) உடன் நெருக்கமாக பொருந்துகிறது, அதே நேரத்தில் LLaMA3.2-3B (69.7) ஐ விஞ்சுகிறது. இந்த முடிவுகள் குறுகிய சூழல்களில் செயல்திறனை தியாகம் செய்யாமல் RWKV-X இன் செயல்திறனை ஒரு பொது நோக்கத்திற்கான LLM முதுகெலும்பாக உறுதிப்படுத்துகின்றன.

மேலும், செயல்திறன் பகுப்பாய்வு நீண்ட வரிசைகளுக்கான RWKV-X இன் உயர்ந்த அளவிடுதல் பண்புகளை நிரூபிக்கிறது. 128K டோக்கன்களில், RWKV-X ஃப்ளாஷ்-அட்டென்ஷன் v3 ஐ விட 1.37 மடங்கு வேகத்தை அடைகிறது, சூழல் நீளம் அதிகரிக்கும்போது இந்த நன்மை விரிவடைகிறது. இது வரிசை நீளம் அதிகரிக்கும்போது RWKV-X மற்ற கவனம் வழிமுறைகளுடன் ஒப்பிடும்போது மிகவும் திறமையானதாக மாறுகிறது என்பதைக் குறிக்கிறது.

குறுகிய மற்றும் நீண்ட சூழல்கள் இரண்டிலும் RWKV-X இன் வலுவான செயல்திறன் ஒரு மொழி மாதிரியாக அதன் பல்துறைத்திறன் மற்றும் செயல்திறனை எடுத்துக்காட்டுகிறது. குறுகிய வரிசைகளில் போட்டி செயல்திறனைப் பராமரிக்கும் திறன் நீண்ட வரிசைகளில் குறிப்பிடத்தக்க வேகத்தை அடையும் போது, இது பரந்த அளவிலான பயன்பாடுகளுக்கு ஒரு நம்பிக்கைக்குரிய கட்டமைப்பாக அமைகிறது.

RWKV-X: வரம்புகள் மற்றும் எதிர்கால திசைகள்

RWKV-X ஒரு கலப்பின மொழி மாதிரியாக வெளிப்படுகிறது, இது குறுகிய தூர சார்புகளை மாடலிங் செய்வதற்கான RWKV இன் செயல்திறனை நீண்ட தூர சூழல் மாடலிங்கிற்காக சிறப்பாக வடிவமைக்கப்பட்ட ஒரு புதிய ஸ்பார்ஸ் கவனம் பொறிமுறையுடன் வெற்றிகரமாக ஒருங்கிணைக்கிறது. நீண்ட சூழல் மொழி மாதிரியில் RWKV-X வலுவான செயல்திறன் மற்றும் செயல்திறனைக் காட்டினாலும், பல வரம்புகள் உள்ளன.

முதலாவதாக, அதன் ஸ்பார்ஸ் கவனம் பொறிமுறை, இது டாப்-கே சங்க் தேர்வை நம்பியுள்ளது, ஒரு ஹீயூரிஸ்டிக் அணுகுமுறையைப் பயன்படுத்துகிறது, இது சொற்பொருள் ரீதியாக தொடர்புடைய சார்புகளை கவனிக்காமல் போகலாம். டாப்-கே தேர்வு உத்தி வரிசையில் உள்ள மிக முக்கியமான தகவல்களை எப்போதும் பிடிக்காது, இது துணை உகந்த செயல்திறனுக்கு வழிவகுக்கும்.

இரண்டாவதாக, தற்போதைய செயல்படுத்தல் வெண்ணிலா RWKV ஐ விட ஸ்பார்ஸ் கவனம் டிகோடிங் மெதுவாக இயங்குவதைக் காட்டுகிறது, செயல்திறனை மேம்படுத்த மேலும் பொறியியல்முயற்சிகள் தேவை என்பதைக் குறிக்கிறது. நீண்ட வரிசைகளில் மற்ற கவனம் வழிமுறைகளுடன் ஒப்பிடும்போது RWKV-X குறிப்பிடத்தக்க வேகத்தை அடையும் அதே வேளையில், அதன் ஸ்பார்ஸ் கவனம் டிகோடிங் இன்னும் வெண்ணிலா RWKV ஐ விட மெதுவாக உள்ளது, அதன் செயல்படுத்தலில் முன்னேற்றத்திற்கு இடம் உள்ளது என்று கூறுகிறது.

எதிர்கால ஆராய்ச்சி மிகவும் அதிநவீன ஸ்பார்ஸ் கவனம் வழிமுறைகளை ஆராய்வதன் மூலமும், ஸ்பார்ஸ் கவனம் டிகோடிங் செயல்படுத்தலை மேம்படுத்துவதன் மூலமும், மாற்று பயிற்சி உத்திகளை விசாரிப்பதன் மூலமும் இந்த வரம்புகளை நிவர்த்தி செய்வதில் கவனம் செலுத்தலாம். இந்த சவால்களை சமாளிப்பதன் மூலம், RWKV-X நீண்ட சூழல் பயன்பாடுகளுக்கான இன்னும் சக்திவாய்ந்த மற்றும் திறமையான மொழி மாதிரியாக மாறும் திறனைக் கொண்டுள்ளது.