வரிசை செயலாக்கத்தில் மாறும் அலைகள்: Transformer வரம்புகளுக்கு அப்பால்
பல ஆண்டுகளாக, வரிசை மாடலிங் துறை, குறிப்பாக இயற்கை மொழி செயலாக்கத்தில், தன்னியக்க Transformer கட்டமைப்புகளின் வெற்றியால் பெரிதும் வடிவமைக்கப்பட்டுள்ளது. சூழல் சார்ந்த கற்றலுக்கான அவற்றின் குறிப்பிடத்தக்க திறமை, பயிற்சி கட்டத்தில் softmax attention பொறிமுறையால் எளிதாக்கப்பட்ட உள்ளார்ந்த இணைத்தன்மை ஆகியவை, அவற்றை ஆதிக்க முன்னுதாரணமாக நிலைநிறுத்தியது. இருப்பினும், இந்த ஆதிக்கம் கணிசமான செலவில் வருகிறது. முக்கிய கணினி இயந்திரமான softmax attention, உள்ளீட்டு வரிசையின் நீளத்தைப் பொறுத்து இருபடி அளவீட்டு நடத்தையை (quadratic scaling behavior) வெளிப்படுத்துகிறது. இந்த பண்பு, கணினி மேல்நிலைச் செலவுகள் மற்றும் கணிசமான நினைவகத் தேவைகளை நேரடியாக அதிகரிக்கிறது, குறிப்பாக ஆவணச் சுருக்கம், நீண்ட வடிவ கேள்வி பதில் அல்லது மரபணு பகுப்பாய்வு போன்ற நவீன பயன்பாடுகளில் பொதுவான விரிவான வரிசைகளைக் கையாளும் போது இது ஒரு குறிப்பிடத்தக்க தடையாக உள்ளது.
பயிற்சியின் போது குறுகிய வரிசை நீளங்களுக்கு இந்த அழுத்தங்களில் சிலவற்றை அதிநவீன GPU மேம்படுத்தல்கள் குறைக்க முடிந்தாலும், மாதிரிகள் நிஜ உலக சூழ்நிலைகளில் பயன்படுத்தப்படும் அனுமான நிலை (inference stage) - குறிப்பாக பெரிய அளவில் செயல்படும் போது - வள-செறிவானதாகவும் விலை உயர்ந்ததாகவும் உள்ளது. attention-இன் இருபடி தன்மை என்பது, வரிசை நீளத்தை இரட்டிப்பாக்குவது, அனுமானத்தின் போது கணினி முயற்சி மற்றும் நினைவகத் தடத்தை நான்கு மடங்காக அதிகரிக்கிறது, இதனால் மிக நீண்ட சூழல்களில் மிக பெரிய Transformer மாதிரிகளைப் பயன்படுத்துவது பல சூழ்நிலைகளில் பொருளாதார ரீதியாக சவாலானதாகவோ அல்லது தொழில்நுட்ப ரீதியாக சாத்தியமற்றதாகவோ ஆக்குகிறது.
இந்த அடிப்படை வரம்புகளை உணர்ந்து, ஆராய்ச்சியாளர்கள் தொடர்ந்து மாற்று கட்டமைப்பு வழிகளை ஆராய்ந்து வருகின்றனர். ஒரு குறிப்பாக நம்பிக்கைக்குரிய திசை, தொடர்ச்சியான நரம்பியல் நெட்வொர்க் (RNN) வடிவமைப்புகளை மறுபரிசீலனை செய்து புத்துயிர் அளிப்பதை உள்ளடக்கியது. நவீன RNN அணுகுமுறைகள் சுருக்க நிலை வழிமுறைகளை (compressive state mechanisms) இணைப்பதை நோக்கமாகக் கொண்டுள்ளன. இந்த நிலைகள் வரிசையிலிருந்து தொடர்புடைய வரலாற்றுத் தகவலை உள்ளடக்குகின்றன, இது மாதிரியை வரிசை நீளத்தைப் பொறுத்து நேரியல் கணினி சிக்கலான தன்மையுடன் (linear computational complexity) செயல்பட அனுமதிக்கிறது, மேலும் முக்கியமாக, அனுமானத்தின் போது வரிசை எவ்வளவு நீளமாக மாறினாலும் நிலையான நினைவகப் பயன்பாட்டை (constant memory usage) பராமரிக்கிறது. இந்த பண்பு நீண்ட வரிசைப் பணிகளுக்கு Transformers-ஐ விட ஒரு கட்டாய நன்மையை வழங்குகிறது. நேரியல் attention தோராயங்கள் மற்றும் நிலை-வெளி மாதிரிகள் (state-space models - SSMs) போன்ற பகுதிகளில் சமீபத்திய முன்னேற்றங்கள் குறிப்பிடத்தக்க திறனைக் காட்டியுள்ளன. RWKV-4 போன்ற கட்டமைப்புகள் குறிப்பிடத்தக்க எடுத்துக்காட்டுகளாக வெளிவந்தன, அனுமானத்துடன் தொடர்புடைய கணினிச் சுமையைக் கடுமையாகக் குறைக்கும் அதே வேளையில் போட்டி செயல்திறன் நிலைகளைக் காட்டுகின்றன, இது நிலையான attention-இன் இருபடி கட்டுப்பாடுகளுக்கு அப்பால் ஒரு சாத்தியமான பாதையை சுட்டிக்காட்டுகிறது.
RWKV-7 “Goose” அறிமுகம்: தொடர்ச்சியான கட்டமைப்பு செயல்திறனில் ஒரு புதிய அளவுகோல்
இந்த அடித்தளத்தின் மீது கட்டமைத்து, தொடர்ச்சியான கட்டமைப்புகளின் எல்லைகளைத் தள்ளி, RWKV Project, EleutherAI, Tsinghua University மற்றும் பிற நிறுவனங்களைச் சேர்ந்த ஆராய்ச்சியாளர்களின் கூட்டு முயற்சியானது RWKV-7, குறியீட்டுப் பெயர் “Goose” இன் வளர்ச்சியில் உச்சக்கட்டத்தை அடைந்துள்ளது. இந்த நாவல் வரிசை மாடலிங் கட்டமைப்பு ஒரு குறிப்பிடத்தக்க முன்னேற்றத்தைக் குறிக்கிறது, குறிப்பாக 3 பில்லியன் அளவுரு அளவில், பரந்த அளவிலான பன்மொழிப் பணிகளில் புதிய அதிநவீன (SoTA) செயல்திறன் அளவுகோல்களை நிறுவுகிறது.
RWKV-7 இன் சாதனையின் மிகவும் குறிப்பிடத்தக்க அம்சங்களில் ஒன்று அதன் குறிப்பிடத்தக்க செயல்திறன் ஆகும். பல முன்னணி சமகால மாதிரிகளுடன் ஒப்பிடும்போது கணிசமாக சிறிய டோக்கன்களின் தொகுப்பில் பயிற்சி பெற்றிருந்தாலும், RWKV-7 அதன் பெரிய, அதிக தரவு-பசியுள்ள சகாக்களுடன் மிகவும் போட்டித்தன்மை வாய்ந்த ஆங்கில மொழி செயலாக்க திறன்களை வழங்குகிறது. ஒருவேளை மிக முக்கியமாக, இது மேம்பட்ட RNNகளின் முக்கிய செயல்திறன் கொள்கைகளை உண்மையாகப் பின்பற்றும் போது இதை அடைகிறது: நிலையான நினைவக நுகர்வு மற்றும் ஒரு டோக்கனுக்கு நிலையான அனுமான நேரம், செயலாக்கப்படும் வரிசை நீளத்தைப் பொருட்படுத்தாமல். இது RWKV-7 ஐ நீண்ட சூழல்களைக் கையாளும் போது, உயர் செயல்திறன் மற்றும் வள சிக்கனம் ஆகிய இரண்டையும் கோரும் பயன்பாடுகளுக்கு விதிவிலக்காக கவர்ச்சிகரமான விருப்பமாக ஆக்குகிறது.
RWKV-7 இல் பொதிந்துள்ள முன்னேற்றங்கள் அதன் முன்னோடிகளின் கொள்கைகளை நீட்டித்து செம்மைப்படுத்தும் பல முக்கிய கட்டமைப்பு கண்டுபிடிப்புகளிலிருந்து உருவாகின்றன. இந்த மாதிரி ஒரு அதிநவீன திசையன்-மதிப்பு நிலை வாயில் பொறிமுறையை (vector-valued state gating mechanism) உள்ளடக்கியது, இது தொடர்ச்சியான நிலைக்குள் தகவல் ஓட்டத்தின் மீது மேலும் நுணுக்கமான கட்டுப்பாட்டை அனுமதிக்கிறது. மேலும், இது தகவமைப்பு சூழல் கற்றல் விகிதங்களை (adaptive in-context learning rates) அறிமுகப்படுத்துகிறது, இது உடனடி சூழலின் அடிப்படையில் அதன் கற்றல் செயல்முறையை மாறும் வகையில் சரிசெய்ய மாதிரியை செயல்படுத்துகிறது, இது சிக்கலான சார்புகளைப் பிடிக்கும் திறனை மேம்படுத்தும். அதன் முக்கிய தொடர்ச்சியான புதுப்பிப்பு விதிக்குள் ஒரு செம்மைப்படுத்தப்பட்ட மதிப்பு மாற்று பொறிமுறை (value replacement mechanism), டெல்டா விதி கருத்தை நீட்டித்து, மாதிரியின் வெளிப்பாட்டுத்திறன் மற்றும் சிக்கலான வடிவ அங்கீகாரத்திற்கான திறனை மேலும் அதிகரிக்கிறது.
இந்த மேம்பாடுகள் வெறும் அனுபவ மேம்பாடுகள் அல்ல; அவை RWKV-7 க்கு வழக்கமான சிக்கலான அனுமானங்களின் கீழ் நிலையான Transformers உடன் தொடர்புடையவற்றை விட தத்துவார்த்த திறன்களை வழங்குகின்றன. ஆராய்ச்சியாளர்கள் RWKV-7 சிக்கலான நிலைகளை திறமையாக கண்காணிக்க முடியும் என்பதற்கும், குறிப்பிடத்தக்க வகையில், வழக்கமான மொழிகளின் முழு வகுப்பையும் (entire class of regular languages) அங்கீகரிக்க முடியும் என்பதற்கும் சான்றுகளை வழங்குகிறார்கள், இது சிறப்பு மாற்றங்கள் அல்லது தடைசெய்யும் கணினி அளவீடு இல்லாமல் வெண்ணிலா Transformers-க்கு சவாலானதாகக் கருதப்படுகிறது.
திறந்த அறிவியல் மற்றும் கூட்டு முன்னேற்றத்திற்கான தங்கள் உறுதிப்பாட்டை அடிக்கோடிட்டுக் காட்டி, ஆராய்ச்சி குழு கட்டமைப்பு விவரங்களை மட்டுமல்லாமல், முன் பயிற்சி பெற்ற RWKV-7 மாதிரிகளின் (pre-trained RWKV-7 models) தொகுப்பையும் வெளியிட்டுள்ளது. இந்த மாதிரிகள், சுறுசுறுப்பான 0.19 பில்லியன் அளவுருக்களிலிருந்து சக்திவாய்ந்த 2.9 பில்லியன் அளவுரு மாறுபாடு வரை பல்வேறு அளவுகளில் பரவியுள்ளன, இது பல்வேறு கணினி வரவு செலவுத் திட்டங்கள் மற்றும் பயன்பாட்டுத் தேவைகளைப் பூர்த்தி செய்கிறது. இந்த மாதிரிகளுடன் ஒரு விரிவான 3.1 டிரில்லியன்-டோக்கன் பன்மொழித் தொகுப்பு (3.1 trillion-token multilingual corpus), RWKV World v3 என அழைக்கப்படுகிறது, இது மாதிரிகளைப் பயிற்றுவிப்பதில் கருவியாக இருந்தது மற்றும் சமூகத்திற்கு ஒரு மதிப்புமிக்க வளமாகும். மாதிரி எடைகள் மற்றும் அடிப்படை குறியீடு தளம் உட்பட இந்த பங்களிப்புகள் அனைத்தும், பரந்த தழுவல், ஆய்வு மற்றும் மேலும் வளர்ச்சியை வளர்க்கும் வகையில், அனுமதிக்கப்பட்ட Apache 2.0 திறந்த மூல உரிமத்தின் (Apache 2.0 open-source license) கீழ் கிடைக்கச் செய்யப்பட்டுள்ளன.
கட்டமைப்பு ஆழம்: RWKV-7 ஐ இயக்கும் இயந்திரம்
RWKV-7 இன் வடிவமைப்பு தத்துவம் RWKV-6 ஆல் அமைக்கப்பட்ட திடமான அடித்தளத்தின் மீது கட்டமைக்கப்பட்டுள்ளது, மேம்பட்ட தற்காலிக மாடலிங்கிற்கான token-shift, செம்மைப்படுத்தப்பட்ட attention-போன்ற நடத்தைக்கான போனஸ் வழிமுறைகள் மற்றும் திறமையான ReLU² feedforward நெட்வொர்க் கட்டமைப்பு போன்ற அம்சங்களைப் பெறுகிறது. இருப்பினும், “Goose” மறு செய்கை அதன் திறன்களை கூட்டாக உயர்த்தும் பல முக்கியமான மேம்பாடுகளை அறிமுகப்படுத்துகிறது.
- திசையன்-மதிப்பு நிலை வாயில் (Vector-Valued State Gating): எளிமையான ஸ்கேலார் வாயிலிலிருந்து விலகி, RWKV-7 திசையன் வாயில்களைப் பயன்படுத்துகிறது. இது தொடர்ச்சியான நிலைக்குள் வெவ்வேறு சேனல்கள் அல்லது பரிமாணங்களை சுயாதீனமாகப் புதுப்பிக்கவும் மாற்றியமைக்கவும் அனுமதிக்கிறது, தகவல் காலப்போக்கில் எவ்வாறு நிலைத்திருக்கிறது அல்லது சிதைகிறது என்பதில் மிகச் சிறந்த அளவிலான கட்டுப்பாட்டை வழங்குகிறது. இந்த அதிகரித்த நுணுக்கம் சிக்கலான, பன்முக சூழல் தகவலை நிர்வகிக்கும் மாதிரியின் திறனை மேம்படுத்துகிறது.
- தகவமைப்பு சூழல் கற்றல் விகிதங்கள் (Adaptive In-Context Learning Rates): ஒரு நாவல் பொறிமுறையானது, செயலாக்கப்படும் டோக்கன்களின் அடிப்படையில் சூழல் ஒருங்கிணைப்புக்கான மாதிரியின் உள் “கற்றல் விகிதத்தை” மாறும் வகையில் மாற்றியமைக்க அனுமதிக்கிறது. இது மாதிரி புதிய அல்லது ஆச்சரியமான தகவல்களில் அதன் கவனத்தை தீவிரப்படுத்த முடியும் என்பதையும், தேவையற்ற உள்ளீடுகளை எடை குறைப்பதன் மூலம், மேலும் திறமையான கற்றல் மற்றும் நிலை பிரதிநிதித்துவத்திற்கு வழிவகுக்கும் என்பதையும் இது அறிவுறுத்துகிறது.
- செம்மைப்படுத்தப்பட்ட டெல்டா விதி சூத்திரம் (Refined Delta Rule Formulation): கடந்த கால தகவல்களை ஒருங்கிணைப்பதற்குப் பொறுப்பான முக்கிய நேர-கலவை தொகுதி (time-mixing block), டெல்டா விதியின் குறிப்பிடத்தக்க செம்மைப்படுத்தலைக் காண்கிறது. இது உள்வரும் டோக்கன்களுக்கும் தொடர்ச்சியான நிலைக்கும் இடையிலான சிக்கலான தொடர்புகளை உள்ளடக்கியது, அதிநவீன மாற்றங்களுக்கு பயிற்சி அளிக்கக்கூடிய மெட்ரிக்குகளை (மாதிரி பரிமாணம் D உடன் குறிக்கப்படுகிறது) பயன்படுத்துகிறது. செயல்திறனுக்காக குறைந்த-தரவரிசை Multi-Layer Perceptrons (MLPs) ஐப் பயன்படுத்தி எடை தயாரித்தல் செயல்முறை அடங்கும். நிலை பரிணாமத்தை நிர்வகிக்கும் முக்கிய கூறுகள் பின்வருமாறு:
- மாற்று விசைகள் (Replacement Keys): புதுப்பிக்கப்பட வேண்டிய நிலையின் பகுதிகளை தீர்மானித்தல்.
- சிதைவு காரணிகள் (Decay Factors): கடந்த கால தகவல்கள் எவ்வளவு விரைவாக மங்குகின்றன என்பதைக் கட்டுப்படுத்துதல்.
- கற்றல் விகிதங்கள் (Learning Rates): தற்போதைய உள்ளீட்டின் அடிப்படையில் புதுப்பிப்புகளின் தீவிரத்தை மாற்றுதல்.
- எடையிடப்பட்ட விசை-மதிப்பு (WKV) பொறிமுறை (Weighted Key-Value (WKV) Mechanism): இந்த பொறிமுறை RWKV கட்டமைப்பின் நேரியல் attention தோராயத்திற்கு மையமானது. இது உள்ளீட்டு வரிசையிலிருந்து பெறப்பட்ட விசைகள் மற்றும் மதிப்புகளுக்கு இடையிலான எடையிடப்பட்ட தொடர்புகளின் அடிப்படையில் மாறும் நிலை மாற்றங்களை எளிதாக்குகிறது, இது ஒரு அதிநவீன மறதி வாயில் போல செயல்படுகிறது, இது மாதிரி பொருத்தத்தின் அடிப்படையில் கடந்த கால தகவல்களைத் தேர்ந்தெடுத்து வைத்திருக்க அல்லது நிராகரிக்க அனுமதிக்கிறது.
- வெளிப்பாட்டுத்திறன் மேம்பாடுகள் (Expressivity Enhancements): RWKV-7 ஒரு சேனலுக்கான மாற்றங்களை உள்ளடக்கியது மற்றும் சில கூறுகளில் இரண்டு-அடுக்கு MLP கட்டமைப்பைப் பயன்படுத்துகிறது. இந்த மாற்றங்கள் மாதிரியின் பிரதிநிதித்துவ சக்தியை அதிகரிப்பதற்காக மட்டுமல்லாமல், பயிற்சி மற்றும் அனுமானத்தின் போது கணினி நிலைத்தன்மை மற்றும் எண் துல்லியத்தை மேம்படுத்துவதற்காகவும் வடிவமைக்கப்பட்டுள்ளன, அதே நேரத்தில் RNN வடிவமைப்பில் உள்ளார்ந்த முக்கியமான நிலை-கண்காணிப்பு திறன்களை கவனமாகப் பாதுகாக்கின்றன.
RWKV-7 க்கான பயிற்சி முறை புதிதாக தொகுக்கப்பட்ட RWKV World v3 corpus ஐப் பயன்படுத்தியது. 3 டிரில்லியன் டோக்கன்களுக்கு மேல் உள்ள இந்த பாரிய தரவுத்தொகுப்பு, மாதிரியின் திறமையை ஆங்கிலத்தில் மட்டுமல்லாமல், பல்வேறு பிற மொழிகளிலும் நிரலாக்கக் குறியீட்டிலும் கணிசமாக வலுப்படுத்த வேண்டுமென்றே தொகுக்கப்பட்டது, இது உண்மையான பன்மொழி மற்றும் குறியீடு-விழிப்புணர்வு அடித்தள மாதிரிகளுக்கான வளர்ந்து வரும் தேவையை பிரதிபலிக்கிறது.
மேலும், ஆராய்ச்சி RWKV-7 இன் சக்திக்கு தத்துவார்த்த அடிப்படையை வழங்குகிறது. சிக்கலான வகுப்பு TC₀ இன் வரம்பிற்கு அப்பாற்பட்டதாகக் கருதப்படும் சிக்கல்களைத் தீர்க்கும் அதன் திறனை நிரூபிக்கும் சான்றுகள் வழங்கப்படுகின்றன, இதில் S₅ நிலை கண்காணிப்பு (S₅ state tracking) (5 கூறுகளின் வரிசைமாற்றங்களை நிர்வகித்தல்) மற்றும் மேற்கூறிய அனைத்து வழக்கமான மொழிகளையும் அங்கீகரித்தல் (recognition of all regular languages) போன்ற பணிகள் அடங்கும். இந்த தத்துவார்த்த விளிம்பு RWKV-7 சில வகையான கட்டமைக்கப்பட்ட அல்லது வழிமுறைப் பணிகளை வழக்கமான Transformer கட்டமைப்புகளை விட இயற்கையாகவும் திறமையாகவும் கையாளக்கூடும் என்று அறிவுறுத்துகிறது. கட்டமைப்பு வடிவமைப்பின் ஒரு சுவாரஸ்யமான நடைமுறை விளைவு செலவு குறைந்த மேம்படுத்தல் பாதை (cost-effective upgrade path) முன்மொழிவு ஆகும். இந்த முறை ஏற்கனவே உள்ள RWKV மாதிரிகளை மேம்படுத்தி புதிய கட்டமைப்பு மேம்பாடுகளை இணைக்க அனுமதிக்கிறது, இது ஒரு முழுமையான, விலையுயர்ந்த மறுபயிற்சி சுழற்சியை புதிதாகத் தேவையில்லாமல், மேலும் சுறுசுறுப்பான மற்றும் அதிகரிக்கும் மாதிரி வளர்ச்சிக்கு உதவுகிறது.
Goose ஐ அளவிடுதல்: பல்வேறு அளவுகோல்களில் செயல்திறன்
RWKV-7 இன் திறன்களை கடுமையாக மதிப்பிடுவதற்கு, மாதிரிகள் பரவலாக ஏற்றுக்கொள்ளப்பட்ட LM Evaluation Harness ஐப் பயன்படுத்தி விரிவான மதிப்பீட்டிற்கு உட்படுத்தப்பட்டன. இந்த கட்டமைப்பு மொழி புரிதல் மற்றும் உருவாக்கும் பணிகளின் பரந்த ஸ்பெக்ட்ரத்தை உள்ளடக்கிய தரப்படுத்தப்பட்ட அளவுகோல்களின் தொகுப்பை வழங்குகிறது. மதிப்பீடுகள் ஆங்கிலம் சார்ந்த அளவுகோல்கள் மற்றும் பல்வேறு பன்மொழி சவால்கள் இரண்டையும் பரப்பின.
முடிவுகள் RWKV-7 இன் திறமையின் கட்டாயமான படத்தை வரைகின்றன. பல அளவுகோல்களில், RWKV-7 மாதிரிகள், முக்கிய Transformer-அடிப்படையிலான கட்டமைப்புகள் உட்பட, நிறுவப்பட்ட அதிநவீன மாதிரிகளுடன் மிகவும் போட்டித்தன்மை வாய்ந்த (competitive) செயல்திறன் நிலைகளை வெளிப்படுத்தின. இது அதன் பல போட்டியாளர்களுடன் ஒப்பிடும்போது RWKV-7 க்கு பயன்படுத்தப்படும் பயிற்சி டோக்கன்களின் கணிசமாக குறைந்த அளவைக் கருத்தில் கொள்ளும்போது குறிப்பாக குறிப்பிடத்தக்கது. உதாரணமாக, சவாலான MMLU (Massive Multitask Language Understanding) அளவுகோலில், RWKV-7 அதன் முன்னோடியான RWKV-6 ஐ விட குறிப்பிடத்தக்க மேம்பாடுகளைக் காட்டியது. அதன் ஆதாயங்கள் பன்மொழிப் பணிகளில் இன்னும் அதிகமாக உச்சரிக்கப்பட்டன, இது விரிவான மற்றும் மாறுபட்ட RWKV World v3 பயிற்சித் தொகுப்பிலிருந்து பெறப்பட்ட நன்மைகளை நேரடியாகப் பிரதிபலிக்கிறது.
தரப்படுத்தப்பட்ட கல்வி அளவுகோல்களுக்கு அப்பால், மதிப்பீடு சமீபத்திய இணையத் தரவைப் பயன்படுத்தி மதிப்பீடுகளையும் உள்ளடக்கியது. இந்த சோதனைகள் புதுப்பித்த தகவல்களைச் செயலாக்குவதற்கும் பகுத்தறிவு செய்வதற்கும் மாதிரியின் திறனை அளவிடுவதை நோக்கமாகக் கொண்டிருந்தன, சமகால அறிவு மற்றும் மொழிப் பயன்பாட்டைக் கையாள்வதில் அதன் செயல்திறனை உறுதிப்படுத்தின.
மதிப்பீட்டின் போது சிறப்பிக்கப்பட்ட குறிப்பிட்ட பலங்கள் பின்வருமாறு:
- தொடர்புடைய நினைவுபடுத்தல் (Associative Recall): தொடர்புடைய குறிப்புகளின் அடிப்படையில் தகவலை நினைவுபடுத்தும் வலுவான திறனை மாதிரி வெளிப்படுத்தியது, இது அறிவு மீட்டெடுப்பு மற்றும் பகுத்தறிவு சம்பந்தப்பட்ட பணிகளுக்கு ஒரு முக்கியமான திறனாகும்.
- இயந்திரத்தனமான கட்டமைப்பு வடிவமைப்பு (Mechanistic Architecture Design): மதிப்பீடுகள் RWKV-7 இல் செய்யப்பட்ட குறிப்பிட்ட கட்டமைப்புத் தேர்வுகளின் செயல்திறனை மறைமுகமாக சரிபார்க்கின்றன, ஒட்டுமொத்த செயல்திறனுக்கான அவற்றின் பங்களிப்பைக் காட்டுகின்றன.
- நீண்ட-சூழல் தக்கவைப்பு (Long-Context Retention): நிலையான நினைவகப் பயன்பாட்டிலிருந்து பயனடையும் போது, மாதிரி நீட்டிக்கப்பட்ட வரிசை நீளங்களில் தகவலைத் தக்கவைத்துக்கொள்வதிலும் பயன்படுத்துவதிலும் நடைமுறைத் திறனைக் காட்டியது, இது நீண்ட தூர சார்பு மாடலிங் தேவைப்படும் பணிகளுக்கு முக்கியமானது.
முக்கியமாக, செயல்திறன் சாதனைகள் குறிப்பிடத்தக்க கணினி செயல்திறனுடன் (computational efficiency) உணரப்பட்டன. சில தொழில் ஜாம்பவான்களுக்குக் கிடைக்கும் பயிற்சி வளங்களில் உள்ள கட்டுப்பாடுகளின் கீழ் செயல்பட்ட போதிலும், RWKV-7 அதன் வலுவான அளவுகோல் மதிப்பெண்களை அடைந்தது, அதே நேரத்தில் ஒப்பிடக்கூடிய அளவிலான பல முன்னணி Transformer மாதிரிகளை விட பயிற்சியின் போது குறைவான மிதக்கும் புள்ளி செயல்பாடுகளை (Floating Point Operations - FLOPs) கோரியது. இது அளவுரு செயல்திறன் மற்றும் அதன் நேரியல் அளவீட்டு தொடர்ச்சியான வடிவமைப்பின் உள்ளார்ந்த நன்மைகளை அடிக்கோடிட்டுக் காட்டுகிறது. SoTA-நிலை செயல்திறன் (குறிப்பாக பன்மொழியில்) மற்றும் உயர்ந்த கணினி சிக்கனம் ஆகியவற்றின் கலவையானது RWKV-7 ஐ வரிசை மாடலிங் நிலப்பரப்பில் ஒரு சக்திவாய்ந்த மற்றும் நடைமுறை மாற்றாக நிலைநிறுத்துகிறது.
தற்போதைய தடைகளை வழிநடத்துதல் மற்றும் எதிர்கால எல்லைகளை கற்பனை செய்தல்
அதன் ஈர்க்கக்கூடிய சாதனைகள் மற்றும் உள்ளார்ந்த நன்மைகள் இருந்தபோதிலும், RWKV-7 கட்டமைப்பு, எந்தவொரு சிக்கலான தொழில்நுட்பத்தையும் போலவே, அதன் வரம்புகள் மற்றும் எதிர்கால செம்மைப்படுத்தலுக்கான பகுதிகள் இல்லாமல் இல்லை. ஆராய்ச்சியாளர்கள் பல சவால்களை வெளிப்படையாக ஒப்புக்கொள்கிறார்கள்:
- எண் துல்லியம் உணர்திறன் (Numerical Precision Sensitivity): மாதிரியின் கணக்கீடுகளின் சில அம்சங்கள் எண் துல்லியத்திற்கு உணர்திறன் கொண்டதாக இருக்கலாம், இது நிலைத்தன்மை மற்றும் செயல்திறனைப் பராமரிக்க, குறிப்பாக குறைந்த துல்லிய வடிவங்களில் (bfloat16 போன்றவை) பயிற்சியின் போது கவனமாக செயல்படுத்தல் மற்றும் கையாளுதல் தேவைப்படலாம்.
- வழிமுறை சரிசெய்தல் இல்லாமை (Lack of Instruction Tuning): வெளியிடப்பட்ட RWKV-7 மாதிரிகள், அவற்றின் அறிமுகத்தின் போது, பெரிய அளவிலான வழிமுறை சரிசெய்தல் (instruction tuning) அல்லது மனித பின்னூட்டத்திலிருந்து வலுவூட்டல் கற்றல் (Reinforcement Learning from Human Feedback - RLHF) க்கு உட்படுத்தப்படவில்லை. இதன் பொருள், சிக்கலான வழிமுறைகளைப் பின்பற்றுவதில் அல்லது பூஜ்ஜிய-ஷாட் முறையில் நுணுக்கமான உரையாடலில் ஈடுபடுவதில் அவை நன்றாகச் சரிசெய்யப்பட்ட சகாக்களை விட குறைவாகத் திறமையானவையாக இருக்கலாம்.
- உடனடி உணர்திறன் (Prompt Sensitivity): பல பெரிய மொழி மாதிரிகளைப் போலவே, RWKV-7 இன் வெளியீட்டுத் தரம் சில நேரங்களில் உள்ளீட்டுத் தூண்டுதலின் குறிப்பிட்ட சொற்றொடர் மற்றும் அமைப்புக்கு உணர்திறன் கொண்டதாக இருக்கலாம். உகந்த முடிவுகளை அடைய சில அளவு உடனடி பொறியியல் (prompt engineering) தேவைப்படலாம்.
- கட்டுப்படுத்தப்பட்ட கணினி வளங்கள் (Restricted Computational Resources): அதன் செயல்திறனுடன் ஒப்பிடும்போது திறமையானதாக இருந்தாலும், சில முக்கிய AI ஆய்வகங்களுக்குக் கிடைக்கும் பரந்த கணினி சக்தியுடன் ஒப்பிடும்போது வளர்ச்சி மற்றும் பயிற்சி இன்னும் வளக் கட்டுப்பாடுகளின் கீழ் நடத்தப்பட்டது. அளவீட்டு முயற்சிகள் புதிய சவால்கள் அல்லது வாய்ப்புகளை வெளிப்படுத்தக்கூடும்.
முன்னோக்கிப் பார்க்கும்போது, RWKV க்கான வளர்ச்சி வரைபடம் இந்த வரம்புகளை நிவர்த்தி செய்வதையும் கட்டமைப்பின் திறன்களை மேலும் மேம்படுத்துவதையும் நோக்கமாகக் கொண்ட பல நம்பிக்கைக்குரிய திசைகளை உள்ளடக்கியது. கவனத்தின் முக்கிய பகுதிகள் பின்வருமாறு:
- அனுமான வேகத்தை மேம்படுத்துதல் (Optimizing Inference Speed): குறியீடு தளத்தை மேம்படுத்துவதற்கும் வன்பொருள்-குறிப்பிட்ட செயலாக்கங்களை ஆராய்வதற்கும் தொடர்ச்சியான முயற்சிகள் ஏற்கனவே சாதகமான அனுமான வேகத்தை மேலும் மேம்படுத்தலாம், இது வரிசைப்படுத்தலை இன்னும் நடைமுறைக்குரியதாக மாற்றும்.
- சிந்தனைச் சங்கிலி பகுத்தறிவை இணைத்தல் (Incorporating Chain-of-Thought Reasoning): RWKV கட்டமைப்பிற்குள் சிந்தனைச் சங்கிலி (Chain-of-Thought - CoT) பகுத்தறிவு திறன்களை வெளிக்கொணர அல்லது பயிற்றுவிப்பதற்கான முறைகளை ஆராய்வது, பல-படி தர்க்கரீதியான கழித்தல் தேவைப்படும் சிக்கலான சிக்கல்-தீர்க்கும் பணிகளில் அதன் செயல்திறனை கணிசமாக அதிகரிக்கும்.
- பெரிய தரவுத்தொகுப்புகள் மற்றும் மாதிரி அளவுகளுடன் அளவிடுதல் (Scaling with Larger Datasets and Model Sizes): பன்மொழித் தரவுத்தொகுப்பின் விரிவாக்கப்பட்ட பதிப்புகளில் இன்னும் பெரிய மாதிரிகளைப் பயிற்றுவிக்க திறமையான கட்டமைப்பைப் பயன்படுத்துவது செயல்திறன் எல்லைகளை மேலும் தள்ளும் வாக்குறுதியைக் கொண்டுள்ளது.
- வழிமுறை சரிசெய்தல் மற்றும் சீரமைப்பு (Instruction Tuning and Alignment): வழிமுறை பின்பற்றுதல் மற்றும் மனித விருப்பங்களுடன் சீரமைப்பதற்கான நிறுவப்பட்ட நுட்பங்களைப் பயன்படுத்துவது, கீழ்நிலை பயன்பாடுகளுக்கு RWKV மாதிரிகளை மேலும் பயனர் நட்பு மற்றும் கட்டுப்படுத்தக்கூடியதாக மாற்றுவதற்கு முக்கியமானதாக இருக்கும்.
RWKV-7 மாதிரிகள், விரிவான பயிற்சித் தரவுத்தொகுப்பு மற்றும் அதனுடன் தொடர்புடைய குறியீடு ஆகியவை Apache 2.0 உரிமத்தின் கீழ் திறந்த நிலையில் கிடைப்பது சமூக ஈடுபாட்டிற்கு ஒரு சக்திவாய்ந்த ஊக்கியாக செயல்படுகிறது. இது திறமையான வரிசை மாடலிங்கில் பரந்த ஆராய்ச்சியை ஊக்குவிக்கிறது, முடிவுகளை சுயாதீனமாக சரிபார்க்க அனுமதிக்கிறது, மேலும் இந்த புதுமையான தொடர்ச்சியான கட்டமைப்பின் மீது உருவாக்க டெவலப்பர்களுக்கு அதிகாரம் அளிக்கிறது, இது மேலும் திறமையான, அணுகக்கூடிய மற்றும் கணினி ரீதியாக நிலையான AI அமைப்புகளை நோக்கிய முன்னேற்றத்தை துரிதப்படுத்தக்கூடும்.