RWKV-X: कार्यक्षम लांब-संदर्भासाठी नवीन आर्किटेक्चर | mr

लांब आणि अधिक जटिल क्रमवारी प्रक्रिया करण्याच्या वाढत्या मागणीमुळे लार्ज लैंग्वेज मॉडेल (LLMs) च्या सीमा वाढल्या आहेत. पारंपरिक Transformer-आधारित आर्किटेक्चर, शक्तिशाली असले तरी, सिक्वेन्स लांबीच्या संदर्भात त्यांच्या quadratic complexity मुळे महत्त्वपूर्ण स्केलिंग समस्यांशी झुंजतात. ही मर्यादा विशेषतः विस्तारित संदर्भ इनपुटशी व्यवहार करताना स्पष्ट होते, ज्यामुळे सिक्वेन्सच्या दूरच्या भागांतील माहिती प्रभावीपणे कॅप्चर करण्याची आणि वापरण्याची त्यांची क्षमता बाधित होते. या आव्हानाला प्रतिसाद म्हणून, लांब सिक्वेन्सच्या प्रक्रियेत रेषीय जटिलता (linear complexity) प्राप्त करण्याच्या उद्देशाने अनेक नवीन दृष्टिकोन उदयास आले आहेत.

या पद्धतींमध्ये लीनियर अटेंशन मॉडेल (Linear Attention models), स्टेट स्पेस मॉडेल (State Space Models) (जसे की Mamba), लीनियर RNN (Linear RNNs) (DeltaNet सारखे) आणि RWKV यांचा समावेश आहे. यापैकी प्रत्येक आर्किटेक्चर quadratic complexity समस्येचे एक अद्वितीय समाधान देतात, ज्यामुळे लांब सिक्वेन्सची अधिक कार्यक्षम प्रक्रिया शक्य होते. तथापि, या रेषीय आर्किटेक्चरना लांब-संदर्भातील माहिती पूर्णपणे समजून घेण्यात आणि त्याचा फायदा घेण्यात अनेकदा अडचणी येतात.

उदाहरणार्थ, RWKV-7 (एक 2.9B पॅरामीटर मॉडेल) 28K पर्यंतच्या टोकनमध्ये पासकी पुनर्प्राप्ती कार्यात उच्च अचूकता दर्शवते. तथापि, या थ्रेशोल्डच्या पलीकडे त्याची कार्यक्षमता झपाट्याने कमी होते. 128K-लांबीच्या डेटाचा वापर करून सातत्यपूर्ण प्रीट्रेनिंग (continual pretraining) करूनही, लांब-संदर्भातील मर्यादा कायम राहतात. ही समस्या केवळ RWKV साठीच नाही; तर ती Mamba सारख्या इतर आर्किटेक्चरपर्यंत विस्तारित आहे, जी या मॉडेलच्या वर्गासाठी एक मूलभूत आव्हान आहे. विस्तारित संदर्भांमध्ये कार्यक्षमतेत सातत्य राखण्यासाठी संघर्ष करणे हे रेषीय जटिलता असलेल्या भाषा मॉडेलमध्ये सुधारणा करण्यासाठी एक महत्त्वपूर्ण क्षेत्र आहे.

लीनियर कॉम्प्लेक्सिटी लैंग्वेज मॉडेलचे स्वरूप

लांब सिक्वेन्सच्या प्रक्रियेत अंतर्भूत असलेल्या quadratic computational burdens टाळून, लीनियर कॉम्प्लेक्सिटी लैंग्वेज मॉडेल transformer-आधारित आर्किटेक्चरना आकर्षक पर्याय म्हणून उदयास आले आहेत. या क्षेत्रात RWKV मॉडेल कुटुंबाने उत्कृष्ट कामगिरी केली आहे. हे प्रशिक्षण दरम्यान transformers च्या समांतर क्षमतेचे RNN-सारखे आवर्ती स्टेट रिप्रेजेंटेशनशी (recurrent state representation) प्रभावीपणे एकत्रीकरण करते.

RWKV चा विकास अनेक टप्प्यात झाला आहे, जो मूलभूत RWKV-4 पासून सुरू होऊन RWKV-5, RWKV-6 आणि RWKV-7 मध्ये पूर्ण झाला. प्रत्येक पुनरावृत्तीने मॉडेलच्या क्षमता वाढवून आणि मर्यादांवर मात करून सुधारणा घडवून आणल्या आहेत. याव्यतिरिक्त, जंबा (Jamba), जांबा (Zamba) आणि मिनीमॅक्स (MiniMax) यांसारख्या संकरित भाषा मॉडेलने (hybrid language models) अद्वितीय संकरित डिझाइन सादर करून आपली छाप पाडली आहे, ज्यामुळे लीनियर कॉम्प्लेक्सिटी मॉडेलचे स्वरूप अधिक समृद्ध झाले आहे.

कार्यक्षम लांब-संदर्भ प्रक्रियेच्या प्रयत्नांमुळे नवीन लक्ष यंत्रणांचा (attention mechanisms) विकास झाला आहे. उदाहरणार्थ, नेटिव्ह स्पार्स अटेंशन (Native Sparse Attention) टोकनला तात्पुरत्या ब्लॉकमध्ये आयोजित करते आणि तीन विशिष्ट लक्ष मार्गांचा वापर करते: जागतिक संदर्भासाठी (global context) संकुचित केलेले coarse-grained टोकन, स्थानिक तपशीलांसाठी (local details) निवडकपणे जपलेले fine-grained टोकन आणि स्थानिक प्रासंगिक माहिती कॅप्चर करण्यासाठी स्लाइडिंग विंडोज (sliding windows). इतर उल्लेखनीय लक्ष यंत्रणांमध्ये सीअरअटेंशन (SeerAttention) आणि ब्लॉक अटेंशन (MoBA) यांचा समावेश आहे, जे लांब सिक्वेन्समध्ये संबंधित माहितीकडे लक्ष देण्यासाठी अद्वितीय धोरणे देतात.

RWKV-X: वर्धित लांब-श्रेणी संदर्भ मॉडेलिंगसाठी हायब्रिड आर्किटेक्चर

ग्वांगडोंग प्रयोगशाळा ऑफ आर्टिफिशियल इंटेलिजन्स अँड डिजिटल इकॉनॉमी (SZ), शेन्झेन, होहाई युनिव्हर्सिटी, नानजिंग, शेन्झेन युनिव्हर्सिटी आणि किंगघाई युनिव्हर्सिटी, झिनिंग येथील संशोधकांनी RWKV-X नावाचे एक नवीन हायब्रिड आर्किटेक्चर सादर केले आहे. हे आर्किटेक्चर लहान-श्रेणीतील अवलंबित्व मॉडेलिंगमध्ये RWKV च्या कार्यक्षमतेचे विरल लक्ष यंत्रणेशी (sparse attention mechanism) चातुर्याने संयोजन करते, जे विशेषतः लांब-श्रेणीतील संदर्भ कॅप्चर करण्यासाठी डिझाइन केलेले आहे.

मागील हायब्रिड दृष्टिकोनांच्या विपरीत, RWKV-X प्रशिक्षणादरम्यान linear-time complexity आणि अनुमान डीकोडिंगदरम्यान (inference decoding) constant-time complexity प्राप्त करते. यामुळे लांब सिक्वेन्सवर प्रक्रिया करणे अधिक सोपे होते. 64K-टोकन सिक्वेन्सवर सतत प्रीट्रेनिंग केल्यावर मॉडेल 64K पासकी पुनर्प्राप्ती बेंचमार्कवर जवळजवळ परिपूर्ण अचूकता दर्शवते. हे लांब-संदर्भ बेंचमार्कवर मागील RWKV-7 मॉडेलपेक्षा सातत्याने चांगली कामगिरी करते, तर लहान-संदर्भ कार्यांवर मजबूत कार्यप्रदर्शन राखते.

RWKV-X मधील नवकल्पना लांब-संदर्भ भाषेचे मॉडेलिंगच्या आव्हानांना सामोरे जाण्यासाठी एक महत्त्वपूर्ण पाऊल आहे. आवर्ती मॉडेल (recurrent models) आणि विरल लक्ष यंत्रणा (sparse attention mechanisms) यांच्यातील सामर्थ्यांचे संयोजन करून, RWKV-X कार्यक्षमता आणि अचूकता यांच्यात संतुलन साधते, ज्यामुळे विस्तारित सिक्वेन्सच्या अधिक प्रभावी प्रक्रियेचा मार्ग मोकळा होतो.

RWKV-X: आर्किटेक्चर आणि प्रशिक्षण

RWKV-X मध्ये RWKV-7 ब्लॉक्स आणि विरल लक्ष ब्लॉक्स (sparse attention blocks) एकत्रित करून हायब्रिड आर्किटेक्चर तयार केले आहे, जे दोन्ही दृष्टिकोनांचा फायदा घेते. सुरवातीपासून प्रशिक्षण देण्याऐवजी, RWKV-X LLaMA Pro पासून प्रेरित इंटरलीव्हड ब्लॉक विस्तार दृष्टिकोन (interleaved block expansion approach) आणि शून्य-इनिशियलायझेशन यंत्रणा (zero-initialization mechanism) वापरून विद्यमान मॉडेलवर आधारित आहे.

प्रशिक्षण प्रक्रियेत दोन टप्पे असतात, जे लहान आणि लांब दोन्ही संदर्भांवर मॉडेलची कार्यक्षमता अनुकूल करण्यासाठी काळजीपूर्वक डिझाइन केलेले आहेत:

लहान-संदर्भ प्रीट्रेनिंग: सुरुवातीला, मॉडेलला MiniPile डेटासेटमधून काढलेल्या 1024-टोकनच्या लहान संदर्भांवर प्रशिक्षित केले जाते. या टप्प्यात, नव्याने जोडलेल्या ब्लॉक्समधील पॅरामीटर्स वगळता इतर सर्व पॅरामीटर्स गोठवले जातात, हे सुनिश्चित केले जाते की बेस RWKV-7 मॉडेलमधील प्री-ट्रेन केलेले ज्ञान जतन केले जाईल. हे नव्याने जोडलेल्या ब्लॉक्सना विद्यमान आर्किटेक्चरमध्ये व्यत्यय न आणता जुळवून घेण्यास अनुमती देते.
लांब-संदर्भ सातत्यपूर्ण प्रीट्रेनिंग: दुसर्‍या टप्प्यात ProLong-64K डेटासेट आणि 64K टोकनची संदर्भ लांबी वापरून लांब-संदर्भ सातत्यपूर्ण प्रीट्रेनिंग समाविष्ट आहे, ज्यामध्ये एकूण 1 अब्ज टोकनवर प्रक्रिया केली जाते. या टप्प्यात, सर्व पॅरामीटर्स अनफ्रोजन (unfrozen) केले जातात आणि संयुक्तपणे ऑप्टिमाइझ (optimized) केले जातात, ज्यामुळे मॉडेलला त्याचे रिप्रेजेंटेशन फाइन-ट्यून (fine-tune) करण्याची आणि लांब-श्रेणीतील अवलंबित्व शिकण्याची अनुमती मिळते. प्रशिक्षणात लांब-संदर्भ क्रॉस-एंट्रॉपी (Long-context Cross-Entropy) (LongCE) लॉस वापरला जातो, जो त्यांच्या महत्त्वावर आधारित टोकनला गतिशीलपणे भार देतो. हे लॉस फंक्शन मॉडेलला सिक्वेन्सच्या सर्वात संबंधित भागांवर लक्ष केंद्रित करण्यास मदत करते, ज्यामुळे लांब-श्रेणीतील संबंध कॅप्चर करण्याची क्षमता सुधारते.

दोन-टप्प्यांची प्रशिक्षण प्रक्रिया RWKV-X ला लहान-श्रेणीतील मॉडेलिंगसाठी RWKV-7 ची कार्यक्षमता आणि विरल लक्ष यंत्रणेच्या (sparse attention mechanism) लांब-श्रेणीतील संदर्भ जागरूकतेचे प्रभावीपणे संयोजन करण्यास अनुमती देते. प्रथम लहान संदर्भांवर प्रीट्रेनिंग (pretraining) करून आणि नंतर लांब संदर्भांवर फाइन-ट्यूनिंग (fine-tuning) करून, मॉडेल सिक्वेन्सच्या वेगवेगळ्या भागांतील माहिती प्रभावीपणे एकत्रित करण्यास शिकते.

RWKV-X: मूल्यांकन आणि कार्यप्रदर्शन

लहान-संदर्भ मूल्यांकनात (Short-context evaluation) असे दिसून आले आहे की RWKV-X मानक बेंचमार्कवर स्पर्धात्मक कार्यप्रदर्शन राखते, जे लहान सिक्वेन्स प्रभावीपणे हाताळण्याची क्षमता दर्शवते. लहान RWKV-X (0.22B) सरासरी 51.0 गुण मिळवते, जे RWKV-7 च्या 51.8 च्या तुलनेत आहे. मोठ्या स्केलवर, RWKV-X (3.6B) 71.9 पर्यंत पोहोचते, जे RWKV-7 (2.9B, 72.8) आणि Qwen2.5-3B (71.4) यांच्याशी जुळते, तर LLaMA3.2-3B (69.7) पेक्षा जास्त आहे. हे परिणाम लहान संदर्भांवर कार्यप्रदर्शन न सोडता RWKV-X ची एक सामान्य-उद्देशीय LLM बॅकबोन (LLM backbone) म्हणून प्रभावीता दर्शवतात.

शिवाय, कार्यक्षमता विश्लेषण लांब सिक्वेन्ससाठी RWKV-X ची उत्कृष्ट स्केलिंग वैशिष्ट्ये दर्शवते. 128K टोकनवर, RWKV-X फ्लॅश-अटेंशन v3 (Flash-Attention v3) पेक्षा 1.37 पट वेगवान आहे आणि संदर्भ लांबी वाढल्याने हा फायदा वाढतो. हे सूचित करते की सिक्वेन्स लांबी वाढल्याने RWKV-X इतर लक्ष यंत्रणांच्या (attention mechanisms) तुलनेत अधिक कार्यक्षम होते.

लहान आणि लांब दोन्ही संदर्भांवर RWKV-X चे मजबूत कार्यप्रदर्शन भाषेचे मॉडेल म्हणून त्याची अष्टपैलुत्व आणि कार्यक्षमता दर्शवते. लहान सिक्वेन्सवर स्पर्धात्मक कार्यप्रदर्शन राखण्याची आणि लांब सिक्वेन्सवर लक्षणीय वेग वाढवण्याची क्षमता यामुळे ते विस्तृत ऍप्लिकेशन्ससाठी एक आशादायक आर्किटेक्चर ठरते.

RWKV-X: मर्यादा आणि भविष्यातील दिशा

RWKV-X एक हायब्रिड भाषा मॉडेल (hybrid language model) म्हणून उदयास आले आहे, जे लहान-श्रेणीतील अवलंबित्व मॉडेलिंगसाठी RWKV च्या कार्यक्षमतेचे लांब-श्रेणीतील संदर्भ मॉडेलिंगसाठी डिझाइन केलेल्या नवीन विरल लक्ष यंत्रणेशी (sparse attention mechanism) यशस्वीरित्या संयोजन करते. RWKV-X लांब-संदर्भ भाषेच्या मॉडेलिंगमध्ये मजबूत कार्यप्रदर्शन आणि कार्यक्षमता दर्शवत असले तरी, अनेक मर्यादा अजूनही आहेत.

प्रथम, त्याची विरल लक्ष यंत्रणा (sparse attention mechanism), जी टॉप-के चंक सिलेक्शनवर (top-k chunk selection) अवलंबून असते, एक अनुमानित दृष्टिकोन वापरते ज्यामुळे सिमेंटिकदृष्ट्या (semantically) संबंधित अवलंबित्व दुर्लक्षित होऊ शकते. टॉप-के निवड धोरण सिक्वेन्समधील सर्वात महत्त्वाची माहिती नेहमी कॅप्चर करू शकत नाही, ज्यामुळे संभाव्यतः suboptimal कार्यक्षमता येऊ शकते.

दुसरे म्हणजे, सध्याच्या अंमलबजावणीमध्ये (implementation) विरल लक्ष डीकोडिंग (sparse attention decoding) साध्या RWKV पेक्षा हळू चालते, हे दर्शवते की कार्यप्रदर्शन ऑप्टिमाइझ करण्यासाठी आणखी अभियांत्रिकी प्रयत्नांची आवश्यकता आहे. RWKV-X लांब सिक्वेन्सवर इतर लक्ष यंत्रणांच्या (attention mechanisms) तुलनेत लक्षणीय वेग वाढवते, तरीही त्याचे विरल लक्ष डीकोडिंग (sparse attention decoding) साध्या RWKV पेक्षा हळू आहे, हे सूचित करते की त्याच्या अंमलबजावणीमध्ये सुधारणा करण्याची संधी आहे.

भविष्यातील संशोधन अधिक अत्याधुनिक विरल लक्ष यंत्रणा (sparse attention mechanisms) शोधण्यावर, विरल लक्ष डीकोडिंगच्या (sparse attention decoding) अंमलबजावणीचे ऑप्टिमायझेशन (optimization) करण्यावर आणि पर्यायी प्रशिक्षण धोरणांचा तपास करण्यावर लक्ष केंद्रित करू शकते. या आव्हानांवर मात करून, RWKV-X मध्ये लांब-संदर्भ ऍप्लिकेशन्ससाठी एक अधिक शक्तिशाली आणि कार्यक्षम भाषा मॉडेल बनण्याची क्षमता आहे.

रोजी अद्यतनित २०२५-०५-०६

# AGI # Llama # RWKV