मिनिमॅक्सचा रेखीय अटेंशनवर भर: झोंग यिरान यांच्याशी संवाद

अपारंपरिक तांत्रिक मार्गावरील अग्रणी

आपण आपली थोडक्यात ओळख करून देऊ शकता?

मी झोंग यिरान, मिनीमॅक्स येथे वरिष्ठ संशोधन संचालक आहे. येथे मी प्रामुख्याने नेटवर्क आर्किटेक्चर आणि मल्टीमॉडल आकलनाचे मोठे मॉडेल यांच्या डिझाइनचे काम पाहतो. मिनीमॅक्समध्ये, मिनीमॅक्स-01 नेटवर्क स्ट्रक्चरच्या डिझाइनचे नेतृत्व करणे ही माझी मुख्य जबाबदारी आहे.

यापूर्वी, मी शांघाय आर्टिफिशियल इंटेलिजन्स प्रयोगशाळेतील नवीन आर्किटेक्चर एक्सप्लोरेशन ग्रुपसाठी पीआय म्हणून काम केले आहे. तिथे मी नॉन-ट्रान्सफॉर्मर आर्किटेक्चरसाठी कार्यक्षम प्रशिक्षण मॉडेलिंग पद्धती आणि व्हिज्युअल-ऑडिओ-लँग्वेज मल्टीमॉडल फ्यूजनवर लक्ष केंद्रित केले.

रेखीय अटेंशनवर आपण संशोधन कधी सुरू केले आणि हा तांत्रिक मार्ग निवडण्याचे कारण काय?

मी रेखीय अटेंशनवर जुलै 2021 च्या आसपास संशोधन सुरू केले. हे 2020 मध्ये माझ्या पीएचडीसाठी केलेल्या “इन्व्हर्टिबल अटेंशन” या पेपरमधून आले. त्या वेळी, इन्व्हर्टिबल न्यूरल नेटवर्क्स आणि अटेंशन यंत्रणा दोन्ही खूप लोकप्रिय होत्या, त्यामुळे आम्ही त्या आमच्या संशोधनात एकत्र केल्या.

नंतर, आमच्या टीममधील काही सदस्यांना गणितामध्ये खूप रस निर्माण झाला. रेखीय अटेंशनसारख्या कार्यक्षम सिक्वेन्स मॉडेलिंग पद्धतींसाठी मजबूत गणितीय पाया आवश्यक आहे आणि त्यात अनेक सूत्रे तयार करावी लागतात, जे टीमच्या आवडीनुसार अगदी तंतोतंत जुळले, त्यामुळे आम्ही ही दिशा निवडली.

त्या वेळी उद्योगात रेखीय अटेंशनची स्थिती काय होती?

ते खूपच अपारंपरिक होते, त्यावर काम करणारे फार कमी लोक होते. बहुतेक संशोधक ट्रान्सफॉर्मरवर लक्ष केंद्रित करत होते, जे NLP मध्ये प्रभावी ठरले होते.

आम्ही विचार केला की ट्रान्सफॉर्मर संशोधनात आणखी एक चेहरा बनण्याऐवजी, आपण काहीतरी वेगळे केले पाहिजे.

रेखीय अटेंशन मार्गाच्या तांत्रिक क्षमतेचे आपण मूल्यांकन कसे केले?

आमची सुरुवातीची प्रेरणा अगदी सोपी होती: ट्रान्सफॉर्मरची द्विघात computational complexity (संगणकीय जटिलता) कमी करणे. आम्ही विरळ ट्रान्सफॉर्मर आणि रेखीय अटेंशन यांसारख्या विविध पद्धती वापरून पाहिल्या.

आम्हाला असे आढळले की विरळ ट्रान्सफॉर्मरने काम केले, ते ट्रान्सफॉर्मरच्या तुलनेत वेगवान आणि कमी मेमरी वापरणारे होते. तथापि, रेखीय अटेंशनने वाईट कामगिरी केली आणि ते खूपच मंद होते. असे असूनही, आम्ही रेखीय अटेंशनचा मार्ग निवडला.

एक कारण म्हणजे त्याचे गणितीय आकर्षण - आम्हाला खात्री होती की त्याची कामगिरी अधिक चांगली असली पाहिजे. दुसरे कारण म्हणजे, आम्हाला असे वाटले की विरळ अटेंशनची कमाल मर्यादा पूर्ण अटेंशन आहे, त्यामुळे त्याहून अधिक चांगली कामगिरी करणे कठीण आहे. दुसरीकडे, रेखीय अटेंशनमध्ये त्याहून अधिक चांगली कामगिरी करण्याची क्षमता आहे.

रेखीय अटेंशन म्हणजे काय, हे आपण स्पष्ट करू शकता?

रेखीय अटेंशन हे मुळात एक कर्नल ट्रिक आहे. ट्रान्सफॉर्मरमध्ये, Q, K आणि V मॅट्रिक्सचा गुणाकार करताना, QK आधी गुणायचा की KV आधी गुणायचा यावर अवलंबून वेगवेगळ्या computational complexities (संगणकीय जटिलता) असतात, कारण त्यांचे आयाम वेगवेगळे असतात.

KV चा गुणाकार प्रथम केल्यास computational complexity (संगणकीय जटिलता) रेखीय (linear) पर्यंत कमी करता येते. पण समस्या अशी आहे की QK गुणाकारानंतर softmax ऑपरेशन केले जाते, जे commutative property (विनिमय नियम) चे पालन करत नाही आणि त्यामुळे KV प्रथम गुणून सहजपणे विभाजित करता येत नाही. म्हणून, रेखीय अटेंशनमधील पहिले पाऊल म्हणजे softmax काढून टाकणे.

पण softmax काढल्याने निकालांवरपरिणाम होतो. त्यानंतर softmax शिवाय निकालांमध्ये सुसंगतता राखणे हे काम आहे, जे रेखीय अटेंशन साध्य करण्याचा प्रयत्न करते.

रेखीय अटेंशन, विरळ अटेंशन आणि रेखीय RNN आर्किटेक्चरमधील मूलभूत फरक काय आहेत?

विरळ अटेंशन हे अजूनही मुळात softmax अटेंशनच आहे. हे फक्त dense attention मॅट्रिक्सपेक्षा कमी पॉइंट्सची गणना करते. उदाहरणार्थ, स्लाइडिंग विंडो अटेंशन फक्त एका विंडोमधील अटेंशन स्कोअरची गणना करते, ज्यामुळे संगणनाची मात्रा कमी करून वेग वाढवला जातो.

रेखीय RNN आणि रेखीय अटेंशन हे मूलतः एकसारखेच आहेत, काहीजण त्याला RNN म्हणतात, तर काहीजण अटेंशन म्हणतात.

प्रत्येक गोष्ट RNN स्वरूपात लिहिता येते. उदाहरणार्थ, लाइटनिंग अटेंशन हे RWKV-4 शी संबंधित आहे, तर RWKV-7 हे gated delta net चे सुधारित वर्जन आहे. जरी ते सारखेच असले तरी, त्यांच्या अंमलबजावणीचे तपशील भिन्न आहेत.

रेखीय अटेंशन यंत्रणेच्या संशोधनातील महत्त्वाचे टप्पे कोणते आहेत?

2018-19 च्या आसपास, संशोधनात असे दिसून आले की कर्नल ट्रिक्स वापरून ट्रान्सफॉर्मर softmax अटेंशनची सैद्धांतिक computational complexity (संगणकीय जटिलता) कमी करता येते, परंतु त्याचे परिणाम वाईट होते आणि कार्यक्षमता कमी होती.

2019-20 मध्ये, विरळ अटेंशन प्रभावी होते, गुगलसारख्या कंपन्यांनी विरळ अटेंशनचे अनेक प्रकार प्रस्तावित केले. नंतर, रेखीय अटेंशन उदयास आले, पण त्याला वाईट कामगिरी आणि कमी गती यांसारख्या समस्यांचा सामना करावा लागला.

संशोधकांनी सुधारणा करण्यासाठी प्रामुख्याने दोन दृष्टिकोन स्वीकारले: एक म्हणजे softmax फंक्शनचे approximation (अंदाजे मूल्य) काढणे, ज्यामुळे वितरण softmax नुसार होईल; दुसरा, जो आम्ही निवडला, तो म्हणजे softmax चे approximation (अंदाजे मूल्य) काढण्याची चिंता न करता पूर्णपणे वेगळ्या पद्धती वापरून मॉडेलिंग करणे.

ऑक्टोबर 2021 मध्ये, “COSFORMER: RETHINKING SOFTMAX IN ATTENTION” हा आमचा पहिला पेपर प्रकाशित झाला, ज्यामध्ये softmax ऑपरेशनला cosine फंक्शनने बदलले, ज्यामुळे संगणना विभाजित करता आली.

2022 च्या पहिल्या सहामाहीत, आम्ही दुसरा पेपर प्रकाशित केला, “The Devil in Linear Transformer,” ज्यामध्ये रेखीय अटेंशनच्या performance (कामगिरी) मध्ये घसरण होण्याची कारणे विश्लेषित केली आणि उपाय दिले. हे लाइटनिंग अटेंशनचे precursor (अग्रदूत) होते.

नंतर, आम्ही विशेषतः रेखीय अटेंशन आणि लाँग कन्व्होल्यूशन्ससाठी पोझिशन एन्कोडिंगवर संशोधन केले, TNN प्रकाशित केले, “TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING,” ही S4 (Mamba चा predecessor (अग्रदूत)) सारखीच पद्धत आहे.

अखेरीस, आम्ही लाइटनिंग अटेंशन लाँच केले, ज्याने सुधारित decay पद्धती आणि नेटवर्क स्ट्रक्चरद्वारे ट्रान्सफॉर्मरच्या performance (कामगिरी) ची बरोबरी केली. आम्ही ते जलद करण्यासाठी tiling तंत्राचा देखील उपयोग केला.

सध्याच्या नॉन-ट्रान्सफॉर्मर आर्किटेक्चर तांत्रिक मार्गांबद्दल आपले काय विचार आहेत?

रेखीय अटेंशन हे प्रत्यक्षात नॉन-ट्रान्सफॉर्मर पद्धत आहे. सध्या, RNN सारख्या दृष्टिकोन वगळता, इतर नॉन-ट्रान्सफॉर्मर आर्किटेक्चर कमी होत आहेत.

उदाहरणार्थ, लाँग कन्व्होल्यूशन्स आणि मोठ्या कर्नल कन्व्होल्यूशन्ससारखे CNNs, वाईट performance (कामगिरी) मुळे हळूहळू कमी झाले आहेत असे वाटते, पण ते काही विशिष्ट बाबींमध्ये खूप मजबूत आहेत, जसे की anomaly detection (विसंगतता शोधणे) सारख्या सिक्वेन्स मॉडेलिंगमध्ये अजूनही त्यांचा काही प्रभाव आहे.

खरं तर, फक्त तीन नॉन-ट्रान्सफॉर्मर आर्किटेक्चर आहेत: रेखीय अटेंशन, लाँग कन्व्होल्यूशन्स आणि रेखीय RNNs.

पण वास्तविकतेत, या तिन्ही गोष्टींना एकाच गोष्टीत एकत्रित केले जाऊ शकते, ज्याला आम्ही रेखीय complexity (जटिलता) मॉडेल म्हणतो. आम्ही एक लेख लिहिला आहे, ज्यामध्ये या तिन्ही गोष्टींचा समावेश आहे.

लाइटनिंग अटेंशन आणि Mamba आणि RWKV मध्ये मुख्य फरक काय आहेत?

सर्वात महत्वाचा फरक म्हणजे लाइटनिंग अटेंशन हे सर्वात सोपे रेखीय अटेंशन आहे. Mamba आणि RWKV दोन्ही डेटा-डिपेंडेंट decay वापरतात, तर लाइटनिंग अटेंशन गतीसाठी हस्तनिर्मित decay वापरते.

जरी शिकण्यायोग्य decay चांगले परिणाम देऊ शकत असले तरी, ते गती कमी करते. उदाहरणार्थ, RWKV-7 हे gating delta net पेक्षा 10-15% धीमे आहे, तर gated delta net लाइटनिंग अटेंशनच्या गतीच्या जवळपास निम्म्या गतीने चालते.

RWKV चे मॉडेलिंग लाइटनिंग अटेंशनपेक्षा निश्चितच चांगले आहे, पण ते धीमे आहे आणि त्याने अजूनही retrieval ची समस्या सोडवलेली नाही.

रेखीय अटेंशनची कमाल मर्यादा जास्त आणि व्यवहार्य आहे, यावर आता उद्योगाचे एकमत आहे का?

नाही, जर असे एकमत असते, तर प्रत्येकजण रेखीय अटेंशन मॉडेलचा आकार वाढवत असता. आणि आताही यावर एकमत नाही. जर असे असते, तर प्रत्येकजण रेखीय अटेंशन वापरत असता, पण तुम्ही बघू शकता की तसे नाही.

पण आमच्यासाठी, हे 2023 च्या उत्तरार्धातच स्पष्ट झाले होते. त्या वेळी, मी अनेक लोकांना विचारले आणि अनेकांशी बोललो, आणि त्यांनी उपस्थित केलेला सर्वात सामान्य मुद्दा हा होता की त्यांना माहीत आहे की रेखीय अटेंशन लहान scale (आकार) वर काम करते, पण त्यांना असे वाटते की scale (आकार) वाढवल्यावर ते अयशस्वी होईल.

त्या वेळी, मी विचार केला की मी ते वाढवून सर्वांना दाखवीन. आता मिनीमॅक्स-01 बाहेर आल्यानंतर, मोठ्या scale (आकार) वर रेखीय अटेंशनच्या क्षमतेबद्दल कोणालाही शंका नाही.

लहान प्रयोगांपासून मोठ्या प्रमाणावर अंमलबजावणी

आपल्या मते रेखीय अटेंशनची कमाल मर्यादा पूर्ण अटेंशनपेक्षा जास्त असू शकते का?

आता आपण पाहू शकतो की hybrid (संकरित) आर्किटेक्चर शुद्ध ट्रान्सफॉर्मरपेक्षा चांगले आहेत. पण शुद्ध रेखीय अटेंशनमधील सर्वात मोठी समस्या retrieval ability (पुनर्प्राप्ती क्षमता) आहे, जी शिक्षण क्षेत्रासाठी सोडवणे कठीण आहे.

सध्याच्या पद्धती गुंतागुंतीच्या आणि धीम्या असल्या तरी त्या पूर्णपणे समस्येचे निराकरण करू शकत नाहीत, त्यामुळे hybrid (संकरित) आर्किटेक्चरकडे जाणे आवश्यक आहे.

प्रयोगशाळेतून बाहेर पडण्याचा निर्णय घेण्यासाठी आपण कोणता मुद्दा पाहिला?

मे-जून 2023 मध्ये, आमच्याकडे लाइटनिंग अटेंशन 2 आधीपासूनच अंतर्गत होते, जे Flash अटेंशनपेक्षा जलद असलेले जगातील पहिले रेखीय अटेंशन implementation (अंमलबजावणी) होते.

आमचा विश्वास आहे की त्याने औद्योगिक red line (रेषा) ओलांडली आहे, आणि त्याची तांत्रिक परिपक्वता खूप जास्त आहे आणि ते वाढवता येऊ शकते.

आपण या औद्योगिक red line (रेषा) ची व्याख्या कशी करता?

प्रथम, परिणाम ट्रान्सफॉर्मरपेक्षा चांगले आहेत आणि दुसरे म्हणजे, ते ट्रान्सफॉर्मरपेक्षा जलद आहे. यामुळे त्याला ट्रान्सफॉर्मरला बदलण्याची क्षमता मिळते. आम्ही हे त्यावेळी 15B scale (आकार) च्या dense मॉडेलवर verify (सत्यापित) केले.

प्रयोगशाळेतून बाहेर पडताना, आपण मिनीमॅक्ससोबत एकत्र येण्याचा निर्णय का घेतला?

खरं तर, मी त्या वेळी काही मोठ्या कंपन्यांशी बोललो होतो. पण शेवटी, मी हे मिनीमॅक्ससोबत घडवून आणले.

सर्वप्रथम, cosformer हा लेख मी जुन्जीसोबत collaborate (सहकार्य) करून लिहिला आहे. आमच्यात सहकार्याचा पाया आहे. जुन्जी सेन्सटाइममध्ये असताना माझा बॉस होता. 23 च्या शेवटी, जुन्जीने मला जेवणासाठी बोलावले. त्यांना या अत्याधुनिक तंत्रज्ञानाच्या शक्यतांवर अधिक विश्वास आहे. माझ्या समजानुसार, ते त्यावेळी तांत्रिक breakthrough (यश) शोधत होते.

त्या वेळी, मिनीमॅक्सने Moe वरील संशोधन पूर्ण केले होते, आणि पुढील टप्प्यासाठी तांत्रिक breakthrough (यश) चे फार कमी मुद्दे होते. त्या वेळी, लाइटनिंग अटेंशन रिलीज झाले होते, आणि mamba देखील लोकप्रिय होते, त्यामुळे त्यांच्या दृष्टीने, हे एक व्यवहार्य direction (दिशा) होती.

हे मिनीमॅक्सच्या interactive companion product (संवादात्मक साथीदार उत्पादन) शी संबंधित आहे का?

याचा काही संबंध नाही. यान जुन्जीला मॉडेलच्या upper limit (उच्च मर्यादे) आणि ही मर्यादा आणखी कशी तोडायची यात जास्त रस आहे.

रेखीय अटेंशन हे ceiling (कमाल मर्यादा) तोडण्याऐवजी कार्यक्षमतेत सुधारणा करण्याची दिशा आहे, असे लोकांना वाटते.

येथे मुद्दा असा आहे की, सर्वप्रथम, प्रत्येक उत्पादकाची computing power (संगणकीय शक्ती) स्थिर असते. मॉडेल जितके जलद accelerate (वेगवान) करता येईल, तितका जास्त डेटा तो consume (वापर) करू शकेल आणि मॉडेल अधिक चांगले तयार होईल. जेव्हा computing power (संगणकीय शक्ती) स्थिर असते, तेव्हा मॉडेल जितके जलद असेल तितके चांगले.

आपण अशी परिस्थिती observe (निरीक्षण) केली आहे का, जिथे डेटा peaked (शिखरावर पोहोचला) आहे?

अजून तरी नाही, बरोबर? डेटा अजूनही continuous scaling (सतत वाढत) आहे, पण 23 मध्ये होता तितका aggressive (आक्रमक) नसेल.

कारण डेटा नेहमी वाढत असतो आणि दररोज नवीन डेटा येत असतो. मॉडेलसाठी, process (प्रक्रिया) करण्यासाठी दररोज नवीन डेटा असतो. इंटरनेटद्वारे दररोज तयार होणारा डेटा खूप जास्त असतो. cleaning (स्वच्छता) करून, आपण अजूनही नवीन डेटा मिळवू शकतो.

मानवी विकासाच्या अनेक वर्षांपासून अस्तित्वात असलेल्या डेटाच्या तुलनेत डेटा वाढीचा दर मंदावला आहे का?

खरं तर, ते आवश्यक नाही. चीनचा पाच हजार वर्षांचा इतिहास बघा, त्यात फक्त काही पुस्तके जमा झाली आहेत. पण इंटरनेटच्या विकासामुळे डेटाच्या प्रमाणात वाढ खूप steep curve (उंच वक्र) आहे. इंटरनेटपूर्वी तयार झालेला एकूण डेटा इंटरनेटनंतर एका वर्षात तयार झालेल्या डेटापेक्षा कमी असू शकतो.

Scale-up (आकार वाढवण्याच्या) प्रक्रियेदरम्यान लाइटनिंग अटेंशनला कोणत्या आव्हानांचा सामना करावा लागला?

त्याची scalability (आकार वाढवण्याची क्षमता) verify (सत्यापित) करण्यासाठी, आम्ही प्रथम scaling law experiments (स्केलिंग नियम प्रयोग) केले, लहान मॉडेलपासून 7B, 9B पर्यंत हळूहळू विस्तार केला आणि शेवटी 400B पेक्षा जास्त मॉडेलपर्यंत वाढवला.

आणि आम्ही theoretically (सैद्धांतिकदृष्ट्या) हे सिद्ध केले की linear (रेखीय) ची capacity (क्षमता) ट्रान्सफॉर्मरपेक्षा मोठी आहे.

आम्ही capacity (क्षमता) ची व्याख्या RNN च्या current states (सद्यस्थिती) च्या आकाराप्रमाणे करतो. ट्रान्सफॉर्मरसाठी, capacity (क्षमते) चा आकार O(d) आहे, जिथे d आकार आहे; रेखीय अटेंशनसाठी, capacity (क्षमते) चा आकार d²/h आहे. d हा h पेक्षा खूप मोठा असल्याने, capacity (क्षमता) मोठी आहे.

शेवटी, आम्ही हे देखील verify (सत्यापित) केले की hybrid (संकरित) मॉडेल शुद्ध ट्रान्सफॉर्मरपेक्षा चांगले आहे.

4M length sequence window (लांबी क्रम विंडो) कशी achieve (प्राप्त) केली जाते?

लाइटनिंगसाठी, training length (प्रशिक्षण लांबी) arbitrary (यादृच्छिक) असू शकते. जोपर्यंत computing power (संगणकीय शक्ती) पूर्णपणे utilize (उपयोग) केली जाते, तोपर्यंत 8K, 32K किंवा 128K train (प्रशिक्षण) करण्याची गती सारखीच असते आणि TGS (token per GPU per second) देखील सारखाच असतो.

कारण ट्रान्सफॉर्मर n² computational complexity (संगणकीय जटिलता) आहे, sequence (क्रम) जितका मोठा असेल, तितकी computational complexity (संगणकीय जटिलता) जलद वाढते आणि latency (विलंब) द्विघात वक्रात वाढतो. 1M length (लांबी) वर, softmax अटेंशनची latency (विलंब) लाइटनिंग अटेंशनच्या तुलनेत 2,700 पट जास्त आहे.

भविष्यात infinite context window (अनंत संदर्भ विंडो) achieve (प्राप्त) करण्यासाठी अजून कोणत्या तांत्रिक आव्हानांना सामोरे जावे लागेल?

आमच्या current hybrid (सध्याच्या संकरित) आर्किटेक्चरमध्ये, अजूनही 1/8 softmax अटेंशन आहे. 1M length (लांबी) वर हे bottleneck (अडथळा) आहे. या 1/8 मुळे येणारा latency (विलंब) उर्वरित 7/8 रेखीय अटेंशनपेक्षा खूप जास्त आहे.

जर आपल्याला लांब text (मजकूर) optimize (अनुकूल) करायचा असेल, तर softmax अटेंशन भाग optimize (अनुकूल) करण्याचा विचार केला पाहिजे. ते जलद आणि हलके करण्यासाठी आपण विरळ अटेंशन पद्धतींकडून शिकू शकतो.

याव्यतिरिक्त, आम्ही softmax आणि रेखीय अटेंशनचे mixing ratio (मिश्रण प्रमाण) अधिक extreme (अतिरेकी) बनवण्याचा विचार करत आहोत, ते 1/8 ऐवजी 1/16 किंवा 1/32 असू शकते. सर्वात radical (क्रांतिकारी) उपाय म्हणजे संपूर्ण मॉडेलमध्ये फक्त एक softmax layer (थर) ठेवणे, पण सुरक्षिततेसाठी आम्ही ते स्वीकारले नाही, कारण retrieval ability (पुनर्प्राप्ती क्षमता) वर होणारा परिणाम हा मुख्य विचार होता.

मॉडेलसाठी retrieval ability (पुनर्प्राप्ती क्षमता) इतकी महत्त्वाची का आहे?

Retrieval (पुनर्प्राप्ती) हे in-context learning (संदर्भातील शिक्षण) चा आधार आहे आणि ती एक आवश्यक अट आहे.

in-context learning (संदर्भातील शिक्षण) करण्यासाठी तुम्हाला संदर्भातील माहिती लक्षात ठेवावी लागेल आणि in-context learning (संदर्भातील शिक्षण) हे current large models (सध्याच्या मोठ्या मॉडेल) च्या सर्व advanced capabilities (प्रगत क्षमता) चा आधार आहे, जसे की CoT (Chain of Thought), विशेषतः लांब CoT, जे सर्व retrieval ability (पुनर्प्राप्ती क्षमता) वर अवलंबून असतात.

निर्णायक नवीन आर्किटेक्चर

FFN आणि attention मधील उद्योगातील नवीनतम architectural improvements (वास्तुशास्त्रीय सुधारणा) कडे आपण लक्ष दिले आहे का?

FFN मध्ये Moe सुधारणा आहे. मी Byte च्या Ultra Mem कडे देखील लक्ष दिले, पण मला वाटते की ते lossy (नुकसानकारक) आहे, एक lossy (नुकसानकारक) compression (ضغط). भविष्यात ते वाढवल्यावर समस्या येऊ शकतात, पण आम्ही ते वाढवले नाही, त्यामुळे मी फक्त असे म्हणू शकतो की समस्या येऊ शकतात.

कारण FFN हे मूलतः हेच आहे. Moe क्षेत्रात आमची सुधारणा म्हणजे मागील मोठ्या expert (तज्ञ) ऐवजी current small expert (सध्याचे लहान तज्ञ) मोडमध्ये बदल करणे, ते अधिक sparse (विरळ) करणे आणि नंतर काही acceleration (वेग वाढवणे) करणे, ज्यासाठी अधिक संशोधनाची आवश्यकता आहे.

जर तुम्हाला ते आणखी optimize (अनुकूल) करायचे असेल, कारण FFN हे matrix multiplication (गणितीय क्रिया) आहे, तर optimization (अनुकूलन) फक्त Nvidia द्वारे CUDA level (स्तरावर) केले जाऊ शकते, matrix multiplication (गणितीय क्रिया) चे काही bottom-level (खालच्या स्तरावरील) optimizations (अनुकूलन) करता येतील.

उद्योगातील attention architecture (अटेंशन आर्किटेक्चर) मधील सुधारणांकडे आपण लक्ष दिले आहे का?

Attention (अटेंशन) वरील सुधारणा मूलतः linear (रेखीय) आहेत. आम्ही भविष्यात अधिक strong (मजबूत) Linear (रेखीय) बनवण्याचा आणि current (सध्याच्या) आधारावर Linear attention (रेखीय अटेंशन) अधिक accelerate (वेगवान) करण्याचा विचार करत आहोत.

सुधारण्याचे अनेक मार्ग आहेत, एक म्हणजे decay बदलणे आणि दुसरे म्हणजे आतमध्ये काही लहान युक्त्या बदलणे. तुम्ही आमच्या नवीन पेपरची अपेक्षा करू शकता.

संदर्भातील लांबी आणि अनुमान खर्चाचे current (सध्याचे) प्रमाण relatively (अपेक्षाकृत) advanced (प्रगत) आहे का?

एकदा त्यात sequence length (क्रम लांबी) वाढवणे समाविष्ट झाले की, आमच्याकडे computing power cost (संगणकीय शक्ती खर्चाचा) खूप obvious (स्पष्ट) advantage (फायदा) असतो. ते जितके जास्त असेल, तितका computing power cost (संगणकीय शक्ती खर्चाचा) advantage (फायदा) अधिक obvious (स्पष्ट) असेल, मग ते inference (अनुमान) असो किंवा training (प्रशिक्षण).

उदाहरणार्थ, 1M वर, रेखीय अटेंशनद्वारे consume (वापर) केलेली computing power (संगणकीय शक्ती) full attention (पूर्ण अटेंशन) च्या 1/2700 आहे. तुलनेत, आमच्याकडे अजूनही 1/8 full attention (पूर्ण अटेंशन) असल्याने, ते मूलतः ट्रान्सफॉर्मर आर्किटेक्चरच्या 1/8 आहे, कारण रेखीय अटेंशनला खर्चात गणले जात नाही.

जर calculation cost (गणनेचा खर्च) इतका कमी असेल, तर ते calculation bottleneck (गणनेचा अडथळा) achieve (प्राप्त) करू शकते का?

आता तो खरोखरच memory access bottleneck (मेमरी ऍक्सेस अडथळा) आहे. Decoding (डीकोडिंग) हा memory access bottleneck (मेमरी ऍक्सेस अडथळा) आहे, calculation bottleneck (गणनेचा अडथळा) नाही. कारण लाइटनिंग खूप जलद आहे, त्यामुळे calculation (गणने) प्रमाणेच memory access (मेमरी ऍक्सेस) ला देखील कमी resources (संसाधने) व्यापू देणे खूप जलद आहे. हे मुख्यतः actual applications (प्रत्यक्ष ऍप्लिकेशन्स) मध्ये sequence length (क्रम लांबी) पुरेसा लांब नसल्यामुळे आहे.

भविष्यात ते calculation bottleneck (गणनेचा अडथळा) कसे बनवायचे हे memory access (मेमरी ऍक्सेस) कसे optimize (अनुकूल) करायचे यावर अवलंबून आहे. या गोष्टींसाठी engineering department (अभियांत्रिकी विभाग) जबाबदार असेल.

**जर रेखीय आर्किटेक्चर next generation (पुढील पिढी) चे mainstream architecture (मुख्य प्रवा