मिनीमैक्स का लीनियर अटेंशन पर दांव

मिनीमैक्स-01 आर्किटेक्चर के प्रमुख झोंग यिरान के साथ बातचीत: मिनीमैक्स का लीनियर अटेंशन पर दांव

ट्रांसफॉर्मर आर्किटेक्चर वर्तमान में जेनरेटिव एआई परिदृश्य पर हावी है, लेकिन इसकी अपनी सीमाएं हैं, और उभरते हुए प्रतिद्वंद्वी हैं। मिनीमैक्स-01, रैखिक ध्यान तंत्रों को अपनाने और अभूतपूर्व 456 बिलियन मापदंडों तक इसके विस्तार के साथ, ओपन-सोर्स समुदाय में ऐसा ही एक विघटनकारी है। यह एक तकनीकी जुआ और वास्तुशिल्प नवाचार में एक संभावित मील का पत्थर दोनों है।

इस साक्षात्कार में, हम मिनीमैक्स-01 आर्किटेक्चर के प्रमुख झोंग यिरान से बात करते हैं ताकि प्रयोगशाला से औद्योगिक-ग्रेड बड़े मॉडल तक रैखिक ध्यान की यात्रा का पता लगाया जा सके, साथ ही मॉडल आर्किटेक्चर पर उनके विचारों और अंतर्दृष्टि का भी पता लगाया जा सके।

एक गैर-मुख्यधारा तकनीकी पथ पर अग्रणी

क्या आप संक्षेप में अपना परिचय दे सकते हैं?

मैं झोंग यिरान हूं, मिनीमैक्स में वरिष्ठ अनुसंधान निदेशक, जहां मैं मुख्य रूप से नेटवर्क आर्किटेक्चर और मल्टीमॉडल समझ बड़े मॉडल के डिजाइन की देखरेख करता हूं। मिनीमैक्स में, मेरी मुख्य जिम्मेदारी मिनीमैक्स-01 नेटवर्क संरचना के डिजाइन का नेतृत्व करना है।

इससे पहले, मैंने शंघाई आर्टिफिशियल इंटेलिजेंस लेबोरेटरी में न्यू आर्किटेक्चर एक्सप्लोरेशन ग्रुप के लिए एक पीआई के रूप में काम किया, जो गैर-ट्रांसफॉर्मर आर्किटेक्चर के लिए कुशल प्रशिक्षण मॉडलिंग विधियों और दृश्य-ऑडियो-भाषा मल्टीमॉडल फ्यूजन पर अनुसंधान पर केंद्रित था।

आपने रैखिक ध्यान पर शोध कब शुरू किया, और आपने यह तकनीकी मार्ग क्यों चुना?

मैंने जुलाई 2021 के आसपास रैखिक ध्यान पर शोध शुरू किया। यह 2020 में मेरे पीएचडी के लिए किए गए एक पेपर, ‘इनवर्टिबल अटेंशन’ से उपजा है। उस समय, इनवर्टिबल न्यूरल नेटवर्क और ध्यान तंत्र दोनों ही काफी लोकप्रिय थे, इसलिए हमने उन्हें अपने शोध में जोड़ा।

बाद में, हमारी टीम के कुछ सदस्य गणित में बहुत रुचि रखते थे। रैखिक ध्यान जैसी कुशल अनुक्रम मॉडलिंग विधियों के लिए एक मजबूत गणितीय नींव की आवश्यकता होती है और इसमें कई सूत्र व्युत्पन्न होते हैं, जो टीम के हितों के साथ पूरी तरह से मेल खाते थे, इसलिए हमने इस दिशा को चुना।

उस समय उद्योग में रैखिक ध्यान की स्थिति क्या थी?

यह बहुत गैर-मुख्यधारा था, इस पर बहुत कम लोग काम कर रहे थे। अधिकांश शोधकर्ता ट्रांसफार्मर पर केंद्रित थे, जो अनिवार्य रूप से एनएलपी में प्रमुख शक्ति बन गया था।

हमने सोचा कि ट्रांसफॉर्मर अनुसंधान करने वाली भीड़ में सिर्फ एक और चेहरा होने के बजाय, हमें कुछ अलग करना चाहिए।

आपने रैखिक ध्यान मार्ग की तकनीकी क्षमता का आकलन कैसे किया?

हमारी प्रारंभिक प्रेरणा सीधी थी: ट्रांसफार्मर की द्विघात कम्प्यूटेशनल जटिलता को संबोधित करना। हमने विभिन्न तरीकों का परीक्षण किया, जिसमें विरल ट्रांसफार्मर और रैखिक ध्यान शामिल हैं।

हमने पाया कि विरल ट्रांसफार्मर ने काम किया, ट्रांसफार्मर की तुलना में तेज गति और कम मेमोरी उपयोग की पेशकश की। हालांकि, रैखिक ध्यान ने खराब प्रदर्शन किया और धीमा भी था। इसके बावजूद, हमने रैखिक ध्यान का अनुसरण करने का फैसला किया।

एक कारण इसका गणितीय आकर्षण था - हमें विश्वास था कि इसका प्रदर्शन बेहतर होना चाहिए। दूसरा कारण यह था कि हमें लगा कि विरल ध्यान की ऊपरी सीमा पूर्ण ध्यान है, जिससे इसे पार करना मुश्किल हो जाता है। दूसरी ओर, रैखिक ध्यान में इसे पार करने की क्षमता थी।

क्या आप बता सकते हैं कि रैखिक ध्यान क्या है?

रैखिक ध्यान अनिवार्य रूप से एक कर्नेल चाल है। ट्रांसफार्मर में, Q, K और V मैट्रिक्स को गुणा करने में अलग-अलग कम्प्यूटेशनल जटिलताएँ शामिल होती हैं, यह इस बात पर निर्भर करता है कि आप पहले QK को गुणा करते हैं या KV को, अलग-अलग आयामों के कारण।

पहले KV को गुणा करने से कम्प्यूटेशनल जटिलता रैखिक हो सकती है। हालांकि, समस्या यह है कि QK गुणन के बाद एक softmax ऑपरेशन होता है, जो कम्यूटेटिव संपत्ति को संतुष्ट नहीं करता है और इसे आसानी से KVfirst गुणा करने में विभाजित नहीं किया जा सकता है। इसलिए, रैखिक ध्यान में पहला कदम softmax को हटाना है।

लेकिन softmax को हटाने से परिणामों पर प्रभाव पड़ता है। बाद का कार्य softmax के बिना परिणामों में स्थिरता बनाए रखना है, जिसका उद्देश्य रैखिक ध्यान प्राप्त करना है।

रैखिक ध्यान, विरल ध्यान और रैखिक आरएनएन आर्किटेक्चर के बीच मूलभूत अंतर क्या हैं?

विरल ध्यान अभी भी अनिवार्य रूप से एक softmax ध्यान है। यह केवल एक घने ध्यान मैट्रिक्स की तुलना में कम बिंदुओं की गणना करता है। उदाहरण के लिए, स्लाइडिंग विंडो ध्यान केवल एक विंडो के भीतर ध्यान स्कोर की गणना करता है, गणना की मात्रा को कम करके त्वरण प्राप्त करता है।

रैखिक आरएनएन और रैखिक ध्यान अनिवार्य रूप से एक ही चीज़ हैं, बस कुछ लोग इसे आरएनएन कहते हैं और कुछ लोग इसे ध्यान कहते हैं।

सब कुछ आरएनएन रूप में लिखा जा सकता है। उदाहरण के लिए, लाइटनिंग अटेंशन RWKV-4 से मेल खाता है, जबकि RWKV-7 गेटेड डेल्टा नेट का एक बेहतर संस्करण है। हालांकि वे सार में समान हैं, लेकिन उनके कार्यान्वयन विवरण अलग-अलग हैं।

रैखिक ध्यान तंत्र के अनुसंधान में प्रमुख मील के पत्थर क्या हैं?

लगभग 2018-19 में, शोध से पता चला कि कर्नेल ट्रिक्स का उपयोग करके ट्रांसफॉर्मर softmax ध्यान की सैद्धांतिक कम्प्यूटेशनल जटिलता को कम किया जा सकता है, लेकिन परिणाम खराब थे, और दक्षता कम थी।

2019-20 में, विरल ध्यान प्रमुख था, Google जैसी कंपनियों ने कई विरल ध्यान वेरिएंट प्रस्तावित किए। बाद में, रैखिक ध्यान उभरने लगा, लेकिन इसे खराब प्रदर्शन और धीमी गति की चुनौती का सामना करना पड़ा।

शोधकर्ताओं ने मुख्य रूप से सुधार के लिए दो दृष्टिकोण अपनाए: एक softmax फ़ंक्शन का अनुमान लगाना था, वितरण को softmax के अनुरूप बनाना; दूसरा, जिसे हमने चुना, पूरी तरह से अलग तरीकों का उपयोग करके मॉडल बनाना था, बिना softmax का अनुमान लगाने की चिंता किए।

हमने अपना पहला पेपर, ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’, अक्टूबर 2021 में प्रकाशित किया, जिसने कोसाइन फ़ंक्शन के साथ softmax ऑपरेशन को बदल दिया, जिससे गणना को विभाजित किया जा सका।

2022 की पहली छमाही में, हमने एक दूसरा पेपर प्रकाशित किया, ‘The Devil in Linear Transformer’, जिसने रैखिक ध्यान के प्रदर्शन में गिरावट के कारणों का विश्लेषण किया और समाधान प्रदान किए। यह लाइटनिंग अटेंशन का अग्रदूत था।

बाद में, हमने रैखिक ध्यान और लंबी कनवल्शन के लिए विशेष रूप से स्थिति एन्कोडिंग पर भी शोध किया, TNN प्रकाशित किया, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’, S4 (माम्बा का अग्रदूत) के समान एक विधि।

अंत में, हमने लाइटनिंग अटेंशन लॉन्च किया, जिसने बेहतर क्षय विधियों और नेटवर्क संरचनाओं के माध्यम से ट्रांसफार्मर के प्रदर्शन से मेल खाया। हमने इसे तेज़ बनाने के लिए एक टाइलिंग तकनीक का भी उपयोग किया।

वर्तमान गैर-ट्रांसफॉर्मर आर्किटेक्चर तकनीकी मार्गों पर आपके क्या विचार हैं?

रैखिक ध्यान वास्तव में एक गैर-ट्रांसफॉर्मर विधि है। वर्तमान में, आरएनएन जैसे दृष्टिकोणों के अलावा, अन्य गैर-ट्रांसफॉर्मर आर्किटेक्चर घट रहे हैं।

उदाहरण के लिए, सीएनएन जैसे लंबे कनवल्शन और बड़े कर्नेल कनवल्शन, ऐसा लगता है जैसे उन्हें खराब प्रदर्शन के कारण धीरे-धीरे समाप्त कर दिया गया है, लेकिन वे वास्तव में कुछ पहलुओं में काफी मजबूत हैं, अभी भी अनुक्रम मॉडलिंग में कुछ प्रभाव डालते हैं, जैसे कि विसंगति का पता लगाने के कार्य।

वास्तव में केवल तीन गैर-ट्रांसफॉर्मर आर्किटेक्चर हैं: रैखिक ध्यान, लंबी कनवल्शन और रैखिक आरएनएन।

लेकिन वास्तव में, इन तीनों को एक में एकीकृत किया जा सकता है, जिसे हम रैखिक जटिलता मॉडल कहते हैं। हमने तीनों को शामिल करते हुए एक लेख लिखा।

लाइटनिंग अटेंशन और मम्बा और आरडब्ल्यूकेवी के बीच मुख्य अंतर क्या हैं?

सबसे महत्वपूर्ण अंतर यह है कि लाइटनिंग अटेंशन सबसे सरल रैखिक ध्यान है। मम्बा और आरडब्ल्यूकेवी दोनों डेटा-निर्भर क्षय का उपयोग करते हैं, जबकि लाइटनिंग अटेंशन गति के लिए दस्तकारी क्षय का उपयोग करता है।

हालांकि सीखने योग्य क्षय बेहतर परिणाम प्राप्त कर सकता है, लेकिन यह गति का त्याग करता है। उदाहरण के लिए, आरडब्ल्यूकेवी-7 गेटिंग डेल्टा नेट की तुलना में 10-15% धीमा है, जबकि गेटेड डेल्टा नेट लाइटनिंग अटेंशन की गति का लगभग आधा है।

आरडब्ल्यूकेवी का मॉडलिंग प्रभाव वास्तव में लाइटनिंग अटेंशन से बेहतर है, लेकिन यह धीमा है और अभी तक पुनर्प्राप्ति समस्या का समाधान नहीं किया है।

क्या अब उद्योग की सहमति है कि रैखिक ध्यान की एक उच्च और व्यवहार्य ऊपरी सीमा है?

नहीं, अगर यह सहमति होती, तो हर कोई रैखिक ध्यान मॉडल को बढ़ा रहा होता। और यह अब सहमति भी नहीं है। अगर यह होता, तो हर कोई रैखिक कर रहा होता, लेकिन जैसा कि आप देख सकते हैं, ऐसा नहीं है।

लेकिन हमारे लिए, हमने इसे 2023 की दूसरी छमाही में पहले ही देख लिया था। उस समय, मैंने कई लोगों से पूछा और कई लोगों से बात की, और उन्होंने जो सबसे आम बात उठाई वह यह थी कि वे जानते थे कि रैखिक ध्यान छोटे पैमाने पर काम करता है, लेकिन उन्हें लगा कि यह एक बार बढ़ने पर विफल हो जाएगा।

उस समय, मैंने सोचा कि मैं इसे सभी को देखने के लिए बढ़ाऊंगा। अब जब मिनीमैक्स-01 निकल गया है, तो किसी को भी बड़े पैमाने पर रैखिक ध्यान की क्षमता पर संदेह नहीं है।

छोटे प्रयोगों से लेकर बड़े पैमाने पर कार्यान्वयन तक

क्या आपको लगता है कि रैखिक ध्यान की ऊपरी सीमा पूर्ण ध्यान को पार कर सकती है?

अब हम देख सकते हैं कि हाइब्रिड आर्किटेक्चर शुद्ध ट्रांसफार्मर से बेहतर हैं। लेकिन शुद्ध रैखिक ध्यान के साथ सबसे बड़ी समस्या पुनर्प्राप्ति क्षमता है, जो शिक्षाविदों के लिए हल करने के लिए एक कठिन समस्या है।

मौजूदा तरीके, हालांकि जटिल और धीमे हैं, फिर भी इसे पूरी तरह से हल नहीं कर सकते हैं, यही कारण है कि हाइब्रिड आर्किटेक्चर की ओर बढ़ना आवश्यक है।

आपने किस नोड को देखा जिसके कारण आपने प्रयोगशाला से बाहर आने का फैसला किया?

मई-जून 2023 में, हमारे पास आंतरिक रूप से लाइटनिंग अटेंशन 2 पहले से ही था, जो फ्लैश अटेंशन से तेज़ दुनिया का पहला रैखिक ध्यान कार्यान्वयन था।

हम मानते हैं कि इसने औद्योगिक रेड लाइन को पार कर लिया है, और इसकी तकनीकी परिपक्वता बहुत अधिक है और इसे बढ़ाया जा सकता है।

आप इस औद्योगिक रेड लाइन को कैसे परिभाषित करते हैं?

सबसे पहले, प्रभाव ट्रांसफार्मर से बेहतर है, और दूसरा, यह ट्रांसफार्मर से तेज है। यह इसे ट्रांसफार्मर को बदलने की क्षमता देता है। हमने उस समय 15B स्केल के घने मॉडल पर इसे सत्यापित किया।

जब आप प्रयोगशाला से बाहर आए तो आपने अंततः मिनीमैक्स के साथ आने का फैसला क्यों किया?

वास्तव में, मैंने उस समय कुछ बड़ी कंपनियों से बात की थी। लेकिन अंत में, मैंने इसे मिनीमैक्स के साथ ही किया।

सबसे पहले, कॉस्फॉर्मर एक लेख है जिस पर मैंने जुंजी के साथ सहयोग किया है। हमारे पास सहयोग की नींव है। जब जुंजी सेंसेटाइम में थे तो वे मेरे बॉस थे। 23 के अंत में, जुंजी ने मुझे डिनर पर आमंत्रित किया। उन्हें इन अत्याधुनिक तकनीकों की संभावनाओं पर अधिक विश्वास है। मेरी समझ यह है कि वह उस समय एक तकनीकी सफलता की भी तलाश में थे।

उस समय, मिनीमैक्स ने मो पर शोध पूरा कर लिया था, और अगले चरण के लिए वास्तव में बहुत कम तकनीकी सफलता बिंदु थे। उस समय, लाइटनिंग अटेंशन जारी किया गया था, और मम्बा भी लोकप्रिय था, इसलिए उनकी नजर में, यह एक व्यवहार्य दिशा थी।

क्या यह मिनीमैक्स के इंटरैक्टिव कंपेनियन उत्पाद से संबंधित है?

कोई संबंध नहीं है। यान जुंजी मॉडल की ऊपरी सीमा और इस सीमा को और तोड़ने के तरीके के बारे में अधिक चिंतित हैं।

रैखिक ध्यान सार्वजनिक नजर में दक्षता को तोड़ने की दिशा में अधिक हो सकता है, न कि सीमा को तोड़ने की दिशा में।

यहां बात यह है कि, सबसे पहले, प्रत्येक निर्माता की कंप्यूटिंग शक्ति स्थिर है। मॉडल जितना तेजी से तेज किया जा सकता है, उतना ही अधिक डेटा वह खा सकता है, और उतना ही बेहतर मॉडल का उत्पादन होता है। जब कंप्यूटिंग शक्ति स्थिर होती है, तो मॉडल जितना तेज होता है, उतना ही बेहतर होता है।

क्या आपने ऐसी स्थिति देखी है जहां डेटा चरम पर पहुंच गया है?

अभी तक नहीं, है ना? डेटा अभी भी निरंतर स्केलिंगके चरण में है, लेकिन यह 23 की तरह आक्रामक नहीं हो सकता है।

क्योंकि डेटा हमेशा बढ़ रहा है, और हर दिन नया डेटा आता है। मॉडल के लिए, हर दिन संसाधित करने के लिए नया डेटा होता है। इंटरनेट द्वारा हर दिन उत्पादित डेटा बहुत अधिक है। सफाई के माध्यम से, हम अभी भी नया डेटा प्राप्त कर सकते हैं।

मानव विकास के इतने वर्षों से मौजूद डेटा की तुलना में, क्या डेटा वृद्धि दर धीमी हो गई है?

वास्तव में, जरूरी नहीं। चीन के पांच हजार वर्षों के इतिहास को देखें, और केवल वे कुछ पुस्तकें ही जमा हुई हैं। लेकिन इंटरनेट के विकास के साथ, डेटा की मात्रा में वृद्धि एक बहुत खड़ी वक्र है। इंटरनेट से पहले उत्पन्न कुल डेटा एक वर्ष में बाद में उत्पन्न डेटा जितना अधिक नहीं हो सकता है।

स्केल-अप प्रक्रिया के दौरान, लाइटनिंग अटेंशन को किन चुनौतियों का सामना करना पड़ा?

इसकी स्केलेबिलिटी को सत्यापित करने के लिए, हमने पहले स्केलिंग लॉ प्रयोग किए, धीरे-धीरे छोटे मॉडल से 7B, 9B तक विस्तार किया, और अंत में 400B से अधिक मॉडल तक स्केल किया।

और हमने सैद्धांतिक रूप से साबित किया कि रैखिक की क्षमता ट्रांसफार्मर की तुलना में बड़ी है।

हम क्षमता को आरएनएन की वर्तमान स्थितियों के आकार के रूप में परिभाषित करते हैं। ट्रांसफार्मर के लिए, क्षमता का आकार O(d) है, जहाँ d आकार है; रैखिक ध्यान के लिए, क्षमता का आकार d²/h है। चूँकि d, h से बहुत बड़ा है, क्षमता बड़ी है।

अंत में, हमने यह भी सत्यापित किया कि हाइब्रिड मॉडल शुद्ध ट्रांसफार्मर से बेहतर है।

4M लंबाई अनुक्रम विंडो कैसे प्राप्त की जाती है?

लाइटनिंग के लिए, प्रशिक्षण लंबाई मनमानी हो सकती है। जब तक कंप्यूटिंग शक्ति पूरी तरह से उपयोग की जाती है, 8K, 32K, या 128K को प्रशिक्षित करने की गति समान होती है, और TGS (टोकन प्रति GPU प्रति सेकंड) समान होता है।

क्योंकि ट्रांसफार्मर n² कम्प्यूटेशनल जटिलता है, अनुक्रम जितना लंबा होगा, कम्प्यूटेशनल जटिलता उतनी ही तेजी से बढ़ेगी, और विलंबता एक द्विघात वक्र में बढ़ जाती है। 1M लंबाई पर, softmax ध्यान की विलंबता लाइटनिंग अटेंशन की तुलना में 2,700 गुना अधिक है।

भविष्य में अनंत संदर्भ विंडो प्राप्त करने के लिए अभी भी किन तकनीकी चुनौतियों का समाधान करने की आवश्यकता है?

हमारे वर्तमान हाइब्रिड आर्किटेक्चर में, अभी भी 1/8 softmax ध्यान है। यह 1M लंबाई पर एक बाधा है। इस 1/8 द्वारा लाई गई विलंबता शेष 7/8 रैखिक ध्यान से कहीं अधिक है।

अगर हम लंबे टेक्स्ट को अनुकूलित करना चाहते हैं, तो हमें softmax ध्यान भाग को अनुकूलित करने पर विचार करना चाहिए। हम इसे तेज़ और हल्का बनाने के लिए विरल ध्यान विधियों से सीख सकते हैं।

इसके अलावा, हम softmax और रैखिक ध्यान के मिश्रण अनुपात को और अधिक चरम बनाने पर भी विचार कर रहे हैं, अब 1/8 नहीं, बल्कि संभवतः 1/16 या 1/32। सबसे कट्टरपंथी समाधान पूरे मॉडल में केवल एक परत softmax रखना है, लेकिन बीमा के लिए, हमने इसे नहीं अपनाया, मुख्य रूप से पुनर्प्राप्ति क्षमता पर प्रभाव पर विचार करते हुए।

पुनर्प्राप्ति क्षमता मॉडल के लिए इतनी महत्वपूर्ण क्यों है?

पुनर्प्राप्ति संदर्भ में सीखने का आधार है और एक आवश्यक शर्त है।

संदर्भ में जानकारी को संदर्भ में सीखने के लिए याद रखना चाहिए, और संदर्भ में सीखना वर्तमान बड़े मॉडल की सभी उन्नत क्षमताओं का आधार है, जैसे कि CoT (विचार की श्रृंखला), विशेष रूप से लंबी CoT, जो सभी पुनर्प्राप्ति क्षमता पर निर्भर करती हैं।

निर्णायक नया आर्किटेक्चर

क्या आपने उद्योग में FFN और ध्यान में नवीनतम वास्तुशिल्प सुधारों पर ध्यान दिया है?

FFN का सुधार Moe है। मैंने बाइट के अल्ट्रा मेम पर भी ध्यान दिया, लेकिन मुझे लगता है कि यह एक नुकसानदेह चीज है, एक नुकसानदेह संपीड़न। भविष्य में इसे बढ़ाने पर समस्याएं हो सकती हैं, लेकिन हमने इसे नहीं बढ़ाया है, इसलिए मैं केवल इतना कह सकता हूं कि समस्याएं हो सकती हैं।

क्योंकि FFN मूल रूप से ये हैं। Moe क्षेत्र में हमारे सुधार पिछले बड़े विशेषज्ञ से वर्तमान छोटे विशेषज्ञ मोड में बदलने, इसे और अधिक विरल बनाने और फिर कुछ त्वरण करने से अधिक नहीं हैं, जिसके लिए आगे शोध की आवश्यकता है।

यदि आप इसे और अनुकूलित करना चाहते हैं, क्योंकि FFN मैट्रिक्स गुणन है, तो अनुकूलन केवल Nvidia द्वारा CUDA स्तर पर किया जा सकता है, मैट्रिक्स गुणन के कुछ निचले स्तर के अनुकूलन कर सकते हैं।

क्या आपने उद्योग में ध्यान वास्तुकला में सुधार पर ध्यान दिया है?

ध्यान में सुधार मूल रूप से रैखिक हैं। हम यह भी विचार कर रहे हैं कि क्या भविष्य में एक मजबूत रैखिक बनाया जाए, और वर्तमान आधार पर रैखिक ध्यान को और तेज किया जाए।

सुधार करने के कई तरीके हैं, एक क्षय को बदलना है, और दूसरा अंदर कुछ छोटी चालें बदलना है। आप हमारे नए पेपर का इंतजार कर सकते हैं।

क्या संदर्भ लंबाई और अनुमान लागत का हमारा वर्तमान अनुपात अपेक्षाकृत उन्नत है?

एक बार जब इसमें अनुक्रम लंबाई को लंबा करना शामिल हो जाता है, तो हमारे पास कंप्यूटिंग शक्ति लागत का एक बहुत ही स्पष्ट लाभ होता है। यह जितना लंबा होगा, लागत लाभ उतना ही अधिक स्पष्ट होगा, चाहे वह अनुमान हो या प्रशिक्षण।

उदाहरण के लिए, 1M पर, रैखिक ध्यान द्वारा खपत कंप्यूटिंग शक्ति पूर्ण ध्यान का 1/2700 है। तुलना में, क्योंकि हमारे पास अभी भी 1/8 पूर्ण ध्यान है, यह मूल रूप से ट्रांसफार्मर आर्किटेक्चर का 1/8 है, क्योंकि रैखिक ध्यान मूल रूप से एक व्यय के रूप में नहीं गिना जाता है।

यदि गणना लागत इतनी कम है, तो क्या यह गणना बाधा प्राप्त कर सकता है?

अब यह वास्तव में एक मेमोरी एक्सेस बाधा है। डिकोडिंग एक मेमोरी एक्सेस बाधा है, गणना बाधा नहीं है। क्योंकि लाइटनिंग बहुत तेज है, यह मेमोरी एक्सेस को गणना के रूप में कम संसाधनों पर कब्जा करने की अनुमति देने के लिए बहुत तेज है। यह मुख्य रूप से इसलिए है क्योंकि वास्तविक अनुप्रयोगों में अनुक्रम लंबाई पर्याप्त लंबी नहीं है।

भविष्य में इसे गणना बाधा कैसे बनाया जाए यह इस बात पर निर्भर करता है कि मेमोरी एक्सेस को कैसे अनुकूलित किया जाए। ये वे चीजें होंगी जिनके लिए इंजीनियरिंग विभाग को जिम्मेदार होने की आवश्यकता होगी।

यदि रैखिक वास्तुकला अगली पीढ़ी की मुख्यधारा की वास्तुकला बन जाती है, तो इसके लिए कौन से हार्डवेयर अनुकूलन सुधार अधिक उपयुक्त होंगे?

यहां एक बहुत ही मुश्किल बात यह है कि हमें अनुक्रम लंबाई पर विचार करने की आवश्यकता है। यदि आपकी अनुक्रम लंबाई 8K या 32K पर केंद्रित है, तो ध्यान केवल दस प्रतिशत से थोड़ा अधिक है, और शेष अस्सी प्रतिशत FFN भाग है।

यहां तक कि अगर आप ध्यान को चरम पर अनुकूलित करते हैं, तो 0 तक, आपने केवल दस प्रतिशत से थोड़ा अधिक विलंबता को अनुकूलित किया है। लेकिन यदि आप अनुक्रम लंबाई को लंबा करते हैं, तो ध्यान का अनुपात बड़ा और बड़ा होता जाएगा। यह पूर्ण ध्यान की तुलना में है, लेकिन रैखिक ध्यान के लिए, इसका अनुपात अपरिवर्तित है।

क्योंकि FFN भी रैखिक है, और रैखिक ध्यान भी रैखिक है, इसका अनुपात लगभग 10% है, जो लगभग अपरिवर्तित है, यहां तक कि 1M के मामले में भी।

लेकिन अगर यह पूर्ण ध्यान है, तो ध्यान गणना 99% हो सकती है, और निम्नलिखित FFN केवल 1% है। इसलिए रैखिक ध्यान का लाभ केवल लंबे टेक्स्ट में है।

यदि रैखिक वास्तुकला मुख्यधारा बन जाती है, तो खोज कम ऊर्जा वाले हार्डवेयर हो सकती है, केवल ऊर्जा की खपत को कम करना। स्पाइकिंग न्यूरल नेटवर्क (एसएनएन) चिप्स सहित अधिक उपयुक्त हो सकते हैं, और कुछ लोग वास्तव में ऐसा कर रहे हैं।

एजीआई के मार्ग के लिए उत्सुक

मॉडल ओपन-सोर्स प्रभाव के लिए आपकी क्या अपेक्षाएं हैं?

पहला प्रचार प्रभाव है। मैं व्यक्तिगत रूप से सोचता हूं कि कुछ मांसपेशियों को दिखाने के अलावा, ओपन सोर्स के लिए सबसे महत्वपूर्ण बात यह देखना है कि भविष्य में हर कोई इसका उपयोग कैसे कर सकता है। मुझे लगता है कि छोटे मॉडल ओपन सोर्स वह हो सकता है जिस पर हम भविष्य में अधिक विचार कर रहे हैं।

और सभी के लिए फ़िनट्यून करने के लिए कुछ बुनियादी ढांचे कैसे बनाएं, इस पर भी विचार करने की आवश्यकता हो सकती है। ओपन सोर्स भविष्य में हमारे लिए एक दीर्घकालिक चीज है, और फ्लैगशिप मॉडल को ओपन-सोर्स किया जाना जारी रहना चाहिए।

क्या यह संभव है कि एक शुद्ध-रक्त वास्तुकला जो हाइब्रिड नहीं है, भविष्य में बाहर निकल जाएगी?

वर्तमान में, हाइब्रिड की तुलना में बेहतर प्रदर्शन करने वाला कोई तरीका नहीं है, खासकर गति के मामले में। softmax ध्यान का एक छोटा सा हिस्सा जोड़ने से, गति लाभ बहुत स्पष्ट होता है जब अनुक्रम लंबाई विशेष रूप से लंबी नहीं होती है, खासकर फ्लैश ध्यान के उभरने के बाद।

शुद्ध-रक्त वास्तुकला पर शोध अभी भी जारी है, लेकिन यह बहुत कठिन है, और अब कोई कम लटका हुआ फल नहीं है। हमारे पास कुछ तकनीकी समाधान हैं, लेकिन कार्यान्वयन सरल नहीं है, और यह अंततः इस बात पर निर्भर करता है कि हमें किस अनुक्रम लंबाई को प्राप्त करने की आवश्यकता है।

एक और सवाल यह है कि क्या अल्ट्रा-लंबे टेक्स्ट की मजबूत मांग है? हालांकि क्लाउड जैसे मॉडल 200K संदर्भ तक पहुंच गए हैं, लेकिन उपयोगकर्ता वर्तमान लंबाई से बहुत संतुष्ट लगते हैं। एजेंट अनुप्रयोग भविष्य में अल्ट्रा-लंबे अनुक्रमों की मांग ला सकते हैं, लेकिन अभी तक कोई परिपक्व बेंचमार्क नहीं है।

लेकिन मुझे लगता है कि यह समस्या भविष्य के खेलों के लिए उन्नत प्रदर्शन ग्राफिक्स कार्ड विकसित करने वाले Nvidia की तरह है, भले ही उनकी अब आवश्यकता नहीं है, यह भविष्य के लिए तकनीक है।

उदाहरण के लिए, गहन शोध के लिए मॉडल को दर्जनों वेबसाइटों की सामग्री को पढ़ने की आवश्यकता होती है, और प्रसंस्करण का समय दसियों मिनटों के क्रम में होता है, जो लंबे टेक्स्ट के लिए एक आवेदन दिशा हो सकती है।

CoT के बाद अगला बड़ा काम क्या हो सकता है?

हमने इस बारे में सोचा है। सबसे पहले, वर्तमान तर्क मॉडल अपेक्षाकृत लोकप्रिय है, और इस वर्ष मुख्यधारा अभी भी तर्क भाग होगी। उसके बाद, हमें शुद्ध भाषा मॉडल के भविष्य में किसी भी विशेष रूप से बड़े बदलाव के बारे में सोचना मुश्किल है।

मैंने अन्य शिक्षकों से भी बात की है, और उनकी भावना यह है कि हर कोई मॉडल की लागत को फिर से कम कर देगा, ताकि तर्क की गति तेज और तेज हो जाए, और इसकी कीमत कम और कम हो जाए, और प्रभाव को बनाए रखते हुए लागत कम हो जाए।

क्योंकि सीमा जल्दी आ रही है, अधिकांश मामले बड़े मॉडल की क्षमताओं में अंतराल की जांच और भरना है। लेकिन अगर और भी बड़ी तकनीकी सफलताएं हैं, तो वे अल्पावधि में अपेक्षाकृत दुर्लभ हो सकती हैं, और हमने उन्हें अभी तक नहीं देखा है।

मिनीमैक्स द्वारा रैखिक ध्यान का पता लगाने के बाद, पता लगाने की अगली दिशा क्या हो सकती है?

अगली बात मल्टीमॉडल के आर्किटेक्चर का पता लगाना हो सकता है, विशेष रूप से क्या हम इस मूल पीढ़ी और समझ को एकीकृत बड़े मॉडल आर्किटेक्चर को करना चाहते हैं।

एजीआई को अंतिम बिंदु के रूप में, O(n²) या O(n) की कम्प्यूटेशनल जटिलता वाला कौन सा मॉडल बेहतर उत्तर होगा?

बेशक, यह O(n) है। मानववाद के दृष्टिकोण से, लोग O(n) जटिलता के होने चाहिए। उदाहरण के लिए, यदि किसी व्यक्ति की जटिलता O(n²) है, तो जिस गति से मैं आपसे बात करता हूं वह धीमी और धीमी हो जाएगी।

क्योंकि ट्रांसफार्मर के लिए, इसकी अनुमानित जटिलता O(n²) कम्प्यूटेशनल जटिलता है, यानी पहले टोकन को बाहर निकालने और 100 वें टोकन को बाहर निकालने की विलंबता अलग है।

हम इंसान ऐसी चीज की कल्पना नहीं कर सकते हैं, क्योंकि लोग पैदा होने के बाद से कभी फिर से शुरू नहीं हुए हैं, और हर समय चीजें उगलते रहे हैं, इसलिए लोगों की कम्प्यूटेशनल जटिलता स्थिर है।

क्या मनुष्य आवश्यक रूप से बुद्धि के लिए इष्टतम समाधान है?

हम अभी केवल ऐसा ही सोच सकते हैं। कुछ लोग बायो-इंटेलीजेंस का मार्ग भी कर रहे हैं, लेकिन हमने उन दिशाओं पर ज्यादा ध्यान नहीं दिया है।

एजीआई को अंतिम खेल के रूप में, मॉडल सुधार के कौन से क्षेत्र सबसे महत्वपूर्ण चीजें हैं?

भाषा मॉडलिंग के अलावा, सीखने के तरीकों की समस्या भी है। आप कैसे सीखते हैं, और पर्यावरण से सीखते हैं, पर्यावरण के साथ बातचीत से सीखना बहुत महत्वपूर्ण है। आखिरकार, वर्तमान मल्टीमॉडल समझ में अभी भी डेटा की बहुत कमी है।

और यहां तक कि मशीनों की कुछ-शॉट लर्निंग को वर्तमान में लेबल किया गया है, लेकिन मानव सीखने को अनलेबल किया गया है। इसलिए एक स्व-निर्मित ढांचे के तहत सब कुछ कैसे एकीकृत किया जाए यह भी एक समस्या है।