MiniMax-01 கட்டிடக்கலையின் தலைவர் ஜாங் யிரானுடனான உரையாடல்: நேர்கோட்டு கவனத்தின் பயணம் மற்றும் மாதிரி கட்டிடக்கலை குறித்த அவரது எண்ணங்கள்.
ஒரு வழக்கத்திற்கு மாறான தொழில்நுட்ப பாதையில் முன்னோடி
உங்களைப் பற்றி சுருக்கமாக அறிமுகப்படுத்த முடியுமா?
நான் ஜாங் யிரான், MiniMax நிறுவனத்தில் மூத்த ஆராய்ச்சி இயக்குநராக இருக்கிறேன். இங்கு நான் முதன்மையாக நெட்வொர்க் கட்டமைப்புகள் மற்றும் பல்லூடக புரிதல் பெரிய மாதிரிகளின் வடிவமைப்பை மேற்பார்வையிடுகிறேன். MiniMax இல், MiniMax-01 நெட்வொர்க் கட்டமைப்பை வடிவமைப்பதை வழிநடத்துவது எனது முக்கிய பொறுப்பு.
முன்னதாக, நான் ஷாங்காய் செயற்கை நுண்ணறிவு ஆய்வகத்தில் புதிய கட்டிடக்கலை ஆய்வு குழுவிற்கு ஒரு PI ஆக பணியாற்றினேன். அங்கு நான் டிரான்ஸ்ஃபார்மர் அல்லாத கட்டமைப்புகளுக்கான திறமையான பயிற்சி மாடலிங் முறைகள் மற்றும் காட்சி-ஒலி-மொழி பல்லூடக இணைவு பற்றிய ஆராய்ச்சியில் கவனம் செலுத்தினேன்.
நேர்கோட்டு கவனம் குறித்து நீங்கள் எப்போது ஆராய்ச்சி செய்யத் தொடங்கினீர்கள், இந்த தொழில்நுட்ப பாதையை ஏன் தேர்ந்தெடுத்தீர்கள்?
நான் ஜூலை 2021 வாக்கில் நேர்கோட்டு கவனம் குறித்து ஆராய்ச்சி செய்யத் தொடங்கினேன். இது 2020 இல் எனது PhD க்காக நான் எழுதிய “இன்வெர்ட்டபிள் அட்டென்ஷன்” என்ற ஆய்வுக் கட்டுரையிலிருந்து உருவானது. அந்த நேரத்தில், மாற்றியமைக்கக்கூடிய நரம்பியல் நெட்வொர்க்குகள் மற்றும் கவனம் வழிமுறைகள் இரண்டும் மிகவும் பிரபலமாக இருந்தன, எனவே நாங்கள் அவற்றை எங்கள் ஆராய்ச்சியில் இணைத்தோம்.
பின்னர், எங்கள் குழுவின் சில உறுப்பினர்கள் கணிதத்தில் மிகவும் ஆர்வமாக இருந்தனர். நேர்கோட்டு கவனம் போன்ற திறமையான வரிசை மாடலிங் முறைகளுக்கு வலுவான கணித அடித்தளம் தேவைப்படுகிறது, மேலும் ஏராளமான சூத்திரங்கள் இதில் அடங்கும். இது குழுவின் ஆர்வங்களுடன் சரியாக ஒத்துப்போனதால், நாங்கள் இந்த திசையைத் தேர்ந்தெடுத்தோம்.
அந்த நேரத்தில் நேர்கோட்டு கவனத்தின் நிலை என்ன?
இது மிகவும் முக்கியமற்றதாக இருந்தது. மிகச் சிலரே இதில் பணிபுரிந்தனர். பெரும்பாலான ஆராய்ச்சியாளர்கள் டிரான்ஸ்ஃபார்மர்களில் கவனம் செலுத்தினர். அது NLP இல் ஆதிக்கம் செலுத்தும் சக்தியாக மாறியிருந்தது.
டிரான்ஸ்ஃபார்மர் ஆராய்ச்சியில் இன்னொரு முகமாக இருப்பதை விட, வித்தியாசமான ஒன்றைச் செய்ய வேண்டும் என்று நாங்கள் நினைத்தோம்.
நேர்கோட்டு கவன பாதையின் தொழில்நுட்ப திறனை நீங்கள் எப்படி மதிப்பிட்டீர்கள்?
எங்கள் ஆரம்ப உந்துதல் நேரடியானது: டிரான்ஸ்ஃபார்மர்களின் இருபடி கணக்கீட்டு சிக்கலைத் தீர்ப்பது. நாங்கள் ஸ்பார்ஸ் டிரான்ஸ்ஃபார்மர்கள் மற்றும் லீனியர் அட்டென்ஷன் உள்ளிட்ட பல்வேறு முறைகளை சோதித்தோம்.
ஸ்பார்ஸ் டிரான்ஸ்ஃபார்மர்கள் வேலை செய்தன. இது வேகமான வேகம் மற்றும் டிரான்ஸ்ஃபார்மர்களுடன் ஒப்பிடும்போது குறைந்த மெமரி பயன்பாட்டை அளித்தது. இருப்பினும், லீனியர் அட்டென்ஷன் மோசமாக செயல்பட்டது மற்றும் மெதுவாகவும் இருந்தது. இருந்தபோதிலும், நாங்கள் லீனியர் அட்டென்ஷனைத் தொடர முடிவு செய்தோம்.
ஒரு காரணம் அதன் கணித ஈர்ப்பு - அதன் செயல்திறன் சிறப்பாக இருக்க வேண்டும் என்று நாங்கள் நம்பினோம். மற்றொன்று, ஸ்பார்ஸ் அட்டென்ஷனின் மேல் வரம்பு முழு கவனமாக இருக்கும் என்று நாங்கள் நினைத்தோம். அதை மீறுவது கடினம். மறுபுறம், நேர்கோட்டு கவனம் அதை மீறக்கூடிய திறனைக் கொண்டிருந்தது.
நேர்கோட்டு கவனம் என்றால் என்ன என்பதை விளக்க முடியுமா?
நேர்கோட்டு கவனம் என்பது அடிப்படையில் ஒரு கர்னல் தந்திரம். டிரான்ஸ்ஃபார்மர்களில், Q, K மற்றும் V மேட்ரிக்ஸ்களை பெருக்குவது, நீங்கள் முதலில் QK ஐ பெருக்குகிறீர்களா அல்லது KV ஐ பெருக்குகிறீர்களா என்பதைப் பொறுத்து வெவ்வேறு கணக்கீட்டு சிக்கல்களை உள்ளடக்கியது. இதற்குக் காரணம் அவற்றின் பரிமாணங்கள் வேறுபட்டவை.
முதலில் KV ஐ பெருக்குவது கணக்கீட்டு சிக்கலை நேர்கோடாக குறைக்க முடியும். இருப்பினும், QK பெருக்கலைத் தொடர்ந்து சாஃப்ட்மேக்ஸ் செயல்பாடு செய்யப்படுகிறது. இது கம்யூடேடிவ் பண்பை பூர்த்தி செய்யாது மற்றும் KV ஐ முதலில் பெருக்குவதாக எளிதில் பிரிக்க முடியாது. எனவே, நேர்கோட்டு கவனத்தின் முதல் படி சாஃப்ட்மேக்ஸை அகற்றுவதாகும்.
ஆனால் softmax ஐ அகற்றுவது முடிவுகளை பாதிக்கிறது. அடுத்த பணி softmax இல்லாமல் முடிவுகளில் நிலைத்தன்மையை பராமரிப்பதாகும். நேர்கோட்டு கவனம் அதைத்தான் சாதிக்க முயல்கிறது.
நேர்கோட்டு கவனம், ஸ்பார்ஸ் கவனம் மற்றும் நேர்கோட்டு RNN கட்டமைப்புகளுக்கு இடையிலான அடிப்படை வேறுபாடுகள் என்ன?
ஸ்பார்ஸ் கவனம் இன்னும் அடிப்படையில் ஒரு சாஃப்ட்மேக்ஸ் கவனம். இது அடர்த்தியான கவன மேட்ரிக்ஸை விட குறைவான புள்ளிகளைக் கணக்கிடுகிறது. உதாரணமாக, ஸ்லைடிங் விண்டோ கவனம் ஒரு சாளரத்திற்குள் மட்டுமே கவன மதிப்பெண்ணைக் கணக்கிடுகிறது. கணக்கீட்டின் அளவைக் குறைப்பதன் மூலம் வேகத்தை அதிகரிக்கிறது.
லீனியர் RNN க்களும் லீனியர் கவனமும் அடிப்படையில் ஒரே மாதிரியானவை. சிலர் RNNகள் என்றும் மற்றவர்கள் கவனிப்பு என்றும் அழைக்கிறார்கள்.
எல்லாவற்றையும் RNN வடிவத்தில் எழுதலாம். உதாரணமாக, மின்னல் கவனம் RWKV-4 க்கு ஒத்திருக்கிறது, அதேசமயம் RWKV-7 என்பது கேடட் டெல்டா நெட்டின் மேம்படுத்தப்பட்ட பதிப்பாகும். அவை சாராம்சத்தில் ஒத்திருந்தாலும், அவற்றின் செயலாக்க விவரங்கள் வேறுபடுகின்றன.
நேர்கோட்டு கவனம் வழிமுறைகளின் ஆராய்ச்சியில் உள்ள முக்கிய மைல்கற்கள் என்ன?
சுமார் 2018-19 இல், டிரான்ஸ்ஃபார்மர் சாஃப்ட்மேக்ஸ் கவனத்தின் கணக்கீட்டு சிக்கலை கர்னல் தந்திரங்களைப் பயன்படுத்தி குறைக்க முடியும் என்று ஆராய்ச்சி காட்டியது, ஆனால் முடிவுகள் மோசமாக இருந்தன, மேலும் செயல்திறன் குறைவாக இருந்தது.
2019-20 இல், ஸ்பார்ஸ் கவனம் ஆதிக்கம் செலுத்தியது. கூகிள் போன்ற நிறுவனங்கள் பல ஸ்பார்ஸ் கவனம் வகைகளை முன்மொழிந்தன. பின்னர், நேர்கோட்டு கவனம் வெளிவரத் தொடங்கியது, ஆனால் அது மோசமான செயல்திறன் மற்றும் மெதுவான வேகம் போன்ற சவாலை எதிர்கொண்டது.
ஆராய்ச்சியாளர்கள் முக்கியமாக இரண்டு அணுகுமுறைகளை மேற்கொண்டனர்: ஒன்று சாஃப்ட்மேக்ஸ் செயல்பாட்டை தோராயமாக்குவது, விநியோகத்தை சாஃப்ட்மேக்ஸுடன் ஒத்துப்போகச் செய்வது; மற்றொன்று, நாங்கள் தேர்ந்தெடுத்தது, சாஃப்ட்மேக்ஸை தோராயமாக்குவது பற்றி கவலைப்படாமல் முற்றிலும் மாறுபட்ட முறைகளைப் பயன்படுத்தி மாடலிங் செய்வது.
நாங்கள் அக்டோபர் 2021 இல் “COSFORMER: ரீதிங்கிங் சாஃப்ட்மேக்ஸ் இன் அட்டென்ஷன்” என்ற எங்கள் முதல் ஆய்வுக் கட்டுரையை வெளியிட்டோம். இது softmax செயல்பாட்டை கொசைன் செயல்பாட்டால் மாற்றியது, கணக்கீட்டைப் பிரிக்க அனுமதித்தது.
2022 ஆம் ஆண்டின் முதல் பாதியில், “தி டெவில் இன் லீனியர் டிரான்ஸ்ஃபார்மர்” என்ற இரண்டாவது ஆய்வுக் கட்டுரையை வெளியிட்டோம். இது நேர்கோட்டு கவனத்தின் செயல்திறன் குறைவதற்கான காரணங்களை பகுப்பாய்வு செய்து தீர்வுகளை வழங்கியது. இது மின்னல் கவனத்திற்கான முன்னோடியாக இருந்தது.
பின்னர், நேர்கோட்டு கவனம் மற்றும் நீண்ட சுருள் சுருக்கங்களுக்கான நிலை குறியாக்கங்களையும் நாங்கள் ஆராய்ந்தோம், TNN ஐ வெளியிட்டோம், “TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING,” இது S4 ஐப் போன்ற ஒரு முறை (மாம்பாவின் முன்னோடி).
இறுதியாக, மேம்படுத்தப்பட்ட சிதைவு முறைகள் மற்றும் நெட்வொர்க் கட்டமைப்புகள் மூலம் டிரான்ஸ்ஃபார்மர்களின் செயல்திறனுடன் பொருந்தக்கூடிய மின்னல் கவனத்தைத் தொடங்கினோம். அதை வேகமாக்க டைலிங் நுட்பத்தையும் பயன்படுத்தினோம்.
டிரான்ஸ்ஃபார்மர் அல்லாத கட்டிடக்கலை தொழில்நுட்ப வழிகள் குறித்து உங்கள் எண்ணங்கள் என்ன?
நேர்கோட்டு கவனம் உண்மையில் டிரான்ஸ்ஃபார்மர் அல்லாத முறை. தற்போது, RNN போன்ற அணுகுமுறைகள் தவிர, மற்ற டிரான்ஸ்ஃபார்மர் அல்லாத கட்டமைப்புகள் குறைந்து வருகின்றன.
உதாரணமாக, நீண்ட சுருள் சுருக்கங்கள் மற்றும் பெரிய கர்னல் சுருள் சுருக்கங்கள் போன்ற CNN கள், மோசமான செயல்திறன் காரணமாக படிப்படியாக அகற்றப்பட்டதாகத் தெரிகிறது, ஆனால் அவை சில அம்சங்களில் மிகவும் வலுவானவை. அவை இன்னும் வரிசை மாடலிங்கில் சில தாக்கங்களை ஏற்படுத்துகின்றன, அதாவது ஒழுங்கின்மை கண்டறிதல் பணிகள்.
உண்மையில், மூன்று டிரான்ஸ்ஃபார்மர் அல்லாத கட்டமைப்புகள் மட்டுமே உள்ளன: நேர்கோட்டு கவனம், நீண்ட சுருள் சுருக்கங்கள் மற்றும் நேர்கோட்டு RNNகள்.
ஆனால் உண்மையில், இந்த மூன்றையும் ஒன்றாக இணைக்க முடியும், அதை நாங்கள் நேர்கோட்டு சிக்கலான மாதிரி என்று அழைக்கிறோம். இந்த மூன்றையும் உள்ளடக்கிய ஒரு கட்டுரையை எழுதினோம்.
மின்னல் கவனம், மாம்பா மற்றும் RWKV ஆகியவற்றுக்கு இடையிலான முக்கிய வேறுபாடுகள் என்ன?
மிக முக்கிய வேறுபாடு என்னவென்றால், மின்னல் கவனம் என்பது எளிய நேர்கோட்டு கவனம். மாம்பா மற்றும் RWKV இரண்டும் தரவு சார்ந்த சிதைவைப் பயன்படுத்துகின்றன, அதேசமயம் மின்னல் கவனம் வேகத்திற்காக கைவினைப் சிதைவைப் பயன்படுத்துகிறது.
கற்றுக் கொள்ளக்கூடிய சிதைவு சிறந்த முடிவுகளை அடைய முடியும் என்றாலும், அது வேகத்தை தியாகம் செய்கிறது. உதாரணமாக, RWKV-7 கேட்டிங் டெல்டா நெட்டை விட 10-15% மெதுவாக இருக்கும், அதேசமயம் கேட்டிங் டெல்டா நெட் மின்னல் கவனத்தின் வேகத்தில் பாதி வேகத்தில் இருக்கும்.
RWKV இன் மாடலிங் விளைவு மின்னல் கவனத்தை விட உண்மையில் சிறந்தது, ஆனால் அது மெதுவாக உள்ளது மற்றும் இன்னும் மீட்டெடுக்கும் சிக்கலை தீர்க்கவில்லை.
நேர்கோட்டு கவனம் ஒரு உயர் மற்றும் சாத்தியமான மேல் வரம்பைக் கொண்டுள்ளது என்பது இப்போது தொழில் ஒருமித்த கருத்தா?
இல்லை, அது ஒருமித்த கருத்தாக இருந்தால், அனைவரும் நேர்கோட்டு கவன மாதிரிகளை பெரிதாக்குவார்கள். அது இப்போது ஒருமித்த கருத்தும் இல்லை. அப்படியிருந்தால், எல்லோரும் நேர்கோட்டுடன் இருப்பார்கள், ஆனால் நீங்கள் பார்க்க முடியும், அது அப்படி இல்லை.
ஆனால் எங்களைப் பொறுத்தவரை, இதை 2023 ஆம் ஆண்டின் இரண்டாம் பாதியில் நாங்கள் ஏற்கனவே பார்த்தோம். அந்த நேரத்தில், நான் பலரிடம் கேட்டேன், பலருடன் பேசினேன், அவர்கள் எழுப்பிய பொதுவான கருத்து என்னவென்றால், நேர்கோட்டு கவனம் சிறிய அளவில் வேலை செய்யும் என்று அவர்களுக்குத் தெரியும், ஆனால் அது பெரிதாக்கப்பட்டவுடன் தோல்வியடையும் என்று அவர்கள் நினைத்தார்கள்.
அந்த நேரத்தில், அதை அனைவருக்கும் பார்க்கும்படி பெரிதாக்குவேன் என்று நினைத்தேன். இப்போது MiniMax-01 வெளியானதால், ஒரு பெரிய அளவில் நேர்கோட்டு கவனத்தின் திறனை யாரும் சந்தேகிக்கவில்லை.
சிறிய சோதனைகளிலிருந்து பெரிய அளவிலான செயலாக்கம் வரை
நேர்கோட்டு கவனத்தின் மேல் வரம்பு முழு கவனத்தையும் மீற முடியும் என்று நினைக்கிறீர்களா?
கலப்பின கட்டமைப்புகள் தூய டிரான்ஸ்ஃபார்மர்களை விட சிறந்தவை என்பதை இப்போது நாம் காணலாம். ஆனால் தூய நேர்கோட்டு கவனத்தில் உள்ள மிகப்பெரிய பிரச்சனை மீட்டெடுக்கும் திறன். அது கல்வி உலகம் தீர்க்க கடினமான பிரச்சனை.
தற்போதுள்ள முறைகள் சிக்கலானதாகவும் மெதுவாகவும் இருந்தாலும், இன்னும் அதை முழுமையாக தீர்க்க முடியவில்லை. அதனால்தான் கலப்பின கட்டமைப்புகளை நோக்கி நகர வேண்டியது அவசியம்.
ஆய்வகத்திலிருந்து வெளியே வர நீங்கள் முடிவு செய்த என்ன முனையை கவனித்தீர்கள்?
மே-ஜூன் 2023 இல், எங்களிடம் ஏற்கனவே மின்னல் கவனம் 2 உள்நாட்டில் இருந்தது, இது ஃபிளாஷ் கவனத்தை விட வேகமான உலகின் முதல் நேர்கோட்டு கவன செயலாக்கம் ஆகும்.
இது தொழில்துறை சிவப்பு கோட்டை கடந்துவிட்டது என்றும், அதன் தொழில்நுட்ப முதிர்ச்சி மிக அதிகமாக உள்ளது என்றும், அதை விரிவாக்க முடியும் என்றும் நாங்கள் நம்புகிறோம்.
இந்த தொழில்துறை சிவப்பு கோட்டை எப்படி வரையறுக்கிறீர்கள்?
முதலாவதாக, விளைவு டிரான்ஸ்ஃபார்மரை விட சிறந்தது, இரண்டாவதாக, இது டிரான்ஸ்ஃபார்மரை விட வேகமானது. இது டிரான்ஸ்ஃபார்மரை மாற்றும் திறனை அளிக்கிறது. அதை 15B அளவிலான அடர்த்தியான மாடலில் அந்த நேரத்தில் சரிபார்த்தோம்.
ஆய்வகத்திலிருந்து நீங்கள் வெளியே வந்த முனையில், நீங்கள் ஏன் இறுதியாக MiniMax உடன் சேர்ந்தீர்கள்?
உண்மையில், அந்த நேரத்தில் நான் சில பெரிய நிறுவனங்களுடன் பேசியிருந்தேன். ஆனால் இறுதியில், இதை நான் MiniMax உடன் நடக்க வைத்தேன்.
முதலாவதாக, cosformer என்பது நான் ஜுன்ஜியுடன் இணைந்து எழுதிய ஒரு கட்டுரை. எங்களுக்கு ஒத்துழைப்புக்கான அடித்தளம் உள்ளது. ஜுன்ஜி சென்ஸ்டைமில் இருந்தபோது என் முதலாளியாக இருந்தார். 23 ஆம் ஆண்டின் இறுதியில், ஜுன்ஜி என்னை இரவு உணவிற்கு அழைத்தார். இந்த அதிநவீன தொழில்நுட்பங்களின் சாத்தியக்கூறுகளில் அவர் அதிக நம்பிக்கை கொண்டுள்ளார். அந்த நேரத்தில் அவர் ஒரு தொழில்நுட்ப முன்னேற்றத்தை தேடிக் கொண்டிருந்தார் என்று நான் புரிந்து கொண்டேன்.
அந்த நேரத்தில், MiniMax Moe குறித்த ஆராய்ச்சியை முடித்திருந்தது, மேலும் அடுத்த கட்டத்திற்கு மிகக் குறைவான தொழில்நுட்ப முன்னேற்ற புள்ளிகளே இருந்தன. அந்த நேரத்தில், மின்னல் கவனம் வெளியிடப்பட்டது, மேலும் மாம்பாவும் பிரபலமாக இருந்தது, எனவே அவர் பார்வையில், இது ஒரு சாத்தியமான திசையாக இருந்தது.
இது MiniMax இன் ஊடாடும் துணை தயாரிப்புடன் தொடர்புடையதா?
எந்த தொடர்பும் இல்லை. யான் ஜுன்ஜி மாடலின் மேல் வரம்பு மற்றும் இந்த வரம்பை மேலும் எப்படி உடைப்பது என்பதில் அதிக அக்கறை கொண்டுள்ளார்.
நேர்கோட்டு கவனம் பொது பார்வையில் செயல்திறனை உடைப்பதற்கான ஒரு திசையாக இருக்கலாம், ஆனால் வரம்பை உடைக்காது.
இங்குள்ள விஷயம் என்னவென்றால், முதலாவதாக, ஒவ்வொரு உற்பத்தியாளரின் கணக்கீட்டு சக்தியும் மாறாதது. மாடலை எவ்வளவு வேகமாக துரிதப்படுத்த முடியுமோ, அவ்வளவு தரவை அது சாப்பிட முடியும், மேலும் தயாரிக்கப்பட்ட மாதிரி சிறந்தது. கணக்கீட்டு சக்தி மாறாமல் இருக்கும்போது, மாதிரி எவ்வளவு வேகமாக இருக்கிறதோ அவ்வளவு நல்லது.
தரவு உச்சத்தை எட்டிய ஒரு சூழ்நிலையை நீங்கள் கவனித்திருக்கிறீர்களா?
இன்னும் இல்லை, இல்லையா? தரவு இன்னும் தொடர்ச்சியான அளவிடுதல் கட்டத்தில் உள்ளது, ஆனால் அது 23 இல் இருந்த அளவுக்கு ஆக்கிரமிப்பு இல்லாமல் இருக்கலாம்.
ஏனெனில் தரவு எப்போதும் அதிகரித்துக்கொண்டே இருக்கிறது, மேலும் ஒவ்வொரு நாளும் புதிய தரவு வெளிவருகிறது. மாடலைப் பொறுத்தவரை, ஒவ்வொரு நாளும் செயலாக்க புதிய தரவு உள்ளது. ஒவ்வொரு நாளும் இணையம் உருவாக்கும் தரவு மிகவும் அதிகம். சுத்தம் செய்வதன் மூலம், நாம் இன்னும் புதிய தரவை வெளியே எடுக்க முடியும்.
மனித வளர்ச்சியின் பல ஆண்டுகளாக இருந்த தரவுடன் ஒப்பிடும்போது, தரவு வளர்ச்சி விகிதம் குறைந்துவிட்டதா?
உண்மையில், தேவையில்லை. சீனாவின் ஐயாயிரம் ஆண்டுகால வரலாற்றைப் பாருங்கள், அந்த சில புத்தகங்கள் மட்டுமே குவிந்துள்ளன. ஆனால் இணையத்தின் வளர்ச்சியுடன், தரவு அளவின் அதிகரிப்பு மிகவும் செங்குத்தான வளைவு. இணையத்திற்கு முன்பு உருவாக்கப்பட்ட ஒட்டுமொத்த தரவு, பின்னர் ஒரு வருடத்தில் உருவாக்கப்பட்ட தரவுக்கு சமமாக இருக்காது.
அளவிடுதல் செயல்பாட்டின் போது, மின்னல் கவனம் என்ன சவால்களை எதிர்கொண்டது?
அதன் அளவிடக்கூடிய திறனைச் சரிபார்க்க, நாங்கள் முதலில் அளவிடுதல் விதி சோதனைகளைச் செய்தோம், சிறிய மாடல்களில் இருந்து படிப்படியாக 7B, 9B வரை விரிவுபடுத்தி, இறுதியாக 400B க்கும் அதிகமான மாடல்களுக்கு அளவிட்டோம்.
மேலும் நேர்கோட்டின் திறன் டிரான்ஸ்ஃபார்மரை விட பெரியது என்பதை நாங்கள் கோட்பாட்டளவில் நிரூபித்தோம்.
தற்போதைய RNN இன் நிலைகளின் அளவை திறனாக வரையறுக்கிறோம். டிரான்ஸ்ஃபார்மருக்கு, திறன் அளவு O(d), d என்பது அளவு; நேர்கோட்டு கவனத்திற்கு, திறன் அளவு d²/h. d ஆனது h ஐ விட மிகப் பெரியதாக இருப்பதால், திறன் அதிகமாக இருக்கும்.
இறுதியில், கலப்பின மாதிரி தூய டிரான்ஸ்ஃபார்மரை விட சிறந்தது என்பதையும் நாங்கள் சரிபார்த்தோம்.
4M நீள வரிசை சாளரம் எப்படி அடையப்படுகிறது?
மின்னலுக்கு, பயிற்சி நீளம் தன்னிச்சையாக இருக்கலாம். கணக்கீட்டு சக்தியை முழுமையாகப் பயன்படுத்தும் வரை, 8K, 32K அல்லது 128K பயிற்சி வேகம் ஒரே மாதிரியாக இருக்கும், மேலும் TGS (ஒரு GPU க்கு ஒரு டோக்கன்) ஒரே மாதிரியாக இருக்கும்.
டிரான்ஸ்ஃபார்மர் என்பது n² கணக்கீட்டு சிக்கலாகும் என்பதால், வரிசை எவ்வளவு நீளமாக இருக்கிறதோ, அவ்வளவு வேகமாக கணக்கீட்டு சிக்கல் வளரும், மேலும் தாமதம் இருபடி வளைவில் அதிகரிக்கும். 1M நீளத்தில், சாஃப்ட்மேக்ஸ் கவனத்தின் தாமதம் மின்னல் கவனத்தை விட 2,700 மடங்கு அதிகமாகும்.
எதிர்காலத்தில் எல்லையற்ற சூழல் சாளரத்தை அடைய இன்னும் என்ன தொழில்நுட்ப சவால்களை எதிர்கொள்ள வேண்டும்?
எங்கள் தற்போதைய கலப்பின கட்டமைப்பில், இன்னும் 1/8 சாஃப்ட்மேக்ஸ் கவனம் உள்ளது. இது 1M நீளத்தில் ஒரு தடையாக உள்ளது. இந்த 1/8 ஆல் ஏற்படும் தாமதம் மீதமுள்ள 7/8 நேர்கோட்டு கவனத்தை விட அதிகமாக உள்ளது.
நாங்கள் நீண்ட உரையை மேம்படுத்த விரும்பினால், சாஃப்ட்மேக்ஸ் கவனம் பகுதியை மேம்படுத்துவதைக் கருத்தில் கொள்ள வேண்டும். அதை வேகமாகவும் இலகுவாகவும் மாற்ற ஸ்பார்ஸ் கவன முறைகளிலிருந்து கற்றுக்கொள்ளலாம்.
கூடுதலாக, சாஃப்ட்மேக்ஸ் மற்றும் நேர்கோட்டு கவனத்தின் கலவை விகிதத்தை இன்னும் தீவிரமாக்க நாங்கள் கருதுகிறோம். இனி 1/8 இல்லை, ஆனால் 1/16 அல்லது 1/32 ஆக இருக்கலாம். மிகவும் தீவிரமான தீர்வு என்னவென்றால், முழு மாடலிலும் ஒரு அடுக்கு சாஃப்ட்மேக்ஸை வைப்பது, ஆனால் காப்பீட்டிற்காக, நாங்கள் அதை ஏற்றுக்கொள்ளவில்லை, முக்கியமாக மீட்டெடுக்கும் திறனில் ஏற்படும் தாக்கத்தைக் கருத்தில் கொண்டு.
மீட்டெடுக்கும் திறன் ஏன் மாடலுக்கு மிகவும் முக்கியமானது?
மீட்டெடுப்பு என்பது சூழலுக்குள் கற்றலுக்கான அடிப்படையாகும் மற்றும் ஒரு தேவையான நிபந்தனையாகும்.
சூழலில் உள்ள தகவலை நீங்கள் சூழலுக்குள் கற்றல் செய்ய நினைவில் வைத்திருக்க வேண்டும், மேலும் சூழலுக்குள் கற்றல் என்பது நடப்பு பெரிய மாதிரிகளின் அனைத்து மேம்பட்ட திறன்களுக்கான அடிப்படையாகும். CoT (செயல்பாட்டு சங்கிலி) குறிப்பாக நீண்ட CoT போன்றவை மீட்டெடுக்கும் திறனை நம்பியுள்ளன.
தீர்க்கமான புதிய கட்டமைப்பு
FFN மற்றும் தொழில்துறையில் கவனத்திற்கான சமீபத்திய கட்டிடக்கலை மேம்பாடுகளில் கவனம் செலுத்தியிருக்கிறீர்களா?
FFN இன் முன்னேற்றம் Moe ஆகும். நான் பைட்டின் அல்ட்ரா மெம்மிலும் கவனம் செலுத்தினேன். ஆனால் அது ஒரு இழப்பு, ஒரு இழப்பு சுருக்கம் என்று நினைக்கிறேன். எதிர்காலத்தில் அதை அளவிடுவதற்கு சிக்கல்கள் இருக்கலாம். ஆனால் நாங்கள் அளவிடவில்லை. அதனால் சிக்கல்கள் இருக்கலாம் என்று மட்டும் சொல்ல முடியும்.
ஏனெனில் FFN அடிப்படையில் இவைதான். Moe பகுதியில் உள்ள எங்கள் மேம்பாடுகள் முந்தைய பெரிய நிபுணரிலிருந்து தற்போதைய சிறிய நிபுணர் பயன்முறையாக மாற்றுவது, அதை இன்னும் அரிதாக்குவது மற்றும் சில துரிதப்படுத்துதல் ஆகியவற்றைக் காட்டிலும் வேறு ஒன்றும் இல்லை. இதற்கு மேலும் ஆராய்ச்சி தேவைப்படுகிறது.
அதை மேலும் மேம்படுத்த விரும்பினால், FFN என்பது மேட்ரிக்ஸ் பெருக்கல் என்பதால், மேட்ரிக்ஸ் பெருக்கலின் அடிப்படையான மேம்பாடுகளைச் செய்வதன் மூலம் CUDA அளவில் Nvidia மட்டுமே மேம்படுத்த முடியும்.
தொழில்துறையில் கவனம் கட்டிடக்கலையில் உள்ள மேம்பாடுகளில் கவனம் செலுத்தியிருக்கிறீர்களா?
கவனத்திற்கான மேம்பாடுகள் அடிப்படையில் நேர்கோட்டு. எதிர்காலத்தில் ஒரு வலுவான நேர்கோட்டை உருவாக்க வேண்டுமா என்று நாங்கள் யோசித்து வருகிறோம். தற்போதைய அடிப்படையில் நேர்கோட்டு கவனத்தை மேலும் துரிதப்படுத்தவும் கருதுகிறோம்.
மேம்படுத்துவதற்கு பல வழிகள் உள்ளன. ஒன்று சிதைவை மாற்றுவது, மற்றொன்று உள்ளே சில சிறிய தந்திரங்களை மாற்றுவது. எங்கள் புதிய கட்டுரையை நீங்கள் எதிர்பார்க்கலாம்.
எங்கள் தற்போதைய சூழல் நீளம் மற்றும் உய்த்துணர்வு செலவு விகிதம் ஒப்பீட்டளவில் மேம்பட்டதா?
அது வரிசை நீளத்தை நீட்டிப்பதை உள்ளடக்கியவுடன், எங்களுக்கு ஒரு மிகத் தெளிவான கணக்கீட்டு சக்தி செலவு நன்மை உள்ளது. அது எவ்வளவு நீளமாக இருக்கிறதோ, அவ்வளவு தெளிவான செலவு நன்மையாக இருக்கும். இது உய்த்துணர்வு அல்லது பயிற்சி எதுவாக இருந்தாலும் சரியே.
உதாரணமாக, 1M இல், நேர்கோட்டு கவனத்தால் நுகரப்படும் கணக்கீட்டு சக்தி முழு கவனத்தின் 1/2700 ஆகும். ஒப்பிடுகையில், எங்களிடம் இன்னும் 1/8 முழு கவனம் இருப்பதால், அது அடிப்படையில் டிரான்ஸ்ஃபார்மர் கட்டமைப்பில் 1/8 ஆகும். ஏனெனில் நேர்கோட்டு கவனம் அடிப்படையில் ஒரு செலவாக கருதப்படுவதில்லை.
கணக்கீட்டு செலவு மிகவும் குறைவாக இருந்தால், அது ஒரு கணக்கீட்டு தடையாக அடைய முடியுமா?
இப்போது அது உண்மையில் ஒரு நினைவக அணுகல் தடையாக உள்ளது. டிகோடிங் என்பது ஒரு நினைவக அணுகல் தடை. இது ஒரு கணக்கீட்டு தடை அல்ல. ஏனெனில் மின்னல் மிகவும் வேகமாக உள்ளது. கணக்கீட்டிற்கு குறைவாக வளங்களை ஆக்கிரமிக்க நினைவக அணுகலை அனுமதிக்க மிகவும் வேகமாக உள்ளது. இது முக்கியமாக உண்மையான பயன்பாடுகளில் வரிசை நீளம் போதுமானதாக இல்லாததால்தான்.
எதிர்காலத்தில் அதை ஒரு கணக்கீட்டு தடையாக மாற்றுவது எப்படி என்பது நினைவக அணுகலை மேம்படுத்துவதை சார்ந்துள்ளது. இவை பொறியியல் துறை பொறுப்பேற்க வேண்டிய விஷயங்களாக இருக்கும்.
நேர்கோட்டு கட்டமைப்பு அடுத்த தலைமுறையின் முக்கிய கட்டமைப்பாக மாறினால், அதற்கு எந்த வன்பொருள் தழுவல் மேம்பாடுகள் மிகவும் பொருத்தமானதாக இருக்கும்?
இங்கு ஒரு மிக மோசமான விஷயம் என்னவென்றால், வரிசை நீளத்தை நாம் கருத்தில் கொள்ள வேண்டும். உங்கள் வரிசை நீளம் 8K அல்லது 32K இல் கவனம் செலுத்தியிருந்தால், கவனம் பத்துக்கும் மேற்பட்ட சதவீதத்தை மட்டுமே கணக்கில் எடுக்கும், மீதமுள்ள எண்பது சதவீதம் FFN பகுதியாகும்.
கவனத்தை நீங்கள் உச்சத்திற்கு மேம்படுத்தினாலும், 0 க்கு செய்தாலும், பதினோரு சதவீத தாமதத்தை மட்டுமே மேம்படுத்தியுள்ளீர்கள். ஆனால் நீங்கள் வரிசை நீளத்தை நீட்டித்தால், கவனத்தின் விகிதம் பெரிதாகிக் கொண்டே இருக்கும். இது முழு கவனத்துடன் ஒப்பிடப்படுகிறது. ஆனால் நேர்கோட்டு கவனத்திற்கு, அதன் விகிதம் மாறாமல் உள்ளது.
ஏனெனில் FFN நேர்கோட்டானது, மேலும் நேர்கோட்டு கவனம் நேர்கோட்டானது, அதன் விகிதம் சுமார் 10% ஆகும். இது கிட்டத்தட்ட மாறாமல் உள்ளது. 1M விஷயத்தில் கூட இது பொருந்தும்.
ஆனால் அது முழு கவனமாக இருந்தால், கவனம் கணக்கீடு 99% ஆக இருக்கலாம். அதைத் தொடர்ந்து வரும் FFN 1% மட்டுமே கணக்கில் எடுத்துக் கொள்ளப்படும். எனவே நேர்கோட்டு கவனம் நீண்ட நூல்களில் மட்டுமே நன்மைகளைக் கொண்டுள்ளது.
நேர்கோட்டு கட்டமைப்பு முக்கியமாக மாறினால், குறைந்த ஆற்றல் கொண்ட வன்பொருளை நாடலாம். ஆற்றல் நுகர்வை மட்டும் குறைக்கலாம். ஸ்பைக்கிங் நியூரல் நெட்வொர்க் (SNN) சிப்ஸ் மிகவும் பொருத்தமானதாக இருக்கலாம். சிலர் அதைச் செய்து வருகின்றனர்.
AGIக்கான பாதையை எதிர்நோக்கி
மாதிரி திறந்த மூல விளைவு குறித்து உங்கள் எதிர்பார்ப்புகள் என்ன?
முதலாவது விளம்பர விளைவு. சில தசைகளை காட்டுவதோடு கூடுதலாக, அனைவருக்கும் எதிர்காலத்தில் அதை எப்படி பயன்படுத்த முடியும் என்பதைப் பார்ப்பது திறந்த மூலத்திற்கு மிக முக்கியமானது என்று தனிப்பட்ட முறையில் நினைக்கிறேன். சிறிய மாதிரி திறந்த மூலத்தை எதிர்காலத்தில் நாங்கள் அதிகம் கருத்தில் கொள்ளக்கூடும் என்று நினைக்கிறேன்.
அனைவருக்கும் அதை சிறப்பாகச் செய்ய சில உள்கட்டமைப்பை எப்படி உருவாக்குவது என்பதையும் கருத்தில் கொள்ள வேண்டியிருக்கலாம். திறந்த மூலம் என்பது எதிர்காலத்தில் எங்களுக்கு நீண்ட கால விஷயம், மேலும் முதன்மையான மாதிரிகள் தொடர்ந்து திறந்த மூலமாக இருக்க வேண்டும்.
கலப்பினமற்ற தூய-இரத்த கட்டமைப்பு எதிர்காலத்தில் வெளிவர வாய்ப்புள்ளதா?
தற்போது, கலப்பினத்தை விட சிறப்பாகச் செய்யக்கூடிய முறை எதுவும் இல்லை. குறிப்பாக வேகத்தைப் பொறுத்தவரை. சாஃப்ட்மேக்ஸ் கவனத்தின் ஒரு சிறிய பகுதியைச் சேர்ப்பதன் மூலம் வரிசை நீளம் குறிப்பாக நீளமாக இல்லாதபோது வேக நன்மை மிகவும் தெளிவாக உள்ளது. குறிப்பாக ஃபிளாஷ் கவனம் தோன்றிய பிறகு இது உண்மை.
தூய-இரத்த கட்டமைப்பு குறித்த ஆராய்ச்சி இன்னும் நடந்து கொண்டிருக்கிறது, ஆனால் அது மிகவும் கடினமானது, மேலும் குறைவாகத் தொங்கும் பழங்கள் எதுவும் இல்லை. எங்களிடம் சில தொழில்நுட்ப தீர்வுகள் உள்ளன. ஆனால் செயலாக்கம் எளிமையானது அல்ல. இறுதியில் நாம் எவ்வளவு நீண்ட வரிசை நீளத்தை அடைய வேண்டும் என்பதைப் பொறுத்தது.
மற்றொரு கேள்வி என்னவென்றால், அல்ட்ரா நீண்ட நூல்களுக்கு வலுவான தேவை இருக்கிறதா? கிளாட் போன்ற மாடல்கள் 200K சூழலை அடைந்திருந்தாலும், பயனர்கள் தற்போதைய நீளத்தில் மிகவும் திருப்தி அடைந்ததாகத் தெரிகிறது. ஏஜென்ட் பயன்பாடுகள் எதிர்காலத்தில் அல்ட்ரா நீண்ட வரிசைகளுக்கான தேவையை ஏற்படுத்தக்கூடும், ஆனால் இன்னும் முதிர்ச்சியான அளவுகோல் எதுவும் இல்லை.
ஆனால் இந்த பிரச்சனை Nvidia மேம்பட்ட செயல்திறன் கிராபிக்ஸ் கார்டுகளை எதிர்கால விளையாட்டுகளுக்காக உருவாக்குவது போன்றது என்று நினைக்கிறேன். இப்போது அவை தேவையில்லை என்றாலும், இது எதிர்காலத்திற்கான தொழில்நுட்பம்.
உதாரணமாக, ஆழமான ஆராய்ச்சிக்கு மாதிரி டஜன் கணக்கான வலைத்தளங்களின் உள்ளடக்கத்தைப் படிக்க வேண்டும். மேலும் செயலாக்க நேரம் பத்து நிமிடங்களுக்கு மேல் ஆகும். இது நீண்ட நூல்களுக்கான பயன்பாட்டு திசையாக இருக்கலாம்.
CoT க்கு பிறகு அடுத்த பெரிய விஷயம் என்னவாக இருக்கலாம் என்று நினைக்கிறீர்கள்?
நாங்கள் இதைப் பற்றி யோசித்தோம். முதலாவதாக, தற்போதைய பகுத்தறிவு மாதிரி ஒப்பீட்டளவில் பிரபலமாக உள்ளது. இந்த ஆண்டு முக்கியமானது பகுத்தறிவு பகுதியாக இருக்கும். அதன்பிறகு, எதிர்காலத்தில் தூய மொழி மாதிரிகளில் எந்த பெரிய மாற்றங்களையும் நினைப்பது எங்களுக்கு கடினமாக உள்ளது.
நான் மற்ற ஆசிரியர்களுடனும் பேசினேன். அவர்களின் உணர்வு என்னவென்றால், அனைவரும் மாதிரியின் செலவைக் குறைப்பார்கள். இதனால் பகுத்தறிவு வேகம் வேகமாகவும் வேகமாகவும் மாறும். மேலும் அதன் விலை குறைவாகவும் குறைவாகவும் இருக்கும். விளைவைப் பராமரிக்கும்போது செலவு குறைக்கப்படும்.
வரம்பு வேகமாக நெருங்கி வருவதால், பெரும்பாலான வழக்குகள் பெரிய மாதிரிகளின் திறன்களில் உள்ள இடைவெளிகளைச் சரிபார்த்து நிரப்புகின்றன. ஆனால் இன்னும் பெரிய தொழில்நுட்ப முன்னேற்றங்கள் இருந்தால், அவை குறுகிய காலத்தில் ஒப்பீட்டளவில் அரிதாக இருக்கலாம். அவற்றை நாங்கள் இன்னும் பார்க்கவில்லை.
MiniMax நேர்கோட்டு கவனத்தை ஆராய்ந்த பிறகு, ஆராய்வதற்கான அடுத்த திசை என்னவாக இருக்கலாம்?
அடுத்த விஷயம் பல்லூடகத்தின் கட்டமைப்பை ஆராய்வதாக இருக்கலாம். குறிப்பாக இந்த சொந்த தலைமுறை மற்றும் புரிதலை ஒருங்கிணைந்த பெரிய மாதிரி கட்டமைப்பாகச் செய்ய விரும்புகிறோமா என்பது பற்றி ஆராய்வோம்.
AGI ஒரு இறுதி புள்ளியாக இருக்கும்போது, O(n²) அல்லது O(n) கணக்கீட்டு சிக்கலான மாதிரியில் எது சிறந்த பதிலாக இருக்கும்?
நிச்சயமாக, இது O(n). மானுடவியல் கண்ணோட்டத்தில் பார்த்தால், மக்கள் O(n) சிக்கலாக இருக்க வேண்டும். உதாரணமாக, ஒரு நபரின் சிக்கலானது O(n²) ஆக இருந்தால், நான் உங்களுடன் பேசும் வேகம் மெதுவாகவும் மெதுவாகவும் மாறும்.
டிரான்ஸ்ஃபார்மரைப் பொறுத்தவரை, அதன் உய்த்துணர்வு சிக்கலானது O(n²) கணக்கீட்டு சிக்கலாகும். அதாவது, முதல் டோக்கனை உமிழ்வதற்கும் 100வது டோக்கனை உமிழ்வதற்கும் தாமதம் வேறுபட்டது.
அத்தகைய ஒரு விஷயத்தை நம்மால் கற்பனை செய்ய முடியாது, ஏனெனில் மக்கள் பிறந்ததிலிருந்து ஒருபோதும் மறுதொடக்கம் செய்யவில்லை, மேலும் எல்லாவற்றையும் தொடர்ந்து உமிழ்ந்து வருகின்றனர். எனவே மக்களின் கணக்கீட்டு சிக்கலானது மாறாமல் உள்ளது.
மனிதன் நிச்சயமாக புத்திசாலித்தனத்திற்கான உகந்த தீர்வா?
நாங்கள் தற்போது அவ்வாறுதான் நினைக்க முடியும். சிலர் பயோனிக் புத்திசாலித்தனம் பாதையை செய்து வருகின்றனர். ஆனால் நாங்கள் அந்த திசைகளுக்கு அதிக கவனம் செலுத்தவில்லை.
AGI இறுதி ஆட்டமாக இருக்கும்போது, மாதிரி மேம்பாட்டின் எந்த பகுதிகள் மிக முக்கியமானவை?
மொழி மாடலிங்கிற்கு கூடுதலாக, கற்றல் முறைகளின் பிரச்சனையும் உள்ளது. நீங்கள் எப்படி கற்கிறீர்கள் மற்றும் சூழலிலிருந்து கற்கிறீர்கள், சூழலுடன் தொடர்பு கொண்டு கற்பது மிகவும் முக்கியமானது. எல்லாவற்றிற்கும் மேலாக, நடப்பு பல்லூடக புரிதல் தரவில் மிகவும் குறைவாக உள்ளது.
இயந்திரங்களின் சில-ஷாட் கற்றல் தற்போது லேபிளிடப்பட்டுள்ளது. ஆனால் மனித கற்றல் லேபிளிடப்படவில்லை. எனவே எல்லாவற்றையும் ஒரு சுய-கட்டமைக்கப்பட்ட கட்டமைப்பின் கீழ் எவ்வாறு ஒன்றிணைப்பது என்பதும் ஒரு பிரச்சனையாகும்.