NVIDIA FFN Fusion: LLM செயல்திறன் மேம்பாடு | ta

நவீன AI-யின் கணக்கீட்டு இறுக்கமான கயிறு

பெரிய மொழி மாதிரிகள் (LLMs) சமகால செயற்கை நுண்ணறிவின் தூண்களாக நிற்கின்றன, தொழில்கள் மற்றும் அறிவியல் கண்டுபிடிப்புகளை மறுவடிவமைக்கும் குறிப்பிடத்தக்க திறன்களை வெளிப்படுத்துகின்றன. மனிதனைப் போன்ற உரையை உருவாக்குவதில் அவற்றின் திறமை, அதிநவீன உரையாடல் முகவர்களை இயக்குதல், மற்றும் சிக்கலான ஆராய்ச்சிப் பணிகளுக்கு உதவுதல் ஆகியவை அவற்றை இன்றியமையாத கருவிகளாக ஆக்கியுள்ளன. இந்த சக்திவாய்ந்த மாதிரிகளின் இதயத்தில் transformer கட்டமைப்பு துடிக்கிறது, இது அதன் மாறிவரும் அடுக்குகளால் வகைப்படுத்தப்படும் ஒரு வடிவமைப்பு. உள்ளீட்டுத் தரவு, tokens ஆக உடைக்கப்பட்டு, கவன ஈர்ப்பு வழிமுறைகளின் வரிசை வழியாகப் பாய்கிறது, இது வெவ்வேறு tokens-களின் முக்கியத்துவத்தை எடைபோடுகிறது, அதைத் தொடர்ந்து feed-forward networks (FFNs), இது பெறப்பட்ட தகவலைச் செயலாக்குகிறது. இந்த அடுக்கு, தொடர்முறை செயலாக்கம் transformers எவ்வாறு கற்றுக்கொள்கின்றன மற்றும் வெளியீட்டை உருவாக்குகின்றன என்பதற்கு அடிப்படையானது.

இருப்பினும், இந்த கட்டமைப்பு, பயனுள்ளதாக இருந்தாலும், மாதிரிகள் அளவு மற்றும் சிக்கலான தன்மையில் பெரிதாகும்போது வளர்ந்து வரும் சவாலை முன்வைக்கிறது. தொடர்முறை இயல்பு என்பது ஒவ்வொரு அடுக்கும் பொதுவாக முந்தைய அடுக்கு அதன் கணக்கீட்டை முடிக்கும் வரை காத்திருக்க வேண்டும் என்பதாகும். இந்த படிப்படியான செயலாக்கம் ஒரு உள்ளார்ந்த இடையூறை உருவாக்குகிறது, குறிப்பாக அனுமான கட்டத்தில் - பயிற்சி பெற்ற மாதிரி உண்மையில் கணிப்புகள் அல்லது உரையை உருவாக்கப் பயன்படுத்தப்படும் நிலை. மேம்பட்ட AI உதவியாளர்களை இயக்கும் மாதிரிகள் நூற்றுக்கணக்கான பில்லியன் அல்லது டிரில்லியன் கணக்கான அளவுருக்களை இணைக்கும்போது, அனுமானத்திற்குத் தேவைப்படும் கணக்கீட்டு வளங்கள் மற்றும் நேரம் வியத்தகு முறையில் அதிகரிக்கிறது. இந்த அதிகரிக்கும் தேவை குறிப்பிடத்தக்க தாமதம் (பதிலில் தாமதம்), குறைக்கப்பட்ட செயல்திறன் (காலப்போக்கில் கையாளப்படும் கோரிக்கைகளின் எண்ணிக்கை), மற்றும் அதிகரிக்கும் செயல்பாட்டுச் செலவுகள் ஆகியவற்றில் மொழிபெயர்க்கிறது, இது மிகவும் சக்திவாய்ந்த LLMs-களின் பரவலான வரிசைப்படுத்தல் மற்றும் நிகழ்நேர பயன்பாட்டைத் தடுக்கிறது. இதன் விளைவாக, அனுமான செயல்திறனை மேம்படுத்துவது AI ஆராய்ச்சி சமூகத்திற்குள் ஒரு முதன்மையான கவலையாக மாறியுள்ளது, இந்த மாதிரிகள் வழங்கும் குறிப்பிடத்தக்க செயல்திறனைக் குறைக்காமல் கணக்கீட்டை நெறிப்படுத்தக்கூடிய புதுமையான உத்திகளுக்கான தேடலைத் தூண்டுகிறது. தொடர்முறை செயலாக்கத்தால் விதிக்கப்பட்ட கட்டுப்பாடுகளைத் தணிப்பதில் மைய சவால் உள்ளது, குறிப்பாக விநியோகிக்கப்பட்ட சூழல்களில் கணக்கீடுகள் பல GPUs-களில் பரவியிருக்கும்போது, செயலாக்க நேரத்திற்கு தொடர்பு மேல்நிலையைச் சேர்க்கிறது.

மேம்படுத்தல் நிலப்பரப்பில் வழிசெலுத்தல்: இருக்கும் கருவிகள் மற்றும் அவற்றின் வரம்புகள்

LLMs-களை மெலிதாகவும் வேகமாகவும் மாற்றுவதற்கான தொடர்ச்சியான முயற்சியில், ஆராய்ச்சியாளர்கள் மேம்படுத்தல் நுட்பங்களின் ஒரு கருவித்தொகுப்பை உருவாக்கியுள்ளனர். ஒவ்வொன்றும் செயல்திறனுக்கான ஒரு பாதையை வழங்குகிறது, ஆனால் பெரும்பாலும் அதன் சொந்த சமரசங்களுடன் வருகிறது, எந்தவொரு ஒற்றை முறையையும் உலகளாவிய தீர்வாக இருப்பதைத் தடுக்கிறது. FFN Fusion போன்ற புதிய அணுகுமுறைகளின் தேவையைப் பாராட்ட இந்த வர்த்தக பரிமாற்றங்களைப் புரிந்துகொள்வது முக்கியம்.

ஒரு முக்கிய நுட்பம் quantization ஆகும். இது மாதிரியின் எடைகள் மற்றும் செயல்பாடுகளைக் குறிக்கப் பயன்படுத்தப்படும் எண் துல்லியத்தைக் குறைப்பதை உள்ளடக்குகிறது. நிலையான 32-பிட் மிதக்கும் புள்ளி எண்களைப் பயன்படுத்துவதற்குப் பதிலாக, மாதிரிகள் 16-பிட், 8-பிட் அல்லது அதற்கும் குறைவான பிட் பிரதிநிதித்துவங்களைப் பயன்படுத்தலாம். இது நேரடியாக மாதிரியின் நினைவகத் தடத்தைக் குறைக்கிறது மற்றும் கணக்கீடுகளை கணிசமாக விரைவுபடுத்தும், ஏனெனில் குறைந்த துல்லிய எண்களில் செயல்பாடுகள் பொதுவாக வேகமாகவும் குறைந்த ஆற்றலும் தேவைப்படும். இருப்பினும், quantization ஆபத்து இல்லாமல் இல்லை. துல்லியத்தைக் குறைப்பது தகவல் இழப்புக்கு வழிவகுக்கும், இது மாதிரியின் துல்லியத்தை சிதைக்கக்கூடும். இந்த ஆபத்து மிகக் குறைந்த பிட் அகலங்களில் மிகவும் வெளிப்படையாகிறது, கவனமாக செயல்படுத்தல் மற்றும் சில நேரங்களில் துல்லிய வீழ்ச்சிகளைக் குறைக்க மறுபயிற்சி தேவைப்படுகிறது. செயல்திறன் சிதைவை ஏற்றுக்கொள்ளக்கூடிய வரம்புகளுக்குள் வைத்திருக்கும்போது செயல்திறன் ஆதாயங்களை அதிகரிக்கும் இனிமையான இடத்தைக் கண்டுபிடிப்பதில் சவால் உள்ளது.

மற்றொரு பொதுவான உத்தி pruning ஆகும். இந்த நுட்பம் ஒரு பெரிய நரம்பியல் வலையமைப்பிற்குள் பல அளவுருக்கள் தேவையற்றதாக இருக்கலாம் அல்லது இறுதி வெளியீட்டிற்கு குறைந்தபட்சம் பங்களிக்கக்கூடும் என்ற கொள்கையின் அடிப்படையில் செயல்படுகிறது. Pruning வழிமுறைகள் இந்த குறைவான முக்கியமான இணைப்புகள் அல்லது நியூரான்களை அடையாளம் கண்டு அகற்றுகின்றன, இதன் விளைவாக ஒரு சிறிய, அடர்த்தி குறைந்த மாதிரி உருவாகிறது. Quantization போலவே, pruning நினைவகத் தேவைகள் மற்றும் கணக்கீட்டுச் சுமையைக் குறைக்கிறது. இருப்பினும், எந்த அளவுருக்களை அகற்றுவது “பாதுகாப்பானது” என்பதைத் துல்லியமாக அடையாளம் காண்பது சிக்கலானது. தீவிரமான pruning தற்செயலாக முக்கியமான கூறுகளை அகற்றக்கூடும், இது கணிசமான துல்லிய இழப்புக்கு வழிவகுக்கும். செயல்திறனை மீட்டெடுக்க pruning-க்குப் பிறகு மாதிரியை நுண்சீரமைப்பது பெரும்பாலும் அவசியம், இது பணிப்பாய்வுக்கு சிக்கலைச் சேர்க்கிறது. கத்தரிக்கப்பட்ட மாதிரி பயனுள்ளதாக இருப்பதை உறுதிப்படுத்த கவனமாக அளவுத்திருத்தம் அவசியம்.

ஒரு மிகவும் கட்டடக்கலை ரீதியாக வேறுபட்ட அணுகுமுறை Mixture-of-Experts (MoE) மாதிரி ஆகும். ஒவ்வொரு உள்ளீட்டையும் முழு நெட்வொர்க் வழியாகச் செயலாக்குவதற்குப் பதிலாக, MoE மாதிரிகள் பல “நிபுணர்” துணை நெட்வொர்க்குகளைக் (பொதுவாக FFNs) கொண்டுள்ளன. ஒவ்வொரு உள்ளீட்டு token-க்கும், ஒரு கேட்டிங் பொறிமுறையானது கணக்கீட்டைச் செய்ய இந்த நிபுணர்களின் ஒரு சிறிய துணைக்குழுவைத் δυναμικά தேர்ந்தெடுக்கிறது. இந்த நிபந்தனைக் கணக்கீடு என்பது மாதிரியின் மொத்த அளவுருக்களில் ஒரு பகுதி மட்டுமே எந்தவொரு உள்ளீட்டிற்கும் செயல்படுத்தப்படுகிறது என்பதாகும், இது குறிப்பிடத்தக்க கணக்கீட்டுச் சேமிப்பிற்கு வழிவகுக்கிறது, குறிப்பாக மிக பெரிய மாதிரிகளில் பயிற்சி மற்றும் அனுமானத்தின் போது. MoE மாதிரிகள் டிரில்லியன் கணக்கான அளவுருக்களுக்கு அளவிட முடியும், அதே நேரத்தில் நியாயமான கணக்கீட்டுச் செலவுகளைப் பராமரிக்கின்றன. இருப்பினும், அவற்றின் செயல்திறன் பணிச்சுமையை மிகவும் சார்ந்துள்ளது. தேர்ந்தெடுக்கப்பட்ட செயல்படுத்தல் முறை நல்ல வன்பொருள் பயன்பாட்டிற்கு வழிவகுக்கும் மிக பெரிய தொகுதி அளவுகளைக் கையாள்வதில் அவை சிறந்து விளங்குகின்றன. சிறிய அல்லது இடைநிலை தொகுதி அளவுகளில், MoE மாதிரிகள் கணக்கீட்டு வளங்களின் குறைவான பயன்பாட்டால் பாதிக்கப்படலாம், ஏனெனில் இணை வன்பொருள் அடர்த்தி குறைவாக செயல்படுத்தப்பட்ட நிபுணர்களால் தொடர்ந்து பிஸியாக வைக்கப்படாமல் இருக்கலாம். மேலும், MoE மாதிரிகளைச் செயல்படுத்துதல் மற்றும் சுமை சமநிலைப்படுத்துதல் ஆகியவை நிலையான “அடர்த்தியான” கட்டமைப்புகளை வரிசைப்படுத்துவதை விட சிக்கலானதாக இருக்கலாம்.

Quantization, pruning, மற்றும் MoE மாதிரிகள் LLM மேம்படுத்தலில் மதிப்புமிக்க முன்னேற்றங்களைக் குறிக்கும் அதே வேளையில், அவற்றின் உள்ளார்ந்த வரம்புகள் மாற்று அல்லது நிரப்பு உத்திகளின் தேவையை எடுத்துக்காட்டுகின்றன. பல்வேறு சூழ்நிலைகளில் பரந்த செயல்திறன் மேம்பாடுகளை வழங்கக்கூடிய முறைகளுக்கான தேடல் தொடர்கிறது, முன்னுரிமையாக துல்லியம் அல்லது செயல்படுத்தல் சிக்கலான தன்மைக்கு குறைவான சமரசங்களுடன், குறிப்பாக பயிற்சி மற்றும் வரிசைப்படுத்தலில் அவற்றின் ஒப்பீட்டு எளிமை காரணமாக பிரபலமான அடர்த்தியான மாதிரி கட்டமைப்புகளுக்கு.

FFN Fusion: Transformers-இல் இணைசெயலாக்கத்தை மறுபரிசீலனை செய்தல்

இந்த மேம்படுத்தல் நுட்பங்களின் நிலப்பரப்பிற்கு மத்தியில், NVIDIA-வில் உள்ள ஆராய்ச்சியாளர்கள் FFN Fusion எனப்படும் ஒரு கட்டாயமான புதிய அணுகுமுறையை அறிமுகப்படுத்தியுள்ளனர். இந்த நுட்பம் transformer கட்டமைப்பில் உள்ளார்ந்த தொடர்முறை இடையூறை நேரடியாக எதிர்கொள்கிறது, அளவுருக்களை மாற்றுவதன் மூலமோ அல்லது பகுதிகளைத் தேர்ந்தெடுத்து செயல்படுத்துவதன் மூலமோ அல்ல, ஆனால் கணக்கீடுகளின் வரிசைகளை எவ்வாறு இணைக்க முடியும் என்பதை அடிப்படையில் மறுபரிசீலனை செய்வதன் மூலம். இந்த புதுமை ஆழமான transformer மாதிரிகளுக்குள் FFN அடுக்குகளின் நடத்தை பற்றிய ஒரு முக்கியமான அவதானிப்பிலிருந்து உருவாகிறது.

Puzzle எனப்படும் ஒரு கண்டறியும் கருவியைப் பயன்படுத்தி, ஆராய்ச்சியாளர்கள் பெரிய மாதிரிகளின் உள் செயல்பாடுகளை பகுப்பாய்வு செய்தனர். அவர்கள் சோதனை ரீதியாக கவன ஈர்ப்பு அடுக்குகளை அகற்றியபோது, மாதிரிகள் பெரும்பாலும் தொடர்ச்சியான FFN அடுக்குகளின் வியக்கத்தக்க நீண்ட வரிசைகளைத் தக்கவைத்துக்கொள்வதைக் கவனித்தனர். மிக முக்கியமாக, பகுப்பாய்வு இந்த அருகிலுள்ள FFNs-களால் செய்யப்படும் கணக்கீடுகள் அடிக்கடி குறைந்தபட்ச சார்புநிலையை வெளிப்படுத்தியதைக் காட்டியது. சாராம்சத்தில், வரிசையில் ஒரு FFN-இன் வெளியீடு பெரும்பாலும் உடனடியாகப் பின்தொடரும் FFN-க்குத் தேவையான திசை வழி அல்லது முக்கிய தகவலை வியத்தகு முறையில் மாற்றவில்லை. இது பாரம்பரியமாக ஒன்றன் பின் ஒன்றாக செயல்படுத்தப்படும் இந்த FFNs, மாதிரியின் ஒட்டுமொத்த செயல்பாட்டை கணிசமாக சீர்குலைக்காமல் ஒரே நேரத்தில், இணை செயலாக்கத்திற்கான திறனைக் கொண்டிருக்கக்கூடும் என்று பரிந்துரைத்தது.

இந்த நுண்ணறிவு FFN Fusion-இன் அடித்தளத்தை உருவாக்கியது. மைய யோசனை நேர்த்தியாக எளிமையானது ஆனால் சக்தி வாய்ந்தது: குறைந்த கணக்கீட்டு சார்புநிலையுடன் தொடர்ச்சியான FFN அடுக்குகளின் வரிசைகளை அடையாளம் கண்டு, அவற்றை சமமான கணக்கீட்டை இணையாகச் செய்யும் ஒற்றை, அகலமான FFN அடுக்காக இணைக்கவும். Input -> FFN1 -> FFN2 -> FFN3 -> Output போன்ற ஒரு சங்கிலிக்குப் பதிலாக, இணைக்கப்பட்ட கட்டமைப்பு Input -> Fused_FFN (FFN1+FFN2+FFN3-க்கு இணையாக சமம்) -> Output ஆகிறது. இந்த கட்டடக்கலை மாற்றம் நெட்வொர்க்கின் தொடர்முறை ஆழத்தை திறம்பட குறைக்கிறது, பல படிகளை ஒற்றை, பரந்த கணக்கீட்டுப் படியுடன் மாற்றுகிறது. இந்த குறைந்த சார்புநிலை FFN வரிசைகளை குறிவைப்பதன் மூலம், FFN Fusion மாதிரியின் பிரதிநிதித்துவ சக்தி மற்றும் துல்லியத்தைப் பாதுகாக்கும் அதே வேளையில் தாமதம் மற்றும் கணக்கீட்டுச் செலவைக் குறைப்பதை நோக்கமாகக் கொண்டுள்ளது. Llama-3.1-405B-Instruct-இலிருந்து Ultra-253B-Base-இன் வளர்ச்சி இந்த நுட்பத்தின் திறனுக்கான ஒரு முதன்மை செயல்விளக்கமாகச் செயல்பட்டது.

கட்டமைப்பு ரசவாதம்: FFN Fusion எவ்வாறு செயல்படுகிறது

FFN Fusion-இன் பின்னணியில் உள்ள மந்திரம் feed-forward networks-களின் அடிப்படை கணித கட்டமைப்பை புத்திசாலித்தனமாக கையாளுவதில் உள்ளது. இது ஏற்கனவே உள்ள அடுக்குகளை அருகருகே இயக்குவது மட்டுமல்ல; இது அசல் வரிசையின் கூட்டு நடத்தையைப் பிரதிபலிக்கும் ஒரு புதிய, ஒருங்கிணைந்த அடுக்கை உருவாக்குவதை உள்ளடக்குகிறது, ஆனால் அவ்வாறு ஒரே நேரத்தில் செய்கிறது.

k தொடர்ச்சியான FFN அடுக்குகளின் வரிசையைக் கவனியுங்கள். ஒரு நிலையான transformer-இல், உள்ளீடு x ஆனது FFN1 வழியாகச் செல்கிறது, அதன் வெளியீடு FFN2-க்கான உள்ளீடாகிறது, மேலும் FFNk வரை தொடர்கிறது. ஒவ்வொரு படியும் முந்தையதன் நிறைவை வெளிப்படையாகச் சார்ந்துள்ளது. FFN Fusion இந்த சார்புநிலைச் சங்கிலியை உடைக்கிறது. கணித ரீதியாக, ஒரு FFN பொதுவாக இரண்டு நேரியல் மாற்றங்களை இடையில் ஒரு நேரியல் அல்லாத செயல்படுத்தல் செயல்பாட்டுடன் (GeLU அல்லது SwiGLU போன்றவை) உள்ளடக்குகிறது: FFN(x) = W_out * Activation(W_in * x). FFN Fusion நேரியல் மாற்றங்களை பெரும்பாலும் இணைக்க முடியும் என்ற உண்மையை மேம்படுத்துகிறது.

இணைப்பு செயல்முறை தனிப்பட்ட FFN அடுக்குகளின் எடைகளை இணைப்பதன் மூலம் செயல்படுகிறது. குறிப்பாக, தொடர்ச்சியான FFNs-களின் உள்ளீட்டு எடை அணிகள் (W_in) இணைக்கப்பட்ட அடுக்கிற்கான ஒற்றை, பெரிய உள்ளீட்டு எடை அணியாக (எ.கா., தொகுதி-மூலைவிட்டமாக) இணைக்கப்படுகின்றன. இதேபோல், வெளியீட்டு எடை அணிகள் (W_out) ஒற்றை, அகலமான வெளியீட்டு எடை அணியை உருவாக்க இணைக்கப்படுகின்றன. செயல்படுத்தல் செயல்பாடு இந்த பெரிய கட்டமைப்பிற்குள் உறுப்பு வாரியாகப் பயன்படுத்தப்படுகிறது. இந்த கட்டுமானம், இணைக்கப்பட்ட FFN அசல் உள்ளீடு x-இல் அசல் FFNs-களுக்கு ஒத்த இணை வழிகளில் ஒரே நேரத்தில் செயல்படுவதை உறுதி செய்கிறது. இந்த இணை வழிகளிலிருந்து வரும் வெளியீடுகள் பின்னர் இணைக்கப்பட்ட வெளியீட்டு எடைகளின் கட்டமைப்பால் மறைமுகமாக ஒருங்கிணைக்கப்படுகின்றன.

அசல் அடுக்குகளுக்கு இடையிலான சார்புநிலைகள் உண்மையில் குறைவாக இருந்தால், இந்த இணைக்கப்பட்ட கட்டமைப்பு அசல் FFNs வரிசையின் அதே பிரதிநிதித்துவத் திறனைப் பராமரிக்க முடியும் என்பதை தத்துவார்த்த அடிப்படை உறுதிப்படுத்துகிறது. முக்கியமானது எந்த வரிசைகள் இணைப்பிற்கு ஏற்றவை என்பதை அடையாளம் காண்பது. இதை முறையாகச் செய்ய, NVIDIA ஆராய்ச்சியாளர்கள் ஒரு சார்புநிலை பகுப்பாய்வு நுட்பத்தைப் பயன்படுத்தினர். அவர்கள் உள்ளீட்டு tokens-களின் ஒரு பிரதிநிதித்துவத் தொகுப்பிற்கான தொடர்ச்சியான FFN அடுக்குகளின் வெளியீட்டு மறைக்கப்பட்ட நிலைகளுக்கு இடையிலான cosine distance-ஐ அளந்தனர். ஒரு சிறிய cosine distance என்பது ஒரு FFN-இன் வெளியீட்டு திசையன் வரிசையில் அடுத்த FFN-இன் வெளியீட்டு திசையனுக்கு மிகவும் ஒத்த திசையில் சுட்டிக்காட்டுகிறது என்பதைக் குறிக்கிறது. இந்த ஒற்றுமை குறைந்த செயல்பாட்டு சார்புநிலையை பரிந்துரைக்கிறது - இரண்டாவது FFN முதல் FFN-ஆல் நிறுவப்பட்ட தகவல் பிரதிநிதித்துவத்தை வியத்தகு முறையில் மாற்றவில்லை. அடுக்குகளில் தொடர்ந்து குறைந்த cosine distance-களை வெளிப்படுத்தும் FFNs-களின் வரிசைகள் இணைப்பிற்கான முதன்மை வேட்பாளர்களாக அடையாளம் காணப்பட்டன, ஏனெனில் அவற்றை இணைப்பது மாதிரியின் கற்றறிந்த பிரதிநிதித்துவங்கள் மற்றும் ஒட்டுமொத்த செயல்திறனை சீர்குலைக்க வாய்ப்பில்லை. இந்த தரவு சார்ந்த அணுகுமுறை, மாதிரியின் பகுதிகளுக்கு FFN Fusion-ஐ இலக்கு வைத்துப் பயன்படுத்த அனுமதிக்கிறது, அங்கு அது மிகவும் பயனுள்ளதாகவும் குறைந்த சீர்குலைக்கும் தன்மையுடனும் இருக்கும்.

பெஹிமோத்திலிருந்து ஸ்ப்ரிண்டர் வரை: Ultra-253B-Base உருமாற்றம்

FFN Fusion-இன் நடைமுறை சக்தி, அந்த நேரத்தில் அறியப்பட்ட மிகப்பெரிய பொது மாதிரிகளில் ஒன்றான Llama-3.1-405B-Instruct-க்கு அதன் பயன்பாட்டின் மூலம் தெளிவாக நிரூபிக்கப்பட்டது. 405 பில்லியன் அளவுருக்களைக் கொண்ட இந்த மாதிரி, அனுமானத்திற்கான குறிப்பிடத்தக்க கணக்கீட்டு முயற்சியைக் குறித்தது. ஆராய்ச்சியாளர்கள் Ultra-253B-Base எனப் பெயரிடப்பட்ட ஒரு புதிய, திறமையான மாதிரியை உருவாக்க, FFN Fusion-ஐ மூலோபாய pruning உடன் இணைத்து, கட்டடக்கலைச் செம்மைப்படுத்தும் செயல்முறையைத் தொடங்கினர்.

உருமாற்ற செயல்முறை பல படிகளை உள்ளடக்கியது:

பகுப்பாய்வு: அவர்களின் சார்புநிலை பகுப்பாய்வு கருவிகளைப் பயன்படுத்தி (cosine distance-களை அளவிடுதல்), ஆராய்ச்சியாளர்கள் Llama-405B கட்டமைப்பிற்குள் குறைந்த அடுக்கு-இடை சார்புநிலையை வெளிப்படுத்திய தொடர்ச்சியான FFN அடுக்குகளின் வரிசைகளை அடையாளம் கண்டனர்.
Fusion: இந்த அடையாளம் காணப்பட்ட FFN வரிசைகள் பின்னர் முன்பு விவரிக்கப்பட்டபடி ஒற்றை, அகலமான FFN அடுக்குகளாக இணைக்கப்பட்டன (எடைகளை இணைத்தல்). இது நெட்வொர்க்கில் உள்ள தொடர்முறை படிகளின் எண்ணிக்கையை நேரடியாகக் குறைத்தது.
Pruning: ஒரே நேரத்தில் அல்லது பின்னர், குறைவான முக்கியமானதாகக்கருதப்படும் அளவுருக்கள் (சாத்தியமான நிலையான pruning நுட்பங்கள் மூலம் அடையாளம் காணப்பட்டவை அல்லது fusion செயல்முறையால் தெரிவிக்கப்பட்டவை) மாதிரியிலிருந்து அகற்றப்பட்டன.

இந்த ஒருங்கிணைந்த அணுகுமுறை Ultra-253B-Base-ஐ விளைவித்தது, இது 253 பில்லியன் அளவுருக்களைக் கொண்ட ஒரு மாதிரி. இது அசல் 405B மாதிரியை விட 37%-க்கும் அதிகமான அளவுருக்கள் குறைப்பைக் குறிக்கிறது. செயல்திறனைத் தக்கவைத்துக்கொள்வதை நோக்கமாகக் கொண்டு, இத்தகைய குறிப்பிடத்தக்க அளவு குறைப்பைச் சாத்தியமாக்குவதில் fusion மூலம் அடையப்பட்ட கட்டடக்கலை மாற்றங்கள் முக்கியமாக இருந்தன. குறிக்கோள் ஒரு சிறிய மாதிரி மட்டுமல்ல, FFN Fusion-ஆல் திறக்கப்பட்ட அதிகரித்த இணைத்தன்மைக்கு நன்றி, அடிப்படையில் வேகமான மற்றும் கணக்கீட்டு ரீதியாக சிக்கனமான ஒன்றாகும். இந்த வழக்கு ஆய்வு ஒரு முக்கியமான கருத்தாக்கச் சான்றாகச் செயல்பட்டது, பெரிய அளவிலான மாதிரிகளை செயல்திறனுக்காக கணிசமாக மறுசீரமைக்க முடியும் என்பதைக் காட்டுகிறது.

பலன்களை அளவிடுதல்: செயல்திறன், வேகம் மற்றும் வள சேமிப்பு

எந்தவொரு மேம்படுத்தல் நுட்பத்தின் உண்மையான சோதனையும் அதன் அளவிடக்கூடிய தாக்கத்தில் உள்ளது. Ultra-253B-Base-க்கு, Llama-405B தளத்திற்கு FFN Fusion மற்றும் pruning-ஐப் பயன்படுத்துவதன் மூலம் பெறப்பட்ட முடிவுகள் கட்டாயமாக இருந்தன, திறனில் கணிசமான சமரசங்கள் இல்லாமல் பல பரிமாணங்களில் குறிப்பிடத்தக்க மேம்பாடுகளை நிரூபிக்கின்றன.

அனுமான வேகம் மற்றும் செலவு: மிகவும் குறிப்பிடத்தக்க ஆதாயங்கள் அனுமான செயல்திறனில் காணப்பட்டன. அசல் 405B அளவுரு மாதிரியுடன் ஒப்பிடும்போது, Ultra-253B-Base அடைந்தது:

அனுமான தாமதத்தில் 1.71x முன்னேற்றம். இதன் பொருள் மாதிரி பதில்களை கணிசமாக வேகமாக உருவாக்க முடியும், இது நிகழ்நேர பயன்பாடுகளுக்கு முக்கியமானது.
தொகுதி அளவு 32-இல் அளவிடப்படும்போது ஒரு token-க்கான கணக்கீட்டுச் செலவில் 35x குறைப்பு. ஒரு token-க்கான கணக்கீட்டு செயல்பாடுகளில் (FLOPs) இந்த வியத்தகு குறைப்பு நேரடியாக குறைந்த ஆற்றல் நுகர்வு மற்றும் மாதிரியை வழங்குவதற்கான குறைக்கப்பட்ட வன்பொருள் தேவைகளுக்கு மொழிபெயர்க்கிறது.

மாதிரி செயல்திறன் அளவுகோல்கள்: முக்கியமாக, இந்த செயல்திறன் மேம்பாடுகள் மாதிரியின் நுண்ணறிவு அல்லது திறன்களின் இழப்பில் வரவில்லை. Ultra-253B-Base நிலையான LLM அளவுகோல்களின் தொகுப்பில் கடுமையாக மதிப்பீடு செய்யப்பட்டது, அசல், மிகப் பெரிய மாதிரியுடன் மிகவும் போட்டித்தன்மை வாய்ந்த மதிப்பெண்களை அடைந்தது, சில சமயங்களில் அதை விட அதிகமாகவும் இருந்தது:

MMLU (Massive Multitask Language Understanding): 85.17%
MMLU-Pro (A more challenging version): 72.25%
Arena Hard (Human preference evaluation on difficult prompts): 84.92%
HumanEval (Code generation capability): 86.58%
MT-Bench (Multi-turn conversation quality): 9.19

இந்த மதிப்பெண்கள், இணைக்கப்பட்ட மற்றும் கத்தரிக்கப்பட்ட மாதிரி, 253 பில்லியன் அளவுருக்களை மட்டுமே கொண்டிருந்த போதிலும், அதன் 405B-அளவுரு முன்னோடியுடன் ஒப்பிடக்கூடிய மிக உயர்ந்த புரிதல், பகுத்தறிவு, குறியீட்டு திறன் மற்றும் உரையாடல் தரத்தைத் தக்க வைத்துக் கொண்டதைக் குறிக்கின்றன.

நினைவக செயல்திறன்: கணக்கீட்டு வேகம் மற்றும் செலவுக்கு அப்பால், FFN Fusion நினைவகச் சேமிப்பிற்கும் பங்களித்தது. கட்டடக்கலை மாற்றங்கள், fusion-ஆல் இயக்கப்பட்ட பிற மேம்படுத்தல்களுடன் இணைந்து, அனுமானத்தின் போது தேவைப்படும் key-value (KV) cache-இன் அளவில் 2x குறைப்புக்கு வழிவகுத்தது. KV cache இடைநிலை செயல்பாடுகளை (கவன ஈர்ப்பு keys மற்றும் values) சேமிக்கிறது மற்றும் கணிசமான GPU நினைவகத்தை உட்கொள்ளும், குறிப்பாக நீண்ட உள்ளீட்டு வரிசைகளுக்கு. இந்தத் தேவையைக் குறைப்பது, குறைவான நினைவக-தீவிர வன்பொருளில் மாதிரியை இயக்குவதை சாத்தியமாக்குகிறது அல்லது அதே நினைவகக் கட்டுப்பாடுகளுக்குள் நீண்ட சூழல்களைச் செயலாக்குவதை சாத்தியமாக்குகிறது.

இந்த அளவிடக்கூடிய முடிவுகள் FFN Fusion-இன் செயல்திறனை அடிக்கோடிட்டுக் காட்டுகின்றன. இது ஒரு மாதிரியை உருவாக்க அனுமதித்தது, அது சிறியது மட்டுமல்ல, வேகம், கணக்கீட்டு செயல்பாடுகள் மற்றும் நினைவகப் பயன்பாடு ஆகியவற்றின் அடிப்படையில் அடிப்படையில் மிகவும் திறமையானது, அதே நேரத்தில் சவாலான அளவுகோல்களில் உயர்நிலை செயல்திறனைப் பராமரிக்கிறது.

அறிவைப் பாதுகாத்தல்: பயிற்சி மற்றும் நுண்சீரமைப்பின் முக்கிய பங்கு

FFN Fusion மற்றும் pruning போன்ற நுட்பங்கள் மூலம் Llama-405B போன்ற ஒரு பெரிய, முன் பயிற்சி பெற்ற மொழி மாதிரியை கட்டடக்கலை ரீதியாக மாற்றுவது தவிர்க்க முடியாமல் அதன் கற்றறிந்த அளவுருக்களின் நுட்பமான சமநிலையை சீர்குலைக்கிறது. கணித சமநிலை உள்ளூரில் செயல்பாட்டைப் பாதுகாக்க நோக்கமாகக் கொண்டிருக்கும்போது, நெட்வொர்க்கின் உலகளாவிய நடத்தை மாறக்கூடும். இதன் விளைவாக வரும் Ultra-253B-Base மாதிரி திறமையானதாக மாறியது மட்டுமல்லாமல், அதன் உயர் மட்ட செயல்திறனையும் தக்க வைத்துக் கொண்டது என்பதை உறுதிப்படுத்த, கவனமாக ஒழுங்கமைக்கப்பட்ட மாற்றத்திற்குப் பிந்தைய பயிற்சி செயல்முறை அவசியமானது.

இந்த செயல்முறை இரண்டு முக்கிய கட்டங்களை உள்ளடக்கியது:

அறிவு வடித்தல் (Knowledge Distillation): முதல் படி, அசல், பெரிய மாதிரியிலிருந்து (அல்லது பொருத்தமான ஆசிரியர் மாதிரி) அறிவை மாற்றியமைக்கப்பட்ட கட்டமைப்பிற்கு மாற்றுவதாகும். இது வடித்தல் மூலம் அடையப்பட்டது, அங்கு Ultra-253B-Base மாதிரி ஆசிரியர் மாதிரியின் வெளியீடுகள் அல்லது உள் பிரதிநிதித்துவங்களைப் பின்பற்ற பயிற்சி அளிக்கப்பட்டது. இந்த கட்டம் ஒரு கணிசமான தரவுத்தொகுப்பைப் பயன்படுத்தியது, குறிப்பாக 54 பில்லியன் tokens, 8k சூழல் சாளரத்துடன் செயலாக்கப்பட்டது. வடித்தல், இணைக்கப்பட்ட மற்றும் கத்தரிக்கப்பட்ட மாதிரிக்கு கட்டடக்கலை மாற்றங்களின் போது சற்றே குழப்பமடைந்திருக்கக்கூடிய நுணுக்கங்கள் மற்றும் திறன்களை மீண்டும் பிடிக்க உதவுகிறது.
நிலைப்படுத்தப்பட்ட நுண்சீரமைப்பு (Staged Fine-Tuning): வடித்தலைத் தொடர்ந்து, மாதிரி படிப்படியாக நீண்ட சூழல் நீளங்களைக் கையாளும் வகையில் அதை மாற்றியமைக்க வடிவமைக்கப்பட்ட நுண்சீரமைப்பு நிலைகளின் தொடர்ச்சியைக் கடந்தது. இது நவீன LLMs-களுக்கு முக்கியமானது, அவை பெரும்பாலும் விரிவான உள்ளீட்டின் அடிப்படையில் உரையைச் செயலாக்கவும் உருவாக்கவும் எதிர்பார்க்கப்படுகின்றன. நுண்சீரமைப்பு நிலைகளில் தொடர்ந்தது:
- 16k சூழல் சாளரத்தில் நுண்சீரமைப்பு.
- 32k சூழல் சாளரத்தில் மேலும் நுண்சீரமைப்பு.
- 128k சூழல் சாளரத்தில் இறுதி நுண்சீரமைப்பு நிலை.

இந்த நிலைப்படுத்தப்பட்ட அணுகுமுறை, புதிதாக உருவாக்கப்பட்ட இணைக்கப்பட்ட FFN அடுக்குகள் மற்றும் மேம்படுத்தப்பட்ட KV cache வழிமுறைகள் உட்பட, அதன் அளவுருக்களை படிப்படியாக மாற்றியமைக்க அனுமதிக்கிறது, மிக நீண்ட வரிசைகளில் சார்புநிலைகள் மற்றும் தகவல் ஓட்டத்தை திறம்பட நிர்வகிக்கிறது. ஒவ்வொரு நிலையும் முந்தையதை அடிப்படையாகக் கொண்டது, வெவ்வேறு சூழல் அளவுகளில் நிலைத்தன்மை மற்றும் வலுவான செயல்திறனை உறுதி செய்கிறது.

பெரிய அளவிலான வடித்தலை நிலைப்படுத்தப்பட்ட, நீண்ட-சூழல் நுண்சீரமைப்புடன் இணைக்கும் இந்த நுட்பமான பயிற்சி முறை, கட்டடக்கலை செயல்திறனுக்கும் உயர்-நம்பகத்தன்மை செயல்திறனுக்கும் இடையிலான இடைவெளியைக் குறைப்பதில் கருவியாக இருந்தது. FFN Fusion-ஆல் வழங்கப்பட்ட வேகம், செலவு மற்றும் நினைவக நன்மைகள் மாதிரியின் துல்லியம் மற்றும் கோரும் அளவுகோல்களில் திறன்களை சமரசம் செய்யவில்லை என்பதை இது உறுதி செய்தது.

விரிவான அடிவானங்கள்: பொதுமைப்படுத்தல் மற்றும் எதிர்கால திசைகள்

Llama-405B-ஐ Ultra-253B-Base ஆக வெற்றிகரமாக மாற்றுவது FFN Fusion-இன் திறனுக்கான வலுவான ஆதாரத்தை வழங்குகிறது, ஆனால் அதன் உண்மையான மதிப்பு அதன் பரந்த பயன்பாடு மற்றும் எதிர்கால LLM வடிவமைப்பிற்கான அது வழங்கும் நுண்ணறிவுகளில் உள்ளது. இது மிகப்பெரிய மாதிரிகளுக்கு மட்டுமே பொருந்தக்கூடிய ஒரு முறை தந்திரம் அல்ல என்பதை ஆராய்ச்சி நிரூபித்தது.

அளவுகள் முழுவதும் சரிபார்த்தல்: NVIDIA ஆராய்ச்சியாளர்கள் வெளிப்படையாக FFN Fusion முறையை பல்வேறு அளவுகளில் உள்ள மாதிரிகளில் சோதித்தனர். அவர்கள் 70B-அளவுரு மாதிரிகளுக்கு இந்த நுட்பத்தை வெற்றிகரமாகப் பயன்படுத்தினர், அவற்றின் அசல் समकक्षங்களுடன் ஒப்பிடும்போது ஒத்த செயல்திறன் ஆதாயங்களை அடைந்தனர். அவர்கள் 49B அளவில் சரிபார்ப்பையும் தெரிவித்தனர், இது FFN சுதந்திரம் மற்றும் இணைப்பிற்கான சாத்தியம் ஆகியவை மிகப்பெரிய மாதிரிகளின் பிரத்தியேக பண்புகள் அல்ல, ஆனால் transformer கட்டமைப்பின் மிகவும் பொதுவான பண்பாக இருக்கலாம், ஆழமான FFN வரிசைகள் இயற்கையாக நிகழும் பெரிய அளவுகளில் இது மிகவும் வெளிப்படையாக மாறக்கூடும் என்ற கருத்தை மேலும் வலுப்படுத்துகிறது. இது FFN Fusion LLM மேம்படுத்தல் ஆயுதக் களஞ்சியத்தில் ஒரு நிலையானகருவியாக மாறக்கூடும் என்று பரிந்துரைக்கிறது, இது மாதிரி அளவுகளின் வரம்பில் பொருந்தும்.

FFN vs. முழு தொகுதி Fusion: transformer தொகுதிக்குள் கவன ஈர்ப்பு அடுக்குகளுடன் ஒப்பிடும்போது FFN அடுக்குகளின் குறிப்பிட்ட பங்கையும் ஆராய்ச்சி வெளிச்சம் போட்டுக் காட்டியது. தொடர்ச்சியான FFN அடுக்குகள் பெரும்பாலும் குறைந்த சார்புநிலையைக் காட்டியதால், அவை இணைப்பிற்கு ஏற்றதாக அமைந்தன, முழு transformer தொகுதிகளையும் (கவன ஈர்ப்பு மற்றும் FFN அடுக்குகள் உட்பட) இணைக்க முயற்சிப்பது மிகவும் சவாலானது. பகுப்பாய்வு கவன ஈர்ப்பு வழிமுறைகளை உள்ளடக்கிய வலுவான சார்புநிலைகளைக் குறித்தது. முழு தொகுதிகளையும் ஒரே நேரத்தில் இணைப்பது மிகவும் குறிப்பிடத்தக்க செயல்திறன் சிதைவை விளைவித்தது, இது கவன ஈர்ப்பு அடுக்குகள் tokens முழுவதும் தகவல்களை ஒருங்கிணைப்பதில் மிகவும் முக்கியமான, தொடர்முறை சார்ந்த பாத்திரத்தை வகிக்கின்றன என்று பரிந்துரைக்கிறது. இந்த கண்டுபிடிப்பு பயனுள்ள இணைத்தன்மையின் எல்லைகளை வரையறுக்க உதவுகிறது - FFN வரிசைகள் வளமான நிலம், அதே நேரத்தில் கவன ஈர்ப்பு வழிமுறைகளுக்கு வெவ்வேறு மேம்படுத்தல் உத்திகள் தேவைப்படலாம்.

LLM கட்டமைப்புக்கான தாக்கங்கள்: FFN Fusion ஒரு பிந்தைய மேம்படுத்தல் நுட்பத்தை விட அதிகமாக வழங்குகிறது; இது எதிர்கால LLMs-களை வடிவமைப்பதற்கான மதிப்புமிக்க நுண்ணறிவுகளை வழங்குகிறது. FFNs-களின் வரிசைகளை பெரும்பாலும் இணைக்கக்கூடிய அலகுகளாகக் கருதலாம் என்ற கண்டுபிடிப்பு, transformer வடிவமைப்பை பெரும்பாலும் ஆதரிக்கும் கண்டிப்பாக தொடர்முறை அனுமானத்திற்கு சவால் விடுகிறது. இது தொடக்கத்திலிருந்தே இயல்பாகவே அதிக இணை-நட்பு கொண்ட புதிய கட்டமைப்புகளை ஊக்குவிக்கக்கூடும். எதிர்கால மாதிரிகள் fusion அல்லது இணை செயலாக்கத்திற்காக வெளிப்படையாக நோக்கம் கொண்ட FFN கட்டமைப்புகளுடன் வடிவமைக்கப்படலாம், இது வன்பொருள்-மென்பொருள் இணை-வடிவமைப்பிற்கு வழிவகுக்கும், அங்கு GPU கட்டமைப்புகள் இந்த வகை இணைத்தன்மையை சுரண்டுவதற்கு மேலும் மேம்படுத்தப்படுகின்றன. அடுக்கு-இடை சார்புநிலையை அளவிட cosine distance-ஐப் பயன்படுத்தும் முறையான முறை நரம்பியல் நெட்வொர்க் கட்டமைப்புகளைப் புரிந்துகொள்வதற்கும் மறுவடிவமைப்பதற்கும் ஒரு மதிப்புமிக்க பகுப்பாய்வுக் கருவியையும் வழங்குகிறது. தற்போதுள்ள கூறுகளை இணைப்பதில் கவனம் செலுத்தும் சிந்தனைமிக்க கட்டடக்கலை மறுவடிவமைப்பு மூலம் குறிப்பிடத்தக்க செயல்திறன் ஆதாயங்கள் சாத்தியம் என்பதை நிரூபிப்பதன் மூலம், FFN Fusion சக்திவாய்ந்த மற்றும் கணக்கீட்டு ரீதியாக நிலையான LLMs-களை உருவாக்குவதற்கான வழியை வகுக்கிறது. இது அதிநவீன AI-யின் அதிகரிக்கும் வளத் தேவைகளைக் குறைப்பதற்கான ஒரு பாதையை எடுத்துக்காட்டுகிறது.

புதுப்பிக்கப்பட்டது ௨௦௨௫-௦௩-௩௦

# AIGC # Llama # Nvidia