AI வளர்ச்சியின் இடைவிடாத முன்னேற்றம் பெரிய மாதிரிகள் அறிவார்ந்ததாக இருக்கும் என்பதைக் காட்டுகிறது, ஆனால் அவற்றின் செயல்பாட்டு தேவைகளும் அதிகரித்து வருகின்றன. இது குறிப்பாக மேம்பட்ட AI சிப்களை அணுகுவதில் பிராந்திய அளவில் ஒரு குறிப்பிடத்தக்க சவாலை உருவாக்குகிறது. புவியியல் தடைகள் இருந்தபோதிலும், மாதிரி உருவாக்குநர்கள் Mixture of Experts (MoE) கட்டமைப்புகளை அதிகளவில் ஏற்றுக்கொள்கிறார்கள். இதனுடன் புதுமையான சுருக்க நுட்பங்களையும் பயன்படுத்துகின்றனர். இதன் நோக்கம் என்ன? இந்த பெரிய மொழி மாதிரிகள் (LLMs) பயன்பாட்டில் தேவைப்படும் கணிசமான கணக்கீட்டு ஆதாரங்களை குறைப்பதே ஆகும். ChatGPT மூலம் தூண்டப்பட்ட ஜெனரேட்டிவ் AI ஏற்றம் மூன்றாவது ஆண்டு விழாவை நெருங்கும் வேளையில், இந்த சக்திவாய்ந்த மாதிரிகளை இயக்குவதற்கான பொருளாதார சிக்கல்களை பற்றி தீவிரமாக சிந்திக்கத் தொடங்கியுள்ளது.
Mistral AI போன்ற MoE மாதிரிகள் சில காலமாக பயன்பாட்டில் உள்ளன, ஆனால் கடந்த ஆண்டில்தான் இதன் திருப்புமுனை நிகழ்ந்தது. மைக்ரோசாப்ட், கூகிள், ஐபிஎம், மெட்டா, டீப்சீக் மற்றும் அலிபாபா போன்ற தொழில்நுட்ப நிறுவனங்களிடமிருந்து புதிய ஓப்பன் சோர்ஸ் LLM களின் வருகையை நாம் கண்டோம், இவை அனைத்தும் MoE கட்டமைப்பின் சில வடிவங்களைப் பயன்படுத்துகின்றன. MoE கட்டமைப்புகள் பாரம்பரிய “dense” மாதிரி கட்டமைப்புகளுக்கு மிகவும் திறமையான மாற்றீட்டை வழங்குகின்றன.
நினைவக வரம்புகளை சமாளித்தல்
MoE கட்டமைப்பின் அடிப்படை 1990 களின் முற்பகுதியில் “Adaptive Mixtures of Local Experts” வெளியீட்டில் தொடங்குகிறது. பரந்த அளவிலான தரவுகளில் பயிற்சி பெற்ற ஒரு பெரிய மாதிரியை நம்புவதற்குப் பதிலாக, ஒன்று அல்லது அதற்கு மேற்பட்ட சிறப்பு துணை மாதிரிகள் அல்லது “வல்லுநர்களுக்கு” பணிகளை விநியோகிப்பதை இது மையமாகக் கொண்டுள்ளது.
கோடிங் மற்றும் கணிதம் முதல் ஆக்கப்பூர்வமான எழுத்து வரை ஒவ்வொரு நிபுணரும் ஒரு குறிப்பிட்ட களத்திற்கு உகந்ததாக கருதப்படுகிறார். MoE மாதிரிகளில் உள்ள குறிப்பிட்ட நிபுணர்களைப் பற்றி மாதிரி உருவாக்குநர்கள் வரையறுக்கப்பட்ட விவரங்களை மட்டுமே வழங்குகிறார்கள் என்பதையும், மாதிரியிலிருந்து மாதிரிக்கு நிபுணர்களின் எண்ணிக்கை மாறுபடும் என்பதையும் கவனத்தில் கொள்ள வேண்டும். முக்கியமான விஷயம் என்னவென்றால், எந்த நேரத்திலும் ஒட்டுமொத்த மாதிரியில் ஒரு பகுதி மட்டுமே தீவிரமாகப் பயன்படுத்தப்படுகிறது.
டீப் சீக்கின் V3 மாதிரியைக் கவனியுங்கள், இது பகிரப்பட்ட நிபுணருடன் 256 ரூட்டட் வல்லுநர்களைக் கொண்டுள்ளது. டோக்கன் செயலாக்கத்தின் போது, எட்டு ரூட்டட் நிபுணர்கள் மட்டுமே செயல்படுத்தப்படுகிறார்கள். இந்த தேர்ந்தெடுக்கப்பட்ட செயல்படுத்தல் காரணமாக, MoE மாதிரிகள் அதே அளவுள்ள அடர்த்தியான மாதிரிகளைப் போல ஒரே மாதிரியான தரத்தை அடையாமல் போகலாம். உதாரணமாக, அலிபாவின் Qwen3-30B-A3B MoE மாதிரி, அலிபாவின் பெஞ்ச்மார்க் சோதனைகளில் அடர்த்தியான Qwen3-32B மாதிரியை விட தொடர்ந்து மோசமாக செயல்பட்டது.
இந்த சிறிய அளவிலான தரம் குறைவை MoE கட்டமைப்புகளால் வழங்கப்படும் செயல்திறனுடன் ஒப்பிட்டுப் பார்க்க வேண்டும். செயலில் உள்ள அளவுருக்களின் குறைப்பு காரணமாக நினைவக அலைவரிசை தேவைகள் மாதிரியின் எடையை சேமிக்க தேவையான திறனுக்கு நேரடியாக விகிதாசாரமாக இருக்காது. MoE மாதிரிகளுக்கு கணிசமான நினைவகம் தேவைப்பட்டாலும் அது வேகமான மற்றும் விலையுயர்ந்த ஹை பேண்ட்வித் நினைவகமாக (HBM) இருக்க வேண்டிய அவசியமில்லை.
ஒரு ஒப்பீட்டுடன் இதை விளக்கலாம். மெட்டாவின் மிகப்பெரிய “டேன்ஸ்” மாடலான Llama 3.1 405B மற்றும் Llama 4 Maverick ஐ கருத்தில் கொள்ளுங்கள். இது 17 பில்லியன் செயலில் உள்ள அளவுருக்களைக் கொண்ட MoE கட்டமைப்பைப் பயன்படுத்தும் ஒப்பிடத்தக்க மாதிரி. தொகுதி அளவு, மிதக்கும் புள்ளி செயல்திறன் மற்றும் முக்கிய மதிப்பு தேக்ககம் போன்ற பல காரணிகள் நிஜ உலக செயல்திறனுக்கு பங்களிக்கின்றன. கொடுக்கப்பட்ட துல்லியத்தில் (8-பிட் மாதிரிகளுக்கு பாராமீட்டருக்கு 1 பைட்) மாதிரியின் அளவை ஜிகாபைட்ஸில் ஒரு தொகுதி அளவில் வினாடிக்கு இலக்கு டோக்கன்களால் பெருக்குவதன் மூலம் குறைந்தபட்ச அலைவரிசை தேவைகளை தோராயமாக்கலாம்.
Llama 3.1 405B இன் 8-பிட் குவாண்ட்டிஸ்டு செய்யப்பட்ட பதிப்பை இயக்குவதற்கு 405 GB vRAM மற்றும் வினாடிக்கு 50 டோக்கன்களை உருவாக்கும் போது குறைந்தது 20 TB/s நினைவக அலைவரிசை தேவைப்படும். Nvidia வின் HGX H100 அடிப்படையிலான அமைப்புகள் சமீப காலம் வரை $300,000 அல்லது அதற்கு மேற்பட்ட விலையில் விற்கப்பட்டன, ஆனால் 640 GB HBM3 மற்றும் சுமார் 26.8 TB/s மொத்த அலைவரிசையை மட்டுமே வழங்கியது. முழு 16-பிட் மாடலை இயக்க இந்த அமைப்புகளில் இரண்டு தேவைப்படும்.
மாறாக, Llama 4 Maverick ஒரே அளவு நினைவகத்தைப் பயன்படுத்தும் போது ஒப்பிடக்கூடிய செயல்திறனை அடைய 1 TB/s க்கும் குறைவான அலைவரிசையே தேவைப்படுகிறது. வெளியீட்டை உருவாக்குவதில் 17 பில்லியன் பாராமீட்டர் அளவுள்ள மாதிரி நிபுணர்கள் மட்டுமே தீவிரமாக ஈடுபடுகின்றனர். இது ஒரே வன்பொருளில் டெக்ஸ்ட் ஜெனரேஷன் வேகத்தில் பத்து மடங்கு அதிகரிப்பை அளிக்கிறது.
செயல்திறன் ஒரு முதன்மை கவலையாக இல்லாவிட்டால் இந்த மாதிரிகளில் பலவற்றை இப்போது Intel இன் சமீபத்திய Xeons இல் காணப்படுவது போல மலிவான GDDR6, GDDR7 அல்லது DDR நினைவகத்தில் இயக்க முடியும்.
கணினி எக்ஸ்போவில் அறிவிக்கப்பட்ட Nvidia வின் புதிய RTX Pro Servers இந்த சூழ்நிலைக்கு ஏற்றவாறு வடிவமைக்கப்பட்டுள்ளன. மேம்பட்ட பேக்கேஜிங் தேவைப்படும் விலையுயர்ந்த மற்றும் அதிக சக்தி திறன் கொண்ட HBM ஐ நம்புவதற்கு பதிலாக இந்த அமைப்புகளில் உள்ள எட்டு RTX Pro 6000 GPU கள் ஒவ்வொன்றும் 96 GB GDDR7 நினைவகத்துடன் பொருத்தப்பட்டுள்ளன. இது நவீன கேமிங் கார்டுகளில் காணப்படும் அதே வகை.
இந்த அமைப்புகள் 768 GB vRAM மற்றும் 12.8 TB/s மொத்த அலைவரிசையை வழங்குகின்றன. இது வினாடிக்கு நூற்றுக்கணக்கான டோக்கன்களில் Llama 4 Maverick ஐ இயக்க போதுமானது. Nvidia விலையை வெளியிடவில்லை என்றாலும் இந்த கார்டுகளின் ஒர்க்ஸ்டேஷன் பதிப்பு சுமார் $8500 க்கு விற்பனையாகிறது. அப்படியென்றால் இந்த சேவையகங்களுக்குப் பயன்படுத்தப்பட்ட HGX H100 விலையில் பாதிக்கும் குறைவான விலையே இருக்கும்.
MoE எச்.பி.எம் ஸ்டேக்டு செய்யப்பட்ட ஜி.பீ.யுக்களின் முடிவு அல்ல. Llama 4 Behemoth எப்போதாவது அனுப்பப்பட்டால் அதன் அளவைப் பொறுத்து ஜி.பீ.யுக்களின் ரேக் தேவைப்படும்.
இது Llama 3.1 405B ஐ விட தோராயமாக பாதியளவு செயலில் உள்ள அளவுருக்களைக் கொண்டிருந்தாலும் இது மொத்தம் 2 டிரில்லியன் அளவுருக்களைக் கொண்டுள்ளது. தற்போது சந்தையில் ஒரு மில்லியனுக்கும் அதிகமான டோக்கன்களின் சூழல் சாளரத்துடன் முழு 16-பிட் மாடலையும் இடமளிக்கக்கூடிய ஒரு வழக்கமான ஜி.பீ.யு சேவையகம் இல்லை.
AI இல் CPU மறுமலர்ச்சி?
குறிப்பிட்ட பயன்பாட்டைப் பொறுத்து GPU எப்போதும் அவசியமில்லை குறிப்பாக உயர்-எண்ட் ஆக்சலரேட்டர்களுக்கான அணுகல் குறைவாக உள்ள பகுதிகளில்.
ஏப்ரல் மாதத்தில் Intel 8800 MT/s MCRDIMM களைக் கொண்ட இரட்டை சாக்கெட் Xeon 6 தளத்தை காட்சிப்படுத்தியது. இந்த அமைப்பானது Llama 4 Maverick இல் வினாடிக்கு 240 டோக்கன்களின் செயல்திறனை எட்டியது, ஒரு டோக்கனுக்கான சராசரி வெளியீட்டு தாமதம் 100 ms க்கும் குறைவாக இருந்தது.
எளிமையாகச் சொன்னால் Xeon தளம் சுமார் 24 ஒரே நேரத்தில் உள்ள பயனர்களுக்கு ஒரு பயனருக்கு வினாடிக்கு 10 டோக்கன்களை அல்லது அதற்கு மேற்பட்டவற்றைத் தக்கவைக்க முடியும்.
Intel ஒற்றை பயனர் செயல்திறன் புள்ளிவிவரங்களை வெளியிடவில்லை ஏனெனில் அவை நிஜ உலக சூழ்நிலைகளில் குறைவான தொடர்புடையவை. இருப்பினும் மதிப்பீடுகள் சுமார் 100 டோக்கன்களின் உச்ச செயல்திறனைக் காட்டுகின்றன.
வேறு சிறந்த மாற்றுகள் அல்லது குறிப்பிட்ட தேவைகள் இல்லையென்றால் CPU அடிப்படையிலான அனுமானத்தின் பொருளாதாரம் பயன்பாட்டு நிகழ்வைப் பொறுத்தது.
எடை குறைப்பு: ப்ரூனிங் மற்றும் குவாண்ட்டிசேஷன்
MoE கட்டமைப்புகள் பெரிய மாதிரிகளை அணுகுவதற்கு தேவையான நினைவக அலைவரிசையை குறைக்க முடியும், ஆனால் எடையை சேமிக்க தேவையான நினைவகத்தின் அளவைக் குறைக்க முடியாது. 8-பிட் துல்லியத்தில் கூட Llama 4 Maverick ஐ இயக்க 400 GB க்கும் அதிகமான நினைவகம் தேவைப்படுகிறது.
புதிய ப்ரூனிங் நுட்பங்கள் மற்றும் குவாண்ட்டிசேஷன் முறைகள் தரத்தை இழக்காமல் அந்தத் தேவையை பாதியாக குறைக்க முடியும்.
Nvidia ப்ரூனிங்கின் ஆதரவாளராக இருந்து வருகிறது மேலும் மெட்டாவின் Llama 3 மாடல்களின் ப்ரூனிங் செய்யப்பட்ட பதிப்புகளை வெளியிட்டுள்ளது.
2022 இல் 8-பிட் மிதக்கும் புள்ளி தரவு வகைகளை ஆதரித்த முதல் நிறுவனங்களில் Nvidia உம் ஒன்றாகும், மீண்டும் 2024 இல் அதன் பிளாக்வெல் கட்டமைப்பின் வெளியீட்டில் 4-பிட் மிதக்கும் புள்ளியையும் வெளியிட்டது. AMD இன் முதல் சிப்கள் சொந்த FP4 ஆதரவை வழங்க விரைவில் வெளியிடப்படும் என்று எதிர்பார்க்கப்படுகிறது.
கண்டிப்பாக அவசியமில்லை என்றாலும் இந்த தரவு வகைகளுக்கான சொந்த வன்பொருள் ஆதரவு கணக்கீட்டு தடைகளை சந்திப்பதற்கான வாய்ப்புகளை குறைக்கிறது குறிப்பாக பெரிய அளவில் கொடுக்கும்போது.
குறைந்த துல்லியமான தரவு வகைகளை ஏற்றுக்கொள்ளும் மாதிரி உருவாக்குநர்களின் எண்ணிக்கையை நாம் கண்டிருக்கிறோம். மெட்டா, மைக்ரோசாப்ட் மற்றும் அலிபாபா ஆகியவை தங்கள் மாதிரிகளின் எட்டு-பிட் மற்றும் நான்கு-பிட் குவாண்ட்டிஸ்டு செய்யப்பட்ட பதிப்புகளை வழங்குகின்றன.
குவாண்ட்டிசேஷன் என்பது மாதிரி எடையை சொந்த துல்லியத்திலிருந்து பொதுவாக BF16 இலிருந்து FP8 அல்லது INT4 ஆக மாற்றுவதை உள்ளடக்கியது. இது மாதிரிகளின் நினைவக அலைவரிசை மற்றும் கொள்ளளவு தேவைகளை பாதி அல்லது மூன்று பாகங்களாகக் குறைக்கிறது.
16 பிட்களிலிருந்து எட்டு பிட்களுக்கு மாறுவதால் ஏற்படும் இழப்புகள் பெரும்பாலும் மிகக் குறைவு மேலும் டீப் சீக் உட்பட பல மாதிரி உருவாக்குநர்கள் FP8 துல்லியத்தில் பயிற்சி செய்யத் தொடங்கியுள்ளனர். இன்னொரு நான்கு பிட்கள் குறைக்கப்படும் பொழுது தரம் குறைய வாய்ப்புள்ளது. GGUF போன்ற பல பயிற்சிக்குப் பிந்தைய குவாண்ட்டிசேஷன் அணுகுமுறைகள் சிலவற்றை அதிக துல்லிய மட்டத்தில் விட்டுச் சென்று தர இழப்பைக் குறைக்கின்றன.
கூகிள் சமீபத்தில் குவாண்ட்டிசேஷன் விழிப்புணர்வு பயிற்சி (QAT) ஐப் பயன்படுத்தி அதன் ஜெம்மா 3 மாதிரிகளை 4 மடங்கு குறைத்தது என்பதைக் காட்டியது.
QAT பயிற்சியின் போது குறைந்த துல்லிய செயல்பாடுகளை உருவகப்படுத்துகிறது. கூகிள் இந்த நுட்பத்தைப் பயன்படுத்தி தகுதி பெறாத மாதிரியில் தோராயமாக 5000 படிகள் எடுத்ததன் மூலம் INT4 ஆக மாற்றும்போது திகைப்பை அளவிடும் அளவீடான குவாண்ட்டு சேஷன் தொடர்பான இழப்புகளை 54 சதவீதம் குறைக்க முடிந்தது.
பிட்நெட் எனப்படும் குவாண்ட்டிசேஷனுக்கான மற்றொரு QAT அடிப்படையிலான அணுகுமுறை இன்னும் குறைந்த துல்லியமான நிலைகளை இலக்காகக் கொண்டுள்ளது மாதிரிகளை 1.58 பிட்களாகக் குறைக்கிறது.
தொழில்நுட்பங்களின் ஒருங்கிணைப்பு
MoE மற்றும் 4-பிட் ஒருங்கிணைப்பு கணிசமான நன்மைகளை வழங்குகிறது குறிப்பாக பேண்ட்வித் குறைவாக இருக்கும்போது.
பேண்ட்வித் கட்டுப்பாடுகள் இல்லாதவர்களுக்கு MoE அல்லது குவாண்ட்டிசேஷன் ஆகியவை மதிப்புமிக்க சேவையைச் செய்து முடிக்க பெரிய மற்றும் சக்திவாய்ந்த மாடல்களை இயக்குவதற்கான உபகரணங்கள் மற்றும் செயல்பாட்டின் செலவை கணிசமாகக் குறைக்கலாம்.
இல்லையென்றால் நீங்கள் தனியாக இல்லை என்று ஆறுதல் அடையலாம். சமீபத்திய ஐபிஎம் கணக்கெடுப்பில் நான்கு AI வரிசைப்படுத்தல்களில் ஒன்று மட்டுமே உறுதியளிக்கப்பட்ட முதலீட்டில் வருவாயை வழங்கியுள்ளது என்பது தெரியவந்துள்ளது.