பெரிய அளவிலான மொழி மாதிரி பயிற்சியில் செயல்திறனுக்கான தேடல்
பெரிய மற்றும் அதிக திறன் கொண்ட மொழி மாதிரிகளுக்கான இடைவிடாத தேடல் ஒரு அவசர தேவையை கொண்டு வந்துள்ளது அது செயல்திறன். இந்த பெஹிமோத்துகளைப் பயிற்றுவிப்பதற்கு மூலக் கணக்கீட்டு சக்தி மட்டுமல்ல ஒவ்வொரு வாட் மற்றும் ஒவ்வொரு நொடியிலிருந்தும் அதிக செயல்திறனைப் பெறக்கூடிய அதிநவீன நுட்பங்களும் தேவை. உகப்பாக்க வழிமுறைகள் கற்றல் செயல்முறையை இயக்கும் இயந்திரங்கள் முற்றிலும் முக்கியமானவை. அவை எவ்வளவு விரைவாக மற்றும் எவ்வளவு திறம்பட பில்லியன்கள் அல்லது டிரில்லியன் கணக்கான அளவுருக்கள் கொண்ட ஒரு மாதிரி உகந்த செயல்திறன் நிலைக்கு வரமுடியும் என்பதை தீர்மானிக்கின்றன. AdamW போன்ற ஆப்டிமைசர்கள் தொழில்துறையின் வேலைக் குதிரைகளாக மாறியிருந்தாலும் அவற்றின் மிக நுணுக்கமான ஹைப்பர்பாராமீட்டர் ட்யூனிங் மற்றும் கணக்கீட்டு வளங்களுக்கான அதீத பசி ஆகியவை மிகவும் நெறிப்படுத்தப்பட்ட மாற்றுகளைத் தேடுவதைத் தூண்டியுள்ளது. இறுதி இலக்கு? கணக்கீட்டுச் சுமையை வெகுவாகக் குறைக்கும் அதே வேளையில் ராக்-சாலிட் பயிற்சி நிலைத்தன்மையை வழங்கும் ஒரு ஆப்டிமைசர்.
தற்போதுள்ள தேர்வுமுறை நுட்பங்களின் வரம்புகள்
மிகப்பெரிய மொழி மாதிரிகளுக்கு பயிற்சி அளிப்பதில் உள்ள முக்கிய சவால் கணக்கீட்டு கோரிக்கைகளின் அளவிலேயே உள்ளது. மாதிரிகள் வளரும்போது ஒவ்வொரு மறு செய்கையிலும் புதுப்பிக்கப்பட வேண்டிய அளவுருக்களின் எண்ணிக்கை வெடிக்கிறது. பல ஏற்கனவே உள்ள ஆப்டிமைசர்கள் சிறிய அமைப்புகளில் பயனுள்ளதாக இருந்தாலும் இந்த மகத்தான அழுத்தத்தின் கீழ் தடுமாறத் தொடங்குகின்றன. அவை குறைவான செயல்திறன் கொண்டவையாக மாறுகின்றன பயிற்சி காலக்கெடுவை நீட்டிக்கும் நிலையான மாற்றங்கள் மற்றும் நன்றாக ட்யூன் செய்தல் தேவைப்படுகிறது. மேலும் நிலைத்தன்மை சிக்கல்கள் ஊடுருவக்கூடும் மாதிரி செயல்திறனைக் குறைக்கும் ஒழுங்கற்ற புதுப்பிப்புகளாக வெளிப்படும். ஒரு உண்மையிலேயே பயனுள்ள தீர்வு செயல்திறன் மற்றும் நிலைத்தன்மை இரண்டையும் நிவர்த்தி செய்ய வேண்டும் அதிகப்படியான கணக்கீட்டு சக்தி அல்லது முடிவில்லாத மணிநேர கைமுறை அளவுரு சரிசெய்தல் தேவையில்லாமல் மென்மையான மற்றும் நம்பகமான பயிற்சியை உறுதி செய்கிறது.
பரவலாகப் பயன்படுத்தப்படும் Adam மற்றும் AdamW ஆப்டிமைசர்கள் எடுத்துக்காட்டாக மாதிரி செயல்திறனை நன்றாக ட்யூன் செய்ய தகவமைப்பு கற்றல் விகிதங்கள் மற்றும் எடை சிதைவு ஆகியவற்றை நம்பியுள்ளன. இந்த முறைகள் பல்வேறு பயன்பாடுகளில் அவற்றின் மதிப்பை நிரூபித்துள்ளன. இருப்பினும் மாதிரிகள் அளவிடும்போது அவற்றின் செயல்திறன் குறைகிறது. இந்த ஆப்டிமைசர்களுடன் தொடர்புடைய கணக்கீட்டு மேல்நிலை வியத்தகு முறையில் அதிகரிக்கிறது இது உண்மையிலேயே பெரிய அளவிலான பயிற்சி முயற்சிகளுக்கு அவற்றை திறமையற்றதாக ஆக்குகிறது. இது மாற்று ஆப்டிமைசர்களைக் கண்டறிந்து மேம்படுத்துவதில் கவனம் செலுத்தும் ஒரு துடிப்பான ஆராய்ச்சி முயற்சிக்கு வழிவகுத்தது. இந்த புதிய அணுகுமுறைகள் சிறந்த செயல்திறன் மற்றும் செயல்திறனை வழங்குவதை நோக்கமாகக் கொண்டுள்ளன கடினமான ஹைப்பர்பாராமீட்டர் ட்யூனிங்கின் தேவையை நீக்கி நிலையான மற்றும் அளவிடக்கூடிய முடிவுகளை அடைகின்றன.
மியூயோன்: அளவிடுதலுக்காக வடிவமைக்கப்பட்ட ஒரு நாவல் ஆப்டிமைசர்
UCLA உடன் இணைந்து மூன்ஷாட் AI ஆராய்ச்சியாளர்கள் மியூயோனை அறிமுகப்படுத்தியுள்ளனர் இது பெரிய அளவிலான பயிற்சி காட்சிகளில் இருக்கும் முறைகளுக்குத் தீங்கு விளைவிக்கும் வரம்புகளை சமாளிக்க சிறப்பாக வடிவமைக்கப்பட்ட ஒரு ஆப்டிமைசர் ஆகும். மியூயோன் ஆரம்பத்தில் சிறிய அளவிலான மாதிரிகளில் ஈர்க்கக்கூடிய செயல்திறனைக் காட்டியிருந்தாலும் மொழி மாதிரிகளின் ஜாம்பவான்களைக் கையாள்வதற்கு அளவிடும்போது அது தடைகளை எதிர்கொண்டது. இந்த சவால்களை எதிர்கொள்ள ஆராய்ச்சியாளர்கள் இரண்டு முக்கிய நுட்பங்களை செயல்படுத்தினர்.
முதலாவதாக அவர்கள் எடை சிதைவை இணைத்தனர் இது ஓவர்ஃபிட்டிங்கைத் தடுக்கவும் பயிற்சி நிலைத்தன்மையை மேம்படுத்தவும் உதவும் ஒரு ஒழுங்குபடுத்தும் நுட்பமாகும். இரண்டாவதாக அவர்கள் நிலையான ரூட் மீன் ஸ்கொயர் (RMS) புதுப்பிப்புகளை அறிமுகப்படுத்தினர். இது அவற்றின் அளவைப் பொருட்படுத்தாமல் அனைத்து அளவுருக்களிலும் சரிசெய்தல் சீராகப் பயன்படுத்தப்படுவதை உறுதி செய்கிறது. ஒரு பெரிய மொழி மாதிரியின் பரந்த அளவுரு இடத்தில் சீரான கற்றலை பராமரிக்க இந்த சீரான தன்மை முக்கியமானது. இந்த மேம்பாடுகள் மியூயோனை விரிவான ஹைப்பர்பாராமீட்டர் ட்யூனிங் தேவையில்லாமல் திறமையாக செயல்பட உதவுகின்றன. இந்த “அவுட்-ஆஃப்-பாக்ஸ்” தயார்நிலை அமைப்பு மற்றும் உள்ளமைவு மேல்நிலையை கணிசமாகக் குறைத்து பெரிய அளவிலான மாதிரிகளுக்கு பயிற்சி அளிப்பதற்கான ஒரு கட்டாய தேர்வாக அமைகிறது.
மூன்லைட்: ஒரு கலவை-நிபுணர்கள் மாதிரியில் மியூயோனின் சக்தியைப் பயன்படுத்துதல்
மியூயோனில் பொதிந்துள்ள முன்னேற்றங்களை அடிப்படையாகக் கொண்டு ஆராய்ச்சியாளர்கள் மூன்லைட் என்ற கலவை-நிபுணர்கள் (MoE) மாதிரியை உருவாக்கினர். மூன்லைட் இரண்டு உள்ளமைவுகளில் கிடைக்கிறது: 3 பில்லியன் அளவுரு பதிப்பு மற்றும் 16 பில்லியன் அளவுரு பதிப்பு. இரண்டும் 5.7 டிரில்லியன் டோக்கன்களைக் கொண்ட ஒரு பெரிய தரவுத்தொகுப்பில் பயிற்சி பெற்றன. மூன்லைட் அதன் செயல்திறனை மேம்படுத்த மியூயோனைப் பயன்படுத்துகிறது அதே நேரத்தில் கணக்கீட்டு செலவுகளை குறைக்கிறது.
செயல்திறனை மேலும் மேம்படுத்த மியூயோனின் விநியோகிக்கப்பட்ட பதிப்பு உருவாக்கப்பட்டது இது ZeRO-1 பாணி தேர்வுமுறை உத்தியைப் பயன்படுத்துகிறது. இந்த அணுகுமுறை ஆப்டிமைசர் நிலையை பல சாதனங்களில் விநியோகிப்பதன் மூலம் நினைவக செயல்திறனை கணிசமாக மேம்படுத்துகிறது. இது தகவல் தொடர்பு மேல்நிலையையும் குறைக்கிறது இது பெரிய அளவிலான விநியோகிக்கப்பட்ட பயிற்சியில் ஒரு முக்கியமான காரணியாகும். இந்த சுத்திகரிப்புகள் ஒரு குறிப்பிடத்தக்க நிலையான பயிற்சி செயல்முறையில் உச்சக்கட்டத்தை அடைந்தன. மூன்லைட் இதேபோன்ற அளவிலான முந்தைய மாடல்களுடன் ஒப்பிடும்போது கணிசமாக குறைந்த கணக்கீட்டு தடத்துடன் அதிநவீன செயல்திறனை அடைந்தது.
செயல்திறன் தரப்படுத்தல்: மூன்லைட் போட்டியை மிஞ்சுகிறது
கடுமையான செயல்திறன் மதிப்பீடுகள் மூன்லைட் ஒப்பிடக்கூடிய அளவிலான ஏற்கனவே உள்ள அதிநவீன மாடல்களை விட தொடர்ந்து சிறப்பாக செயல்படுவதை நிரூபித்துள்ளன. இதில் LLAMA3-3B மற்றும் Qwen2.5-3B போன்ற நன்கு மதிக்கப்படும் மாடல்களும் அடங்கும். மாதிரி அளவு தரவு மற்றும் செயல்திறன் ஆகியவற்றுக்கு இடையேயான உறவை ஆராயும் அளவிடுதல் சட்ட சோதனைகள் மியூயோனின் ஒரு குறிப்பிடத்தக்க நன்மையை வெளிப்படுத்தின: இது ஆடமை விட தோராயமாக இரண்டு மடங்கு மாதிரி-திறன் கொண்டது. இது போட்டி முடிவுகளை அடையும் அதே வேளையில் பயிற்சிக்காக தேவைப்படும் மிதக்கும்-புள்ளி செயல்பாடுகளின் (FLOPs) எண்ணிக்கையில் கணிசமான குறைப்புக்கு வழிவகுக்கிறது.
மூன்லைட்டின் திறமை பரந்த அளவிலான பெஞ்ச்மார்க் பணிகளில் நீண்டுள்ளது. MMLU (Massive Multitask Language Understanding) பெஞ்ச்மார்க்கில் இது 70.0 என்ற ஈர்க்கக்கூடிய மதிப்பெண்ணை அடைந்தது LLAMA3-3B (54.75) மற்றும் Qwen2.5-3B (65.6) ஆகியவற்றை கணிசமாக விஞ்சியது. MMLU-pro மற்றும் BBH (Big-Bench Hard) போன்ற சிறப்பு பெஞ்ச்மார்க்குகளில் மூன்லைட் முறையே 42.4 மற்றும் 65.2 மதிப்பெண்களைப் பெற்றது இது அதன் மேம்பட்ட திறன்களை மேலும் எடுத்துக்காட்டுகிறது. இந்த மாதிரி டிரிவியாQA என்ற கேள்வி-பதில் பெஞ்ச்மார்க்கில் வலுவான செயல்திறனைக் காட்டியது 66.3 மதிப்பெண்ணுடன் ஒப்பிடக்கூடிய அனைத்து மாடல்களையும் விட சிறப்பாக செயல்பட்டது.
குறியீடு உருவாக்கம் மற்றும் கணித ரீசனிங்: பன்முகத்தன்மையை நிரூபித்தல்
மூன்லைட்டின் திறன்கள் இயற்கை மொழி புரிதல் மற்றும் கேள்வி பதிலுக்கு அப்பால் நீண்டுள்ளன. இது குறியீடு தொடர்பான பணிகளிலும் சிறந்து விளங்குகிறது. குறியீடு உருவாக்கும் திறன்களை மதிப்பிடுவதற்காக வடிவமைக்கப்பட்ட HumanEval என்ற பெஞ்ச்மார்க்கில் இது 48.1 மதிப்பெண்ணை அடைந்தது. MBPP (Mostly Basic Programming Problems) என்ற மற்றொரு குறியீடு-உருவாக்க பெஞ்ச்மார்க்கில் இது 63.8 மதிப்பெண் பெற்றது. இந்த முடிவுகள் செயல்பாட்டு குறியீட்டை உருவாக்குவதில் அதன் திறமையை நிரூபிக்கின்றன இதேபோன்ற அளவுரு எண்ணிக்கைகளைக் கொண்ட பிற மாடல்களை விட சிறப்பாக செயல்படுகின்றன.
கணித ரீசனிங் துறையில் மூன்லைட் அதன் சிறந்த சிக்கல் தீர்க்கும் திறன்களை வெளிப்படுத்தியது. இது GSM8K (கிரேட் ஸ்கூல் கணிதம் 8K) என்ற பெஞ்ச்மார்க்கில் 77.4 மதிப்பெண்ணை அடைந்தது இது கிரேட்-ஸ்கூல் நிலை கணித வார்த்தை சிக்கல்களைக் கொண்டுள்ளது. மேம்பட்ட கணித சிக்கல்களில் கவனம் செலுத்தும் MATH என்ற மிகவும் சவாலான பெஞ்ச்மார்க்கில் இது 45.3 மதிப்பெண் பெற்றது. இந்த முடிவுகள் சிக்கலான கணித ரீசனிங் பணிகளைக் கையாளும் மூன்லைட்டின் திறனை அடிக்கோடிட்டுக் காட்டுகின்றன.
பன்மொழித் திறன்: சீன மொழிப் பணிகளில் சிறந்து விளங்குதல்
மூன்லைட்டின் திறன்கள் ஆங்கிலத்திற்கு மட்டும் அல்ல. இது சீன மொழி பணிகளிலும் வலுவான செயல்திறனைக் காட்டுகிறது. ஒரு விரிவான சீன மதிப்பீட்டு தொகுப்பான C-Eval இல் இது 77.2 மதிப்பெண்ணைப் பெற்றது. பல பணி மொழி புரிதலில் கவனம் செலுத்தும் CMMLU என்ற மற்றொரு சீன பெஞ்ச்மார்க்கில் இது 78.2 மதிப்பெண்ணை அடைந்தது. இந்த முடிவுகள் பன்மொழி செயலாக்கத்தில் மூன்லைட்டின் செயல்திறனை நிலைநிறுத்துகின்றன பல்வேறு மொழியியல் நுணுக்கங்களைக் கையாளும் திறனைக் காட்டுகின்றன. இத்தகைய மாறுபட்ட பெஞ்ச்மார்க் பணிகளில் மாதிரியின் நிலையான வலுவான செயல்திறன் அதன் வலுவான பொதுமைப்படுத்தல் திறனுக்கான கட்டாய ஆதாரத்தை வழங்குகிறது. இது அதன் முன்னோடிகளுடன் ஒப்பிடும்போது கணிசமாக குறைந்த கணக்கீட்டு செலவை பராமரிக்கும் அதே வேளையில் பல்வேறு பணிகளில் மாற்றியமைத்து சிறந்து விளங்க முடியும்.
அளவிடுதல் சவால்களை நிவர்த்தி செய்தல் மற்றும் எதிர்கால ஆராய்ச்சியை வளர்ப்பது
மியூயோனில் பொதிந்துள்ள கண்டுபிடிப்புகள் பெரிய மொழி மாதிரிகளின் பயிற்சியை நீண்ட காலமாக பாதித்த முக்கியமான அளவிடுதல் சவால்களை நேரடியாக நிவர்த்தி செய்கின்றன. எடை சிதைவு மற்றும் நிலையான RMS புதுப்பிப்புகளை இணைப்பதன் மூலம் ஆராய்ச்சியாளர்கள் நிலைத்தன்மை மற்றும் செயல்திறன் இரண்டையும் கணிசமாக மேம்படுத்தியுள்ளனர். இது மூன்லைட்டை செயல்திறனின் எல்லைகளைத் தள்ளவும் அதே நேரத்தில் பயிற்சி செலவுகளைக் குறைக்கவும் உதவியது. இந்த முன்னேற்றங்கள் மியூயோனை ஆடம் அடிப்படையிலான ஆப்டிமைசர்களுக்கு ஒரு கட்டாய மாற்றாக நிலைநிறுத்துகின்றன. இது ஆடம் மற்றும் அதன் வகைகளுடன் பொதுவாக தொடர்புடைய விரிவான ட்யூனிங் தேவைப்படாமல் சிறந்த மாதிரி செயல்திறனை வழங்குகிறது.
மேலும் மியூயோன் மற்றும் மூன்லைட் இரண்டையும் ஓபன் சோர்ஸ் செய்வது ஆராய்ச்சி சமூகத்திற்கு ஒரு குறிப்பிடத்தக்க பங்களிப்பாகும். இந்த கருவிகளை இலவசமாகக் கிடைக்கச் செய்வதன் மூலம் ஆராய்ச்சியாளர்கள் பெரிய அளவிலான மாடல்களுக்கான திறமையான பயிற்சி முறைகளை மேலும் ஆராய்வதற்கும் மேம்படுத்துவதற்கும் உதவுகின்றனர். இந்த திறந்த அணுகுமுறை ஒத்துழைப்பை ஊக்குவிக்கிறது மற்றும் துறையில் முன்னேற்றத்தை துரிதப்படுத்துகிறது எதிர்காலத்தில் இன்னும் சக்திவாய்ந்த மற்றும் அணுகக்கூடிய மொழி மாதிரிகளுக்கான வழியை வகுக்கிறது. மியூயோன் போன்ற ஆப்டிமைசர்களின் தொடர்ச்சியான சுத்திகரிப்பு பெரிய மாடல்களை உருவாக்குவது மட்டுமல்ல; இது அவற்றை புத்திசாலித்தனமாக உருவாக்குவது கிடைக்கக்கூடிய வளங்களை அதிகப்படுத்துவது மற்றும் AI ஆராய்ச்சியின் அதிநவீனத்தை அணுகுவதை ஜனநாயகப்படுத்துவது பற்றியது.