பெரிய மொழி மாதிரி மேம்படுத்தலின் மாறிவரும் நிலப்பரப்பு
செயற்கை நுண்ணறிவு அரங்கில் ஒரு முன்னுதாரண மாற்றம் நிகழ்ந்து வருகிறது, குறிப்பாக பெரிய மொழி மாதிரிகளின் (LLMs) ஆரம்ப பயிற்சிக்குப் பிறகு வரும் செம்மைப்படுத்தும் நிலைகளில். வலுவூட்டல் கற்றல் (RL), வெகுமதிகளால் வழிநடத்தப்படும் சோதனை மற்றும் பிழை மூலம் மாதிரிகள் கற்கும் ஒரு நுட்பமான முறை, குறிப்பிடத்தக்க செயல்திறன் ஆதாயங்களை இயக்கும் ஒரு சக்திவாய்ந்த சக்தியாக உருவெடுத்துள்ளது. இந்த அணுகுமுறை கல்வி ஆர்வத்திலிருந்து முன்னணி AI டெவலப்பர்களுக்கான ஒரு மூலக்கல்லாக மாறியுள்ளது. OpenAI இன் O-series மற்றும் குறிப்பிடத்தக்க DeepSeek R1 போன்ற மாதிரிகளால் வெளிப்படுத்தப்பட்ட ஈர்க்கக்கூடிய திறன்கள், மாதிரி வெளியீடுகளை மேம்படுத்துவதிலும், சிக்கல் தீர்க்கும் திறன்களை மேம்படுத்துவதிலும், AI நடத்தையை மனித எதிர்பார்ப்புகள் மற்றும் விருப்பங்களுடன் மிகவும் நெருக்கமாக சீரமைப்பதிலும் வலுவூட்டல் கற்றலின் முக்கிய செயல்பாட்டை அடிக்கோடிட்டுக் காட்டும் கட்டாய ஆதாரங்களாக செயல்படுகின்றன. இந்தப் பயிற்சிக்குப் பிந்தைய கட்டம் இனி நுண் சரிசெய்தல் பற்றியது மட்டுமல்ல; இது மாதிரியின் அறிவாற்றல் திறனை அடிப்படையில் மேம்படுத்துவதாகும்.
Hunyuan-T1 ஐ அறிமுகப்படுத்துகிறோம்: ஆழ்ந்த சிந்தனை திறன்களில் ஒரு பாய்ச்சல்
இந்த விரைவான முன்னேற்றத்தின் பின்னணியில், Tencent இன் Hunyuan குழு ஒரு குறிப்பிடத்தக்க மைல்கல்லைக் குறித்துள்ளது. இந்த ஆண்டின் தொடக்கத்தில், பிப்ரவரி நடுப்பகுதியில், குழு Hunyuan T1-Preview (Hunyuan-Thinker-1-Preview) உடன் தங்கள் முன்னேற்றத்தைப் பற்றிய ஒரு பார்வையை வழங்கியது. Tencent Yuanbao பயன்பாட்டில் ஒருங்கிணைக்கப்பட்ட, நடுத்தர அளவிலான Hunyuan தளத்தின் மீது கட்டமைக்கப்பட்ட இந்த ஆரம்ப பகுத்தறிவு மாதிரி, பயனர்களுக்கு விரைவான மற்றும் ஆழ்ந்த பகுப்பாய்வு திறன்களின் சுவையை வழங்கியது.
அந்த அடித்தளத்தின் மீது கட்டமைத்து, Hunyuan பெரிய மாதிரி குடும்பத்திற்குள் ஆழமான சிந்தனை மாதிரியின் முழுமையாக உணரப்பட்ட பதிப்பான Hunyuan-T1 இன் அதிகாரப்பூர்வ வெளியீட்டை அறிவிப்பதில் நாங்கள் இப்போது பெருமிதம் கொள்கிறோம். இது வெறும் படிப்படியான புதுப்பிப்பு அல்ல; இது ஒரு கணிசமான பரிணாமத்தை பிரதிபலிக்கிறது. Hunyuan-T1, TurboS வேகமான சிந்தனைத் தளத்தை பயன்படுத்துகிறது, இது மார்ச் மாத தொடக்கத்தில் Tencent ஆல் அறிமுகப்படுத்தப்பட்ட ஒரு அற்புதமான கட்டமைப்பு. TurboS ஐ குறிப்பாக குறிப்பிடத்தக்கதாக ஆக்குவது, உலகின் முதன்மையான மிக பெரிய அளவிலான Hybrid-Transformer-Mamba Mixture of Experts (MoE) பெரிய மாதிரி என்ற அதன் வேறுபாடு ஆகும். இந்த புதுமையான கலப்பின அமைப்பு, நிறுவப்பட்ட Transformer கட்டமைப்புகளின் பலங்களையும், புதிய Mamba நிலை வெளி மாதிரியின் செயல்திறன் மற்றும் வரிசை கையாளும் திறனையும் ஒருங்கிணைக்கிறது. ஒரு விரிவான மற்றும் உன்னிப்பாக வடிவமைக்கப்பட்ட பயிற்சிக்குப் பிந்தைய விதிமுறையின் மூலம், Hunyuan-T1 இன் பகுத்தறிவு திறன்கள் வியத்தகு முறையில் பெருக்கப்பட்டுள்ளன, மேலும் நுணுக்கமான மனித விருப்பங்களுடன் அதன் சீரமைப்பு கணிசமாக செம்மைப்படுத்தப்பட்டுள்ளது. அதன் முன்னோடி மாதிரியுடன் ஒப்பிடும்போது, அதிகாரப்பூர்வ Hunyuan-T1 அனைத்து துறைகளிலும் குறிப்பிடத்தக்க மேம்பாடுகளை நிரூபிக்கிறது, இது தொழில்துறையின் முன்னணி, உயர் பகுத்தறிவு பெரிய மாதிரிகள் மத்தியில் ஒரு வலிமையான போட்டியாளராக நிலைநிறுத்துகிறது.
கட்டமைப்பு நன்மைகள்: TurboS மற்றும் Mamba வின் சக்தி
Hunyuan-T1 க்கான அடித்தளமாக TurboS ஐத் தேர்ந்தெடுப்பது தனித்துவமான நன்மைகளை வழங்குகிறது, குறிப்பாக ஆழமான, பல-படி பகுத்தறிவு தேவைப்படும் பணிகளைக் கையாளும் போது. பல பெரிய மொழி மாதிரிகளில் ஒரு முக்கியமான இடையூறு, விரிவான ஆவணங்கள் அல்லது நீண்ட உரையாடல்களைக் கையாளும் போது எழுகிறது. ஆரம்பத்தில் வழங்கப்பட்ட தகவல்கள், மாதிரி அடுத்தடுத்த உரையைச் செயலாக்கும்போது நீர்த்துப்போகலாம் அல்லது முற்றிலும் இழக்கப்படலாம், இது சூழல் இழப்பு (context loss) என அறியப்படுகிறது. மேலும், உரையின் பெரிய பகுதிகளால் பிரிக்கப்பட்ட புள்ளிகளுக்கு இடையில் இணைப்புகளை நிறுவுதல் - நீண்ட தூர தகவல் சார்பு (long-distance information dependence) - ஒரு குறிப்பிடத்தக்க கணக்கீட்டு சவாலை ஏற்படுத்துகிறது.
TurboS இலிருந்து பெறப்பட்ட Hunyuan-T1 ஐ ஆதரிக்கும் கட்டமைப்பு, இந்த வரம்புகளை நேரடியாக எதிர்கொள்கிறது. அதன் உள்ளார்ந்த வடிவமைப்பு வலுவான நீண்ட உரை பிடிப்பை (long-text capture) உறுதி செய்கிறது, மாதிரி உள்ளீட்டின் முழுமையையும் உறுதியாகப் பிடித்துக் கொள்வதை உறுதிசெய்கிறது, இதன் மூலம் சூழல் இழப்பைக் குறைக்கிறது மற்றும் நீட்டிக்கப்பட்ட வரிசைகளில் முக்கியமான உறவுகளை மிகவும் நம்பகத்தன்மையுடன் அடையாளம் காட்டுகிறது. இந்தத் திறன் சிக்கலான பகுத்தறிவுப் பணிகளுக்கு முக்கியமானது, அவை பெரும்பாலும் ஒரு பெரிய உரைத் தொகுப்பில் சிதறியுள்ள தகவல்களை ஒருங்கிணைக்க வேண்டும்.
இந்த மேம்பட்ட திறனுக்கு மையமானது Mamba கட்டமைப்பு கூறு ஆகும். Mamba பல Transformer மாதிரிகளில் ஆதிக்கம் செலுத்தும் முற்றிலும் கவனம் சார்ந்த வழிமுறைகளிலிருந்து ஒரு விலகலைக் குறிக்கிறது. இது ஒரு நிலை வெளி மாதிரி (State Space Model - SSM) அணுகுமுறையைப் பயன்படுத்துகிறது, குறிப்பாக நீண்ட வரிசைகளை குறிப்பிடத்தக்க செயல்திறனுடன் செயலாக்க உகந்ததாக உள்ளது. முக்கிய நன்மைகள் பின்வருமாறு:
- நேரியல் நேர சிக்கலானது (Linear Time Complexity): வரிசை நீளம் தொடர்பான நிலையான கவனம் வழிமுறைகளின் இருபடி சிக்கலைப் போலல்லாமல், Mamba நேரியல் ரீதியாக அளவிடுகிறது. இது மிக நீண்ட உரைகளை செயலாக்குவதை தடைசெய்யும் வளத் தேவைகள் இல்லாமல் கணக்கீட்டு ரீதியாக சாத்தியமாக்குகிறது.
- திறமையான கணக்கீடு (Efficient Computation): Mamba வடிவமைப்பு பயிற்சியின் போது இணையான கணக்கீடுகளையும், அனுமானத்தின் போது திறமையான தொடர்ச்சியான செயல்பாடுகளையும் அனுமதிக்கிறது. இது நேரடியாக வேகமான செயலாக்க வேகங்களாக மொழிபெயர்க்கப்படுகிறது.
- தேர்ந்தெடுக்கப்பட்ட நிலை மேலாண்மை (Selective State Management): Mamba மாதிரிகள் ஒரு வரிசையைச் செயலாக்கும்போது தகவல்களைத் தேர்ந்தெடுத்துத் தக்கவைக்கலாம் அல்லது மறக்கலாம், இது சூழல் நிர்வாகத்திற்கான மிகவும் கவனம் செலுத்திய அணுகுமுறையைப் பிரதிபலிக்கிறது, இது நீண்ட தூரங்களில் தொடர்புடைய தகவல்களைப் பராமரிக்க இன்றியமையாதது.
இதன் விளைவாக, TurboS, மற்றும் அதன் நீட்டிப்பாக Hunyuan-T1, ஒத்த அளவிலான பாரம்பரிய Transformer மாதிரிகளுடன் ஒப்பிடும்போது கணிசமாக குறைவான கணக்கீட்டு வளங்களைப் பயன்படுத்தும் போது நீண்ட உள்ளீடுகளை திறம்பட பகுப்பாய்வு செய்ய முடியும். உள் அளவுகோல்கள், ஒரே மாதிரியான வரிசைப்படுத்தல் நிலைமைகளின் கீழ், Mamba மேம்படுத்தல் இல்லாத ஒப்பிடக்கூடிய மாதிரிகளை விட Hunyuan-T1 இரண்டு மடங்கு வேகமான டிகோடிங் வேகத்தை அடைகிறது என்பதைக் குறிக்கிறது, இது சரியான நேரத்தில் பதில்கள் தேவைப்படும் நிஜ உலக பயன்பாடுகளுக்கு ஒரு முக்கியமான காரணியாகும்.
பயிற்சிக்குப் பிந்தைய தீட்சை: வலுவூட்டல் கற்றலுடன் பகுத்தறிவு திறனை உருவாக்குதல்
அடிப்படை TurboS மாதிரியிலிருந்து மிகவும் திறமையான Hunyuan-T1 க்கு மாறுவது ஒரு பெரிய மற்றும் மூலோபாய ரீதியாக கவனம் செலுத்திய பயிற்சிக்குப் பிந்தைய கட்டத்தை உள்ளடக்கியது. மேம்பட்ட கற்றல் நுட்பங்களின் முக்கிய பங்கை உணர்ந்து, Tencent இந்த கட்டத்திற்காக ஒதுக்கப்பட்ட கணக்கீட்டு வளங்களில் 96.7% ஐ குறிப்பாக வலுவூட்டல் கற்றல் பயிற்சிக்கு அர்ப்பணித்தது. இந்த மகத்தான முதலீடு ஒரு தெளிவான மூலோபாய முன்னுரிமையை அடிக்கோடிட்டுக் காட்டுகிறது: மாதிரியின் தூய பகுத்தறிவு திறன்களை உயர்த்துதல் மற்றும் அதன் வெளியீடுகளை சிக்கலான மனித தீர்ப்புகள் மற்றும் விருப்பங்களுடன் உன்னிப்பாக சீரமைத்தல்.
இது வெறுமனே மாதிரிக்கு அதிக தரவை ஊட்டுவது பற்றியது அல்ல; இது எப்படி மிகவும் திறம்பட சிந்திக்க வேண்டும் என்று கற்பிப்பது பற்றியது. இந்த RL-தீவிர கட்டத்தின் முக்கிய நோக்கங்கள் இருமடங்காக இருந்தன:
- தூய பகுத்தறிவை மேம்படுத்துதல்: பல்வேறு களங்களில் தர்க்கரீதியான கழித்தல், கணித கணக்கீடு, காரண அனுமானம் மற்றும் சிக்கலான சிக்கல் தீர்க்கும் திறனைச் செய்வதற்கான மாதிரியின் திறனின் எல்லைகளைத் தள்ளுதல்.
- மனித சீரமைப்பை மேம்படுத்துதல்: மாதிரியின் பதில்கள் துல்லியமாக இருப்பது மட்டுமல்லாமல், உதவியாகவும், பாதிப்பில்லாததாகவும், நேர்மையாகவும், மனித பயனர்களுடன் எதிரொலிக்கும் வகையில் நுணுக்கமாகவும் இருப்பதை உறுதி செய்தல். இது மறைமுகமான நோக்கத்தைப் புரிந்துகொள்வது, ஒத்திசைவான மற்றும் சூழலுக்குப் பொருத்தமான வெளியீடுகளை உருவாக்குவது மற்றும் பாதுகாப்பு வழிகாட்டுதல்களைப் பின்பற்றுவது ஆகியவற்றை உள்ளடக்கியது.
இந்தக் கோரும் பயிற்சி செயல்முறைக்கு எரிபொருளாக, ஒரு பரந்த மற்றும் மாறுபட்ட தரவுத்தொகுப்பு உன்னிப்பாகத் தொகுக்கப்பட்டது. இந்தத் தொகுப்பு உலக அறிவியல் மற்றும் பகுத்தறிவு சிக்கல்களை உள்ளடக்கியது, இது பரந்த அளவிலான துறைகளை உள்ளடக்கியது:
- கணிதம்: அடிப்படை எண்கணிதம் மற்றும் இயற்கணிதம் முதல் கால்குலஸ், எண் கோட்பாடு மற்றும் மேம்பட்ட போட்டி நிலை சிக்கல்கள் வரை.
- தர்க்கரீதியான பகுத்தறிவு: புதிர்கள், கழித்தல் பகுத்தறிவு பணிகள், விமர்சன சிந்தனை சவால்கள் மற்றும் முறையான தர்க்க சிக்கல்கள்.
- அறிவியல்: இயற்பியல், வேதியியல், உயிரியல் மற்றும் பிற அறிவியல் துறைகளை உள்ளடக்கிய கேள்விகள் மற்றும் சிக்கல்கள், பெரும்பாலும் பல-படி பகுத்தறிவு மற்றும் கொள்கைகளின் பயன்பாடு தேவைப்படுகிறது.
- குறியீட்டு முறை: அல்காரிதம் வடிவமைப்பு, குறியீடு உருவாக்கம், பிழைத்திருத்தம் மற்றும் பல்வேறு மொழிகளில் சிக்கலான நிரலாக்க தர்க்கத்தைப் புரிந்துகொள்வது.
முக்கியமாக, இந்தத் தரவு உண்மை அடிப்படையிலான உண்மையான பின்னூட்டத்துடன் (ground-truth real feedback) இணைக்கப்பட்டது. இந்த பின்னூட்ட வளையம் வலுவூட்டல் கற்றலுக்கு இன்றியமையாதது, எந்த பகுத்தறிவு பாதைகள் சரியான அல்லது விருப்பமான விளைவுகளுக்கு வழிவகுக்கும் என்பதை மாதிரி புரிந்து கொள்ள தேவையான சமிக்ஞையை வழங்குகிறது. இந்த கடுமையான அடித்தளம், நிஜ உலக சூழ்நிலைகளில் எதிர்கொள்ளும் பரந்த அளவிலான சவாலான பகுத்தறிவு பணிகளுடன் எதிர்கொள்ளும்போது Hunyuan-T1 நிரூபிக்கக்கூடிய திறமையை வளர்த்துக் கொள்வதை உறுதி செய்கிறது.
நுட்பமான பயிற்சி முறைகள்
கணக்கீட்டு முதலீடு மற்றும் தரவு சேகரிப்பின் முழு அளவும் கற்றல் செயல்திறன் மற்றும் மாதிரி நிலைத்தன்மையை அதிகரிக்க வடிவமைக்கப்பட்ட நுட்பமான பயிற்சி உத்திகளுடன் இணைக்கப்பட்டது.
- பாடத்திட்ட கற்றல் (Curriculum Learning): மிகவும் சிக்கலான சிக்கல்களுடன் உடனடியாக மாதிரியை மூழ்கடிப்பதற்குப் பதிலாக, ஒரு பாடத்திட்ட கற்றல் அணுகுமுறை பின்பற்றப்பட்டது. பயிற்சி எளிமையான பணிகளுடன் தொடங்கியது மற்றும் படிப்படியாக மிகவும் கடினமான சிக்கல்களை அறிமுகப்படுத்தியது. அதே நேரத்தில், மாதிரியின் பயனுள்ள சூழல் நீளம் படிப்படியாக விரிவுபடுத்தப்பட்டது. இந்த நிலைப்படுத்தப்பட்ட அணுகுமுறை, மேம்பட்ட சவால்களைச் சமாளிப்பதற்கு முன், மாதிரி அடிப்படை பகுத்தறிவு திறன்களை உருவாக்க அனுமதிக்கிறது, மேலும் நிலையான மற்றும் திறமையான கற்றலை ஊக்குவிக்கிறது. இது பயனுள்ள பகுத்தறிவுக்காக அதன் டோக்கன் திறனை நியாயமாகப் பயன்படுத்தவும் மாதிரியைப் பயிற்றுவிக்கிறது, அதன் சிந்தனை செயல்பாட்டில் கணக்கீட்டு செயல்திறனின் ஒரு வடிவத்தை உருவாக்குகிறது.
- மேம்பட்ட வலுவூட்டல் கற்றல் நுட்பங்கள்: நீடித்த RL பயிற்சியின் போது வலுவான மற்றும் நிலையான முன்னேற்றத்தை உறுதிப்படுத்த, உன்னதமான மற்றும் சக்திவாய்ந்த உத்திகள் பயன்படுத்தப்பட்டன. தரவு மறுபதிப்பு (data replay) (கற்றலை வலுப்படுத்த கடந்த கால அனுபவங்களை மீண்டும் பயன்படுத்துதல்) மற்றும் காலமுறை கொள்கை மீட்டமைப்பு (periodic policy resetting) (வேறுபாட்டைத் தடுக்க அவ்வப்போது முந்தைய, நிலையான மாதிரி நிலைகளுக்குத் திரும்புதல்) போன்ற நுட்பங்கள் ஒருங்கிணைக்கப்பட்டன. இந்த முறைகள் மிகவும் பயனுள்ளதாக நிரூபிக்கப்பட்டன, பெரிய அளவிலான RL முயற்சிகளைப் பாதிக்கக்கூடிய பேரழிவு மறதி அல்லது கொள்கை சரிவு போன்ற சிக்கல்களைக் குறைப்பதன் மூலம் மாதிரி பயிற்சி செயல்முறையின் நீண்டகால நிலைத்தன்மையை 50% க்கும் அதிகமாக கணிசமாக அதிகரித்தன.
- ஒருங்கிணைந்த வெகுமதி அமைப்பு (Unified Reward System): மனித விருப்பங்களுடன் மாதிரியை சீரமைப்பது ஒரு சிக்கலான பணியாகும். Hunyuan-T1 ஒரு புதுமையான ஒருங்கிணைந்த வெகுமதி அமைப்பைப் பயன்படுத்தியது. இந்த அமைப்பு இரண்டு மூலங்களிலிருந்து பின்னூட்டத்தை ஒருங்கிணைத்தது:
- சுய-வெகுமதி (Self-Rewarding): T1-preview மாதிரியின் முந்தைய பதிப்பு, பயிற்சிக்கு உட்பட்ட மாதிரியின் வெளியீடுகளை விரிவாக மதிப்பீடு செய்வதற்கும் மதிப்பெண் செய்வதற்கும் ஒரு தானியங்கு நீதிபதியாகப் பயன்படுத்தப்பட்டது. இது முன் வரையறுக்கப்பட்ட அளவுகோல்களின் அடிப்படையில் விரைவான, பெரிய அளவிலான பின்னூட்ட உருவாக்கத்தை அனுமதிக்கிறது.
- வெகுமதி மாதிரி (Reward Model): மனித விருப்பங்களை முன்னறிவிப்பதற்காக பிரத்யேகமாகப் பயிற்றுவிக்கப்பட்ட ஒரு தனி மாதிரி, தரம், உதவி மற்றும் பாதுகாப்பின் நுட்பமான அம்சங்களைப் பிடிக்கும் கூடுதல் வழிகாட்டுதல் அடுக்கை வழங்கியது.
இந்த ஒருங்கிணைந்த பின்னூட்ட வழிமுறை, சுய-மேம்பாட்டு செயல்முறையின் மூலம் மாதிரிக்கு வழிகாட்டியது, செழுமையான உள்ளடக்க விவரங்கள், மேலும் திறமையான தகவல் வழங்கல் மற்றும் விரும்பிய மறுமொழி பண்புகளுடன் சிறந்த ஒட்டுமொத்த சீரமைப்பு ஆகியவற்றால் வகைப்படுத்தப்படும் வெளியீடுகளை ஊக்குவித்தது.
செயல்திறன் அளவுகோல்கள்: உயரடுக்கு மத்தியில் உயர்ந்து நிற்கிறது
ஒரு பெரிய மொழி மாதிரியின் இறுதி அளவீடு அதன் செயல்திறனில் உள்ளது. Hunyuan-T1 பொது அளவுகோல்கள் மற்றும் உள் தரவுத்தொகுப்புகளின் ஒரு பேட்டரிக்கு எதிராக கடுமையாக மதிப்பீடு செய்யப்பட்டுள்ளது, இது சமகால AI மாதிரிகளின் மேல் அடுக்கில் உறுதியாக நிலைநிறுத்தும் திறன்களை நிரூபிக்கிறது.
DeepSeek R1, மற்றொரு மிகவும் மதிக்கப்படும் பகுத்தறிவு-கவனம் செலுத்திய மாதிரியுடன் ஒப்பிடும்போது, Hunyuan-T1 பல முக்கிய பொது அளவுகோல்களில் ஒப்பிடக்கூடிய அல்லது சற்று உயர்ந்த முடிவுகளை அடைகிறது, இது வெவ்வேறு மொழிகள் மற்றும் களங்களில் அறிவு மற்றும் பகுத்தறிவை மதிப்பிடுகிறது:
- MMLU-pro: பல்வேறு தொழில்முறை மற்றும் கல்விப் பாடங்களில் விரிவான அறிவு மற்றும் பகுத்தறிவை மதிப்பீடு செய்ய வடிவமைக்கப்பட்ட ஒரு சவாலான அளவுகோல்.
- CEval: ஒரு பல-துறை சீன மொழி மதிப்பீட்டுத் தொகுப்பு.
- AIME: நுட்பமான பகுத்தறிவு தேவைப்படும் போட்டி-நிலை கணித சிக்கல்களில் கவனம் செலுத்துகிறது.
- Zebra Logic: சிக்கலான தர்க்கரீதியான கழித்தல் புதிர்களை குறிப்பாக குறிவைக்கும் ஒரு அளவுகோல்.
இந்த குறிப்பிட்ட சோதனைகளுக்கு அப்பால், உள் மனித மதிப்பீட்டு தரவுத்தொகுப்புகள் மேலும் நுண்ணறிவுகளை வழங்குகின்றன. பல பகுதிகளில் R1 உடன் சமமாக செயல்படும்போது, Hunyuan-T1 பின்வரும் பணிகளில் சற்று நன்மையைக் காட்டுகிறது:
- கலாச்சார மற்றும் படைப்பாற்றல் அறிவுறுத்தலைப் பின்பற்றுதல்: படைப்பாற்றல் உரை வடிவங்களை உருவாக்குதல், கலாச்சார நுணுக்கங்களுடன் குறிப்பிட்ட பாணி கோரிக்கைகளுக்கு ஏற்ப மாற்றுதல்.
- உரை சுருக்கம்: முக்கிய தகவல்களைப் பாதுகாக்கும் போது நீண்ட ஆவணங்களின் சுருக்கமான மற்றும் துல்லியமான சுருக்கங்களை உருவாக்குதல்.
- முகவர் திறன்கள் (Agent Capabilities): திட்டமிடல், கருவி பயன்பாடு மற்றும் வெளிப்புற அமைப்புகளுடன் தொடர்பு கொள்ளுதல் தேவைப்படும் பணிகளில் திறமையை வெளிப்படுத்துதல்.
ஒட்டுமொத்த திறனை அளவிட வடிவமைக்கப்பட்ட விரிவான மதிப்பீட்டு அளவீடுகளைப் பார்க்கும்போது, Hunyuan-T1 உயரடுக்கு அனுமான மாதிரிகள் மத்தியில் அதன் நிலையை உறுதிப்படுத்துகிறது.
- MMLU-PRO இல், T1 87.2 என்ற குறிப்பிடத்தக்க மதிப்பெண்ணை அடைந்தது, மதிப்பீட்டின் போது OpenAI இன் O1 மாதிரிக்கு அடுத்தபடியாக இரண்டாவது இடத்தில் உள்ளது. இந்த அளவுகோல் மனிதநேயம், சமூக அறிவியல் மற்றும் STEM பாடங்கள் உட்பட 14 துறைகளை உள்ளடக்கியது, பரந்த அறிவு நினைவு மற்றும் புரிதல் இரண்டையும் சோதிக்கிறது.
- GPQA-diamond இல் செயல்திறனும் குறிப்பிடத்தக்கது. இந்த அளவுகோல் நிபுணர்-நிலை அறிவு மற்றும் சிக்கலான அறிவியல் பகுத்தறிவில் கவனம் செலுத்துகிறது, முதன்மையாக இயற்பியல், வேதியியல் மற்றும் உயிரியல் ஆகியவற்றில் முனைவர்-நிலை சிக்கல்களைக் கொண்டுள்ளது. Hunyuan-T1 69.3 மதிப்பெண்ணை அடைந்தது, இது மிகவும் சிறப்பு வாய்ந்த மற்றும் சிக்கலான அறிவியல் கேள்விகளைக் கையாளும் வலுவான திறன்களைக் குறிக்கிறது.
அறிவியல், பொறியியல் மற்றும் சீரமைப்பில் சிறந்து விளங்குகிறது
மேலும் மதிப்பீடுகள் வலுவான பகுத்தறிவு திறன்கள் தேவைப்படும் குறிப்பிட்ட பகுதிகளில் ஆழமாக ஆராய்ந்தன:
- குறியீட்டு முறை: நடைமுறை குறியீட்டு சிக்கல் தீர்க்கும் திறனை சோதிக்கும் LiveCodeBench குறியீடு மதிப்பீட்டில், T1 64.9 மதிப்பெண்ணை எட்டியது, இது திடமான நிரலாக்க தர்க்கம் மற்றும் குறியீடு உருவாக்கும் திறன்களை நிரூபிக்கிறது.
- கணிதம்: மாதிரி கணிதத்தில் விதிவிலக்கான வலிமையைக் காட்டுகிறது. சவாலான கணித சிக்கல்களின் தரவுத்தொகுப்பான MATH-500 இல் அதன் செயல்திறன் 96.2 என்ற சிறந்த மதிப்பெண்ணை அளித்தது. இந்த முடிவு அதை DeepSeek R1 உடன் சமமாக வைக்கிறது, சிக்கலான கணித பகுத்தறிவைக் கையாளும் Hunyuan-T1 இன் ஆழ்ந்த திறனை எடுத்துக்காட்டுகிறது.
- சீரமைப்பு மற்றும் அறிவுறுத்தலைப் பின்பற்றுதல்: தூய சிக்கல் தீர்க்கும் திறனுக்கு அப்பால், T1 பல்வேறு சீரமைப்புப் பணிகளில் வலுவான தகவமைப்பைக் காட்டுகிறது. இது அறிவுறுத்தலைப் பின்பற்றும் சூழ்நிலைகளில் சிறந்து விளங்குகிறது மற்றும் தேவைப்படும்போது கருவிகளைப் பயன்படுத்துவதில் திறமையை வெளிப்படுத்துகிறது. உதாரணமாக, சவாலான, பயனர் உருவாக்கிய தூண்டுதல்களில் செயல்திறனை மதிப்பீடு செய்ய வடிவமைக்கப்பட்ட ArenaHard பணியில், T1 91.9 என்ற உயர் மதிப்பெண்ணை அடைந்தது.
இந்த முடிவுகள் கூட்டாக மிகவும் திறமையான, பல்துறை மற்றும் நன்கு சீரமைக்கப்பட்ட பெரிய மொழி மாதிரியின் படத்தை வரைகின்றன. Hybrid-Transformer-Mamba கட்டமைப்பின் மூலோபாய ஒருங்கிணைப்பு, ஒரு தீவிரமான, RL-கவனம் செலுத்திய பயிற்சிக்குப் பிந்தைய விதிமுறையுடன் இணைந்து, Hunyuan-T1 இல் உச்சக்கட்டத்தை அடைந்துள்ளது - இது விதிவிலக்கான பகுத்தறிவு திறனை வெளிப்படுத்தும் ஒரு மாதிரி, குறிப்பாக சிக்கலான, நீண்ட-சூழல் சூழ்நிலைகள் மற்றும் கோரும் அறிவியல் மற்றும் கணித களங்களில்.