வேகம் மற்றும் செயல்திறனின் புதிய சகாப்தம்
Hunyuan T1-இன் வரையறுக்கும் குணாதிசயங்கள் அதன் வேகமான சொற்றொடர் உருவாக்கம், உடனடி மறுமொழி நேரங்கள் மற்றும் நீட்டிக்கப்பட்ட உரை வரிசைகளைக் கையாள்வதில் விதிவிலக்கான திறமை. Tencent, Hunyuan T1-ஐ ஒரு சக்திவாய்ந்த பகுத்தறிவு மாதிரியாக நிலைநிறுத்தியுள்ளது, இது தனியுரிம தொழில்நுட்பத்துடன் அடித்தளத்திலிருந்து கட்டமைக்கப்பட்டுள்ளது.
Hunyuan T1-இன் மிகவும் குறிப்பிடத்தக்க அம்சங்களில் ஒன்று அதன் decoding performance. ஒப்பிடக்கூடிய அளவுரு எண்ணிக்கையின் கீழ், இது தொழில்துறை சகாக்களை விட இரு மடங்கு டிகோடிங் வேகத்தை அடைகிறது. இது உடனடி முதல்-வார்த்தை மறுமொழி நேரங்கள் மற்றும் வினாடிக்கு 60 முதல் 80 டோக்கன்கள் வரையிலான சொற்றொடர் வேகத்திற்கு மொழிபெயர்க்கிறது. நிகழ்நேர தொடர்பு மற்றும் பதிலளிப்பு தேவைப்படும் பயன்பாடுகளுக்கு இந்த வேக நன்மை குறிப்பாக முக்கியமானது.
முழுமையான வேகத்திற்கு அப்பால், Hunyuan T1 நீண்ட உரைகளை செயலாக்குவதில் சிறந்து விளங்குகிறது. இதன் கட்டமைப்பு குறிப்பாக நீட்டிக்கப்பட்ட வரிசைகளின் சிக்கல்களைக் கையாள வடிவமைக்கப்பட்டுள்ளது, இது நீண்ட ஆவணங்களைச் சுருக்குதல், விரிவான கோட்பேஸ்களைப் பகுப்பாய்வு செய்தல் அல்லது பல-திருப்ப உரையாடல்களில் ஈடுபடுதல் போன்ற பணிகளுக்கு ஏற்றதாக அமைகிறது.
மேம்படுத்தப்பட்ட பகுத்தறிவு மற்றும் துல்லியம்
Hunyuan T1 வலுவான தர்க்கம், சுருக்கமான எழுத்து நடை மற்றும் சிக்கலான வழிமுறைகளை நுணுக்கமாகப் பின்பற்றும் திறனை வெளிப்படுத்துகிறது. மேலும், இது சுருக்கங்களில் குறைந்தபட்ச மாயத்தோற்றத்தை வெளிப்படுத்துகிறது, இது பல பெரிய மொழி மாதிரிகளுக்கு ஒரு பொதுவான குறைபாடு.
மாதிரியின் மேம்படுத்தப்பட்ட பகுத்தறிவு திறன்கள் விரிவான வலுவூட்டல் கற்றலின் விளைவாகும், இது அறிவியல் மற்றும் கணித சவால்களுக்கான இலக்கு மேம்படுத்தல்களுடன் இணைக்கப்பட்டுள்ளது. இதில் பின்வரும் பகுதிகள் அடங்கும்:
- கணிதம்: சிக்கலான சமன்பாடுகளைத் தீர்ப்பது மற்றும் கணிதக் கருத்துகளைப் புரிந்துகொள்வது.
- தர்க்கரீதியான பகுத்தறிவு: கொடுக்கப்பட்ட வளாகங்களிலிருந்து முடிவுகளைக் கழித்தல் மற்றும் தர்க்கரீதியான தவறுகளை அடையாளம் காணுதல்.
- அறிவியல்: அறிவியல் கொள்கைகளைப் பயன்படுத்துதல் மற்றும் அறிவியல் இலக்கியங்களைப் புரிந்துகொள்வது.
- கோடிங்: பல்வேறு நிரலாக்க மொழிகளில் குறியீட்டை உருவாக்குதல் மற்றும் விளக்குதல்.
இந்த மேம்பாடுகள் Hunyuan T1-ஐ ஆராய்ச்சி மற்றும் மேம்பாடு முதல் உள்ளடக்க உருவாக்கம் மற்றும் தரவு பகுப்பாய்வு வரை பரந்த அளவிலான பயன்பாடுகளுக்கு ஒரு பல்துறை கருவியாக ஆக்குகின்றன.
அளவுகோல் மற்றும் செயல்திறன்
Hunyuan T1 பல்வேறு தொழில்துறை-தரமான அளவுகோல்களில் கடுமையான சோதனைக்கு உட்படுத்தப்பட்டுள்ளது, இது அதன் உயர்ந்த செயல்திறனை நிரூபிக்கிறது.
பெரிய மொழி மாதிரிகளை மதிப்பிடுவதற்கான மேம்பட்ட அளவுகோலான MMLU-PRO தரவுத்தொகுப்பில், Hunyuan T1 87.2 மதிப்பெண்ணை அடைந்தது. இது OpenAI-இன் o1 (89.3) க்கு அடுத்தபடியாகவும், OpenAI-இன் GPT 4.5 (86.1) மற்றும் DeepSeek-இன் R1 (84) ஆகியவற்றை விடவும் முன்னணியில் உள்ளது.
சீன மற்றும் ஆங்கில அறிவு, அத்துடன் போட்டி-நிலை கணிதம் மற்றும் தர்க்கரீதியான பகுத்தறிவு (எ.கா., CEval, AIME மற்றும் Zebra Logic) ஆகியவற்றில் கவனம் செலுத்தும் பொதுவான அளவுகோல் சோதனைகளில், Hunyuan T1 தொடர்ந்து முன்னணி பகுத்தறிவு மாதிரிகளின் மட்டத்தில் செயல்பட்டது. குறிப்பாக, அதன் தர்க்கரீதியான பகுத்தறிவு மதிப்பெண் 93.1-ஐ எட்டியது, இது மேற்கூறிய மாதிரிகளை விட அதிகமாகும்.
புதுமையான கட்டமைப்பு: Hunyuan Turbo S
Hunyuan T1-இன் பின்னால் உள்ள சக்தி அதன் தனித்துவமான கட்டமைப்பில் உள்ளது, Hunyuan Turbo S. இந்தக் கட்டமைப்பு Hybrid-Mamba-Transformer மாடல்களின் ஒரு அற்புதமான இணைவைக் குறிக்கிறது. தொழில்துறையில் கலப்பின Mamba கட்டமைப்பு அல்ட்ரா-லார்ஜ் ரீசனிங் மாடல்களுக்கு இழப்பற்ற முறையில் பயன்படுத்தப்படுவது இதுவே முதல் முறை.
பாரம்பரிய Transformer கட்டமைப்பு, சக்திவாய்ந்ததாக இருந்தாலும், வரிசை நீளத்துடன் இருபடியாக அதிகரிக்கும் கணக்கீட்டு சிக்கலால் பாதிக்கப்படுகிறது. மறுபுறம், Mamba கட்டமைப்பு, நீண்ட வரிசைகளைக் கையாள்வதற்கு மிகவும் திறமையான அணுகுமுறையை வழங்குகிறது. இரண்டின் பலத்தையும் இணைப்பதன் மூலம், Hunyuan Turbo S கணக்கீட்டு சிக்கல் மற்றும் நினைவக பயன்பாட்டில் குறிப்பிடத்தக்க குறைப்பை அடைகிறது.
குறிப்பாக, கட்டமைப்பு பின்வரும் சவால்களை எதிர்கொள்கிறது:
- கணக்கீட்டு சிக்கல்தன்மை: கலப்பின அணுகுமுறை பாரம்பரிய Transformer கட்டமைப்புகளுடன் தொடர்புடைய கணக்கீட்டு சுமையை குறைக்கிறது, குறிப்பாக நீண்ட வரிசைகளுக்கு.
- KV-Cache நினைவக பயன்பாடு: கட்டமைப்பு Key-Value Cache (KV-Cache)-இன் நினைவக தடத்தை குறைக்கிறது, இது Transformer மாடல்களில் ஒரு முக்கியமான அங்கமாகும்.
- பயிற்சி மற்றும் பகுத்தறிவு செலவுகள்: குறைக்கப்பட்ட கணக்கீட்டு மற்றும் நினைவக தேவைகள் மாதிரி பயிற்சி மற்றும் வரிசைப்படுத்தல் இரண்டிற்கும் கணிசமாகக் குறைந்த செலவுகளுக்கு மொழிபெயர்க்கப்படுகின்றன.
நீண்ட உரை பகுத்தறிவில் தேர்ச்சி
Hunyuan T1-இன் கட்டமைப்பு நீண்ட உரை பகுத்தறிவு துறையில் ஒரு தனித்துவமான நன்மையை வழங்குகிறது. பல பெரிய மொழி மாதிரிகள் நீட்டிக்கப்பட்ட உரை வரிசைகளைக் கையாளும் போது சூழல் இழப்பு மற்றும் நீண்ட தூர தகவல் சார்பு போன்ற சிக்கல்களுடன் போராடுகின்றன. Hunyuan T1 இந்த சவால்களை திறம்பட குறைக்கிறது.
நீண்ட உரை பகுத்தறிவில் முக்கிய திறன்கள் பின்வருமாறு:
- சூழல் பாதுகாப்பு: மாதிரி நீண்ட உரைகள் முழுவதும் சூழலைப் பற்றிய வலுவான புரிதலைப் பராமரிக்கிறது, தகவல் இழப்பைத் தடுக்கிறது.
- நீண்ட தூர தகவல் சார்பு: Hunyuan T1 ஒரு உரையின் தொலைதூர பகுதிகளுக்கு இடையில் தகவலை துல்லியமாக கண்காணிக்கவும் தொடர்புபடுத்தவும் முடியும்.
- நீண்ட வரிசைகளுக்கு உகந்ததாக்கப்பட்டது: கலப்பின Mamba கட்டமைப்பு குறிப்பாக நீண்ட வரிசைகளை செயலாக்குவதற்கு ஏற்றது, நீண்ட தூர சார்புகளைப் பிடிக்கும் திறனைப் பாதுகாக்கும் அதே வேளையில் வள நுகர்வைக் குறைக்கிறது.
ஒத்த எண்ணிக்கையிலான ஆக்டிவேஷன் அளவுருக்களுடன் அடையப்பட்ட டிகோடிங் வேகத்தில் 2x அதிகரிப்பு, இந்த கட்டடக்கலை மேம்படுத்தல்களின் நேரடி விளைவாகும்.
போட்டி நிலப்பரப்பு மற்றும் உண்மையான உலக தாக்கம்
Hunyuan T1-இன் அதிகாரப்பூர்வ வெளியீட்டிற்கு முன், Tencent-இன் Hunyuan மாதிரி பெரிய மாதிரி போட்டிகளுக்கான ஒரு முக்கிய வெளிநாட்டு தளமான Chatbot Arena-வில் குறிப்பிடத்தக்க தோற்றத்தை ஏற்படுத்தியது. இது உலகளாவிய சிறந்த 15-இல் ஒரு இடத்தைப் பிடித்தது, இது ஒரு சர்வதேச அரங்கில் அதன் போட்டித்திறனை நிரூபிக்கிறது.
பல பிற மதிப்பீடுகளைப் போலல்லாமல், Chatbot Arena இறுதி பயனர்களின் கருத்தை நம்பியுள்ளது. பயனர்கள் பல மாடல்களுடன் அநாமதேயமாக தொடர்பு கொள்கிறார்கள் மற்றும் அவர்கள் சிறந்ததாகக் கருதும் ஒன்றிற்கு வாக்களிக்கிறார்கள். இது பயனர் விருப்பங்களின் அடிப்படையில் ஒரு லீடர்போர்டை உருவாக்குகிறது, இது மாதிரி செயல்திறனின் உண்மையான உலக மதிப்பீட்டை வழங்குகிறது.
சீன சந்தையில் அதன் நிலையை மேலும் உறுதிப்படுத்தும் வகையில், Tencent Hunyuan மாதிரி ‘Chinese Large Model Evaluation Benchmark SuperCLUE March Report’-இல் அடிப்படை மாடல்களில் இரண்டாவது இடத்தைப் பிடித்தது. இந்த தரவரிசை அதன் விரிவான வலிமையை அடிக்கோடிட்டுக் காட்டுகிறது மற்றும் உள்நாட்டு பெரிய மாடல்களின் மேல் அடுக்கில் உறுதியாக வைக்கிறது.
விலை மற்றும் கிடைக்கும் தன்மை
விலை பின்வருமாறு கட்டமைக்கப்பட்டுள்ளது:
- Input Price: ஒரு மில்லியன் டோக்கன்களுக்கு 1 யுவான்.
- Output Price: ஒரு மில்லியன் டோக்கன்களுக்கு 4 யுவான்.
Hunyuan Turbo S கட்டமைப்பின் விரிவான விளக்கம்
Hunyuan Turbo S கட்டமைப்பு Transformer மற்றும் Mamba மாடல்கள் இரண்டின் பலத்தையும் ஒருங்கிணைக்கிறது, இது செயல்திறன் மற்றும் நீண்ட தூர சார்பு கையாளுதலில் சிறந்து விளங்கும் ஒரு கலப்பின அணுகுமுறையை உருவாக்குகிறது. விவரங்களை ஆழமாகப் பார்ப்போம்:
Transformer கட்டமைப்பு:
‘Attention is All You Need’ என்ற செமினல் பேப்பரில் அறிமுகப்படுத்தப்பட்ட Transformer கட்டமைப்பு, இயற்கை மொழி செயலாக்கத்தில் புரட்சியை ஏற்படுத்தியது. இதன் முக்கிய கூறு self-attention mechanism ஆகும், இது தகவலை செயலாக்கும் போது ஒரு வரிசையில் உள்ள வெவ்வேறு சொற்களின் முக்கியத்துவத்தை எடைபோட மாதிரியை அனுமதிக்கிறது.
- Self-Attention: இந்த பொறிமுறையானது, வரிசையில் உள்ள அவற்றின் தூரத்தைப் பொருட்படுத்தாமல், சொற்களுக்கு இடையிலான உறவுகளைப் பிடிக்க மாதிரியை செயல்படுத்துகிறது. இது ஒவ்வொரு சொல்லுக்கும் மற்ற ஒவ்வொரு சொல்லுக்கும் உள்ள தொடர்பைக் குறிக்கும் கவன எடைகளைக் கணக்கிடுகிறது.
- Multi-Head Attention: Transformer பொதுவாக பல கவனத் தலைகளைப் பயன்படுத்துகிறது, இது சொற்களுக்கு இடையில் பல்வேறு வகையான உறவுகளைக் கற்றுக்கொள்ள மாதிரியை அனுமதிக்கிறது.
- Feed-Forward Networks: கவன பொறிமுறைக்குப் பிறகு, ஃபீட்-ஃபார்வர்ட் நெட்வொர்க்குகள் தகவலை மேலும் செயலாக்குகின்றன, மாதிரிக்கு நேரியல் அல்லாத தன்மையையும் சிக்கலையும் சேர்க்கின்றன.
- Positional Encoding: Transformer இயல்பாகவே சொல் வரிசையைப் புரிந்து கொள்ளாததால், வரிசையில் உள்ள ஒவ்வொரு சொல்லின் நிலையையும் பற்றிய தகவலை வழங்க, உள்ளீட்டு உட்பொதிவுகளுக்கு நிலை குறியாக்கம் சேர்க்கப்படுகிறது.
சக்திவாய்ந்ததாக இருந்தாலும், Transformer-இன் சுய-கவன பொறிமுறையானது O(n^2) இன் கணக்கீட்டு சிக்கலைக் கொண்டுள்ளது, இங்கு n என்பது வரிசை நீளம். இதன் பொருள் வரிசை நீளம் அதிகரிக்கும் போது, கணக்கீட்டு செலவு இருபடியாக அதிகரிக்கிறது, இது மிக நீண்ட உரைகளை செயலாக்குவதற்கு ஒரு தடையாகிறது.
Mamba கட்டமைப்பு:
Mamba என்பது Transformer-இன் கணக்கீட்டு வரம்புகளை, குறிப்பாக நீண்ட வரிசைகளுக்கு தீர்க்கும் ஒரு சமீபத்திய கட்டமைப்பாகும். இது State Space Model (SSM)-ஐ அடிப்படையாகக் கொண்டது, இது தொடர்ச்சியான தரவை மாடலிங் செய்வதற்கான ஒரு சக்திவாய்ந்த கட்டமைப்பாகும்.
- State Space Model (SSM): SSM-கள் ஒரு வரிசையை மறைக்கப்பட்ட நிலைகளின் தொடராகக் குறிக்கின்றன, அங்கு ஒவ்வொரு நிலையும் முந்தைய நிலை மற்றும் தற்போதைய உள்ளீட்டைப் பொறுத்தது. இது நீண்ட தூர சார்புகளை திறம்பட பிடிக்க மாதிரியை அனுமதிக்கிறது.
- Selective State Spaces: Mamba ஒரு தேர்வு பொறிமுறையை அறிமுகப்படுத்துகிறது, இது மறைக்கப்பட்ட நிலைகள் மூலம் தகவலைத் தேர்ந்தெடுத்துப் பரப்பவோ அல்லது நிராகரிக்கவோ மாதிரியை அனுமதிக்கிறது. இது மேலும் செயல்திறனை மேம்படுத்துகிறது மற்றும் வரிசையின் மிகவும் பொருத்தமான பகுதிகளில் கவனம் செலுத்த மாதிரியை அனுமதிக்கிறது.
- Hardware-Aware Algorithm: Mamba வன்பொருள் செயல்திறனை மனதில் கொண்டு வடிவமைக்கப்பட்டுள்ளது, கணக்கீட்டை துரிதப்படுத்த இணையான செயலாக்க திறன்களைப் பயன்படுத்துகிறது.
Mamba-வின் கணக்கீட்டு சிக்கலானது O(n) ஆகும், இது வரிசை நீளத்தைப் பொறுத்து நேரியல் ஆகும். இது நீண்ட வரிசைகளுக்கு Transformer-ஐ விட கணிசமாக அதிக செயல்திறன் மிக்கதாக அமைகிறது.
Hybrid-Mamba-Transformer:
Hunyuan Turbo S இரண்டு கட்டமைப்புகளின் பலத்தையும் ஒருங்கிணைக்கிறது:
- Short-Range Dependencies: Transformer கூறு குறுகிய தூர சார்புகள் மற்றும் உள்ளூர் சூழலில் உள்ள சொற்களுக்கு இடையிலான சிக்கலான உறவுகளைப் பிடிப்பதில் சிறந்து விளங்குகிறது.
- Long-Range Dependencies: Mamba கூறு நீண்ட தூர சார்புகளை திறம்பட கையாளுகிறது, இது சூழலைப் பராமரிக்கவும், உரையின் தொலைதூர பகுதிகள் முழுவதும் தகவலைக் கண்காணிக்கவும் மாதிரியை அனுமதிக்கிறது.
- Hybrid Approach: இரண்டு கட்டமைப்புகளும் ஒன்றையொன்று பூர்த்தி செய்யும் வகையில் ஒருங்கிணைக்கப்பட்டுள்ளன. குறிப்பிட்ட ஒருங்கிணைப்பு முறையானது Transformer மற்றும் Mamba-வின் மாற்று அடுக்குகளை உள்ளடக்கியிருக்கலாம், அல்லது Transformer அடுக்குகளின் வெளியீட்டை செயலாக்க Mamba-வைப் பயன்படுத்தலாம், அல்லது பிற கலப்பின உள்ளமைவுகளைப் பயன்படுத்தலாம்.
- Lossless Application: இது இழப்பற்ற முறையில் பயன்படுத்தப்படுகிறது, அதாவது எந்த மாடலிலிருந்தும் அசல் திறன்கள் இழக்கப்படாது.
இந்த கலப்பின அணுகுமுறை Hunyuan T1-ஐ அதிக துல்லியம் மற்றும் செயல்திறன் இரண்டையும் அடைய அனுமதிக்கிறது, இது இயற்கை மொழி செயலாக்க பணிகளின் பரந்த வரம்பிற்கு ஒரு சக்திவாய்ந்த மற்றும் பல்துறை மாதிரியாக அமைகிறது. ஒருங்கிணைப்பின் குறிப்பிட்ட விவரங்கள் Tencent-க்கு தனியுரிமமானவை, ஆனால் முக்கிய கொள்கை என்னவென்றால், ஒரு சிறந்த மாதிரியை உருவாக்க Transformer மற்றும் Mamba இரண்டின் பலத்தையும் பயன்படுத்துவதாகும்.