அலிபாபாவின் QwQ-32B: வலுவூட்டல் கற்றல் வெளிப்பாடு

வலுவூட்டல் கற்றலின் சக்தி (The Power of Reinforcement Learning)

பாரம்பரிய AI மாதிரி மேம்பாட்டு அணுகுமுறைகள், முன் பயிற்சி மற்றும் பின் பயிற்சி முறைகளை பெரிதும் நம்பியுள்ளன. இருப்பினும், Qwen குழு, முகவர் திறன்களை நேரடியாக பகுத்தறியும் மாதிரியில் ஒருங்கிணைப்பதன் மூலம் இந்த வழக்கமான நுட்பங்களுக்கு அப்பால் சென்றுள்ளது. இந்த ஒருங்கிணைப்பு QwQ-32B க்கு விமர்சன ரீதியாக சிந்திக்கவும், வெளிப்புற கருவிகளைப் பயன்படுத்தவும், அதன் சூழலில் இருந்து வரும் பின்னூட்டத்தின் அடிப்படையில் அதன் பகுத்தறியும் செயல்முறையை மாறும் வகையில் மாற்றியமைக்கவும் உதவுகிறது. இது மிகவும் தகவமைப்பு மற்றும் அறிவார்ந்த AI அமைப்புகளை உருவாக்குவதில் ஒரு குறிப்பிடத்தக்க படியை முன்வைக்கிறது.

அளவிடக்கூடிய RL, பாரம்பரிய முறைகளின் திறன்களை மிஞ்சும் செயல்திறன் மேம்பாடுகளைத் திறக்கும் ஆற்றலைக் கொண்டுள்ளது என்று Qwen குழு வலியுறுத்துகிறது. சமீபத்திய ஆராய்ச்சி ஏற்கனவே AI மாதிரிகளின் பகுத்தறியும் திறன்களை கணிசமாக அதிகரிப்பதில் RL இன் திறனை நிரூபித்துள்ளது, மேலும் QwQ-32B இந்த சாத்தியக்கூறுகளின் ஒரு கட்டாய எடுத்துக்காட்டு.

அளவு மற்றும் செயல்திறனுக்கு இடையிலான இடைவெளியைக் குறைத்தல் (Bridging the Gap Between Size and Performance)

QwQ-32B இன் மிகவும் குறிப்பிடத்தக்க அம்சங்களில் ஒன்று அதன் அளவுடன் ஒப்பிடும்போது அதன் செயல்திறன். QwQ-32B உடன் போட்டியிடும் DeepSeek-R1, 671 பில்லியன் அளவுருக்களைக் கொண்டுள்ளது (37 பில்லியன் செயல்படுத்தப்பட்டது). ஒப்பீட்டளவில் மிதமான 32 பில்லியன் அளவுருக்களைக் கொண்ட QwQ-32B, ஒப்பிடக்கூடிய செயல்திறனை அடைகிறது, RL இன் மூலோபாய செயலாக்கம் மூலம் அடையப்பட்ட குறிப்பிடத்தக்க திறன் ஆதாயங்களை எடுத்துக்காட்டுகிறது. இந்த சாதனை, மாதிரி அளவு செயல்திறனின் முதன்மை தீர்மானிப்பான் என்ற நீண்டகால அனுமானத்தை சவால் செய்கிறது, அதிநவீன பயிற்சி நுட்பங்கள் அளவு மற்றும் திறனுக்கு இடையிலான இடைவெளியைக் குறைக்க முடியும் என்று கூறுகிறது.

தரப்படுத்தல் சிறப்பு (Benchmarking Excellence)

QwQ-32B இன் திறன்களை கடுமையாக மதிப்பிடுவதற்கு, Qwen குழு மாதிரியை ஒரு விரிவான தரப்படுத்தல் தொகுப்பிற்கு உட்படுத்தியது. AIME24, LiveCodeBench, LiveBench, IFEval மற்றும் BFCL உள்ளிட்ட இந்த தரப்படுத்தல்கள், கணித பகுத்தறிவு, குறியீட்டு திறன் மற்றும் பொதுவான சிக்கல் தீர்க்கும் திறன்கள் உள்ளிட்ட AI செயல்திறனின் பல்வேறு அம்சங்களை மதிப்பிடுவதற்காக சிறப்பாக வடிவமைக்கப்பட்டுள்ளன. இந்த மதிப்பீடுகளின் முடிவுகள் QwQ-32B இன் பலங்களைப் பற்றிய ஒரு கட்டாய சித்திரத்தை வரைகின்றன.

ஒவ்வொரு தரநிலையிலும் QwQ-32B இன் செயல்திறனைப் பற்றிய நெருக்கமான பார்வை இங்கே:

  • AIME24: இந்த தரநிலை கணித பகுத்தறிவில் கவனம் செலுத்துகிறது. QwQ-32B 79.5 மதிப்பெண் பெற்றது, DeepSeek-R1-671B இன் 79.8 மதிப்பெண்ணை விட சற்று பின்தங்கியுள்ளது. குறிப்பாக, இரண்டு மாடல்களும் OpenAl-o1-mini (63.6) மற்றும் வடிகட்டிய மாடல்களை விட கணிசமாக சிறப்பாக செயல்பட்டன.

  • LiveCodeBench: இந்த தரநிலை குறியீட்டு திறனை மதிப்பிடுகிறது. QwQ-32B 63.4 மதிப்பெண் பெற்றது, DeepSeek-R1-671B இன் 65.9 மதிப்பெண்ணை நெருக்கமாக பிரதிபலிக்கிறது. மீண்டும், இரண்டு மாடல்களும் வடிகட்டிய மாடல்கள் மற்றும் OpenAl-o1-mini (53.8) இன் செயல்திறனை விட அதிகமாக இருந்தன.

  • LiveBench: பொதுவான சிக்கல் தீர்க்கும் திறன்களை மதிப்பிடுவதற்காக வடிவமைக்கப்பட்ட LiveBench, QwQ-32B 73.1 மதிப்பெண்ணைப் பெற்றது, DeepSeek-R1-671B இன் 71.6 மதிப்பெண்ணை விட அதிகமாகும். இந்த முடிவு பொது AI பணிகளில் QwQ-32B ஒரு வலுவான போட்டியாளராக அதன் நிலையை மேலும் உறுதிப்படுத்துகிறது.

  • IFEval: இந்த தரநிலை அறிவுறுத்தல்களைப் பின்பற்றுவதிலும் மனித விருப்பங்களுடன் சீரமைப்பதிலும் கவனம் செலுத்துகிறது. QwQ-32B 83.9 என்ற அற்புதமான மதிப்பெண்ணைப் பெற்றது, DeepSeek-R1-671B இன் 83.3 மதிப்பெண்ணுக்கு கிட்டத்தட்ட ஒத்திருக்கிறது. இரண்டு மாடல்களும் OpenAl-o1-mini (59.1) மற்றும் வடிகட்டிய மாடல்களை விட கணிசமாக சிறப்பாக செயல்பட்டன.

  • BFCL: இந்த தரநிலை ஒரு மாதிரியின் சிக்கலான, உண்மையான உலக காட்சிகளைக் கையாளும் திறனை சோதிக்கிறது. QwQ-32B 66.4 மதிப்பெண்ணைப் பெற்றது, DeepSeek-R1-671B இன் 62.8 மதிப்பெண்ணை விட அதிகமாகும். இந்த முடிவு முற்றிலும் கல்வித் தரங்களுக்கு அப்பால் நடைமுறை பயன்பாடுகளுக்கான QwQ-32B இன் திறனை நிரூபிக்கிறது.

இந்த முடிவுகள் QwQ-32B இன் திறனைத் தொடர்ந்து நிரூபிக்கின்றன, மேலும் சில சந்தர்ப்பங்களில், மிகப் பெரிய மாடல்களை விட சிறப்பாக செயல்படுகின்றன. இது Qwen குழுவின் அணுகுமுறையின் செயல்திறனையும் AI வளர்ச்சியில் RL இன் மாற்றத்தக்க திறனையும் எடுத்துக்காட்டுகிறது.

Qwen குழுவின் புதுமையான அணுகுமுறை (The Qwen Team’s Innovative Approach)

QwQ-32B இன் வெற்றிக்கு Qwen குழுவின் புதுமையான பல-நிலை RL செயல்முறை காரணமாக இருக்கலாம். இந்த செயல்முறை ஒரு ‘குளிர்-தொடக்க’ சரிபார்ப்பு புள்ளியுடன் தொடங்குகிறது, அதாவது மாதிரி முன் பயிற்சி பெற்ற அடித்தளத்துடன் தொடங்குகிறது, ஆனால் பின்னர் RL மூலம் கணிசமாக சுத்திகரிக்கப்படுகிறது. பயிற்சி செயல்முறை விளைவு அடிப்படையிலான வெகுமதிகளால் இயக்கப்படுகிறது, குறிப்பிட்ட பணிகளில் அதன் செயல்திறனை மேம்படுத்த மாதிரியை ஊக்குவிக்கிறது.

பயிற்சியின் ஆரம்ப கட்டம் கணிதம் மற்றும் குறியீட்டு பணிகளுக்கான RL ஐ அளவிடுவதில் கவனம் செலுத்துகிறது. இது துல்லிய சரிபார்ப்புகள் மற்றும் குறியீடு செயல்படுத்தும் சேவையகங்களைப் பயன்படுத்தி பின்னூட்டத்தை வழங்கவும் மாதிரியின் கற்றலுக்கு வழிகாட்டவும் செய்கிறது. வெற்றிகரமான விளைவுகளுக்கு வெகுமதிகளைப் பெறுவதன் மூலம் சரியான கணித தீர்வுகளை உருவாக்கவும் செயல்பாட்டு குறியீட்டை எழுதவும் மாதிரி கற்றுக்கொள்கிறது.

இரண்டாவது கட்டம் பொது திறன்களை உள்ளடக்கிய RL பயிற்சியின் நோக்கத்தை விரிவுபடுத்துகிறது. இந்த கட்டம் பொது வெகுமதி மாதிரிகள் மற்றும் விதி அடிப்படையிலான சரிபார்ப்புகளிலிருந்து வெகுமதிகளை உள்ளடக்கியது, பல்வேறு பணிகள் மற்றும் வழிமுறைகளைப் பற்றிய மாதிரியின் புரிதலை விரிவுபடுத்துகிறது. பரந்த அளவிலான சவால்களைக் கையாளக்கூடிய ஒரு நன்கு வட்டமான AI மாதிரியை உருவாக்குவதற்கு இந்த கட்டம் முக்கியமானது.

இந்த இரண்டாவது கட்ட RL பயிற்சி, ஒப்பீட்டளவில் குறைந்த எண்ணிக்கையிலான படிகளுடன் கூட, பல்வேறு பொது திறன்களில் மாதிரியின் செயல்திறனை கணிசமாக மேம்படுத்த முடியும் என்று Qwen குழு கண்டுபிடித்தது. இதில் அறிவுறுத்தல்களைப் பின்பற்றுதல், மனித விருப்பங்களுடன் சீரமைத்தல் மற்றும் ஒட்டுமொத்த முகவர் செயல்திறன் ஆகியவை அடங்கும். முக்கியமாக, பொது திறன்களில் இந்த முன்னேற்றம் கணிதம் மற்றும் குறியீட்டு செயல்திறனின் விலையில் வரவில்லை, இது பல-நிலை அணுகுமுறையின் செயல்திறனை நிரூபிக்கிறது.

திறந்த-எடை மற்றும் அணுகக்கூடியது (Open-Weight and Accessible)

ஒத்துழைப்பை ஊக்குவிக்கும் மற்றும் மேலும் ஆராய்ச்சியை மேற்கொள்ளும் ஒரு நடவடிக்கையில், Qwen குழு QwQ-32B ஐ திறந்த-எடையாக மாற்றியுள்ளது. இதன் பொருள் மாதிரியின் அளவுருக்கள் பொதுவில் கிடைக்கின்றன, ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்கள் Qwen குழுவின் பணியை அணுகவும், படிக்கவும் மற்றும் உருவாக்கவும் அனுமதிக்கிறது. இந்த மாதிரி Hugging Face மற்றும் ModelScope இல் Apache 2.0 உரிமத்தின் கீழ் கிடைக்கிறது, இது பரவலான பயன்பாடு மற்றும் மாற்றத்தை ஊக்குவிக்கும் ஒரு அனுமதி உரிமம். கூடுதலாக, QwQ-32B Qwen Chat மூலம் அணுகக்கூடியது, இது மாதிரியுடன் தொடர்புகொள்வதற்கான பயனர் நட்பு இடைமுகத்தை வழங்குகிறது.

AGI நோக்கிய ஒரு படி (A Step Towards AGI)

QwQ-32B இன் வளர்ச்சி செயற்கை பொது நுண்ணறிவு (AGI) தேடலில் ஒரு குறிப்பிடத்தக்க படியை முன்வைக்கிறது. Qwen குழு இந்த மாதிரியை பகுத்தறியும் திறன்களை மேம்படுத்த RL ஐ அளவிடுவதற்கான ஆரம்ப ஆய்வாகக் கருதுகிறது, மேலும் அவர்கள் நீண்ட-கால பகுத்தறிவுக்கு RL உடன் முகவர்களை ஒருங்கிணைப்பதை தொடர்ந்து விசாரிக்க திட்டமிட்டுள்ளனர். இது காலப்போக்கில் சிக்கலான பணிகளைத் திட்டமிடவும் செயல்படுத்தவும் கூடிய AI அமைப்புகளை உருவாக்குவதை உள்ளடக்குகிறது, இது AGI ஐ அடைவதற்கான ஒரு முக்கியமான திறன்.

வலுவான அடித்தள மாதிரிகளை RL உடன் இணைப்பது, அளவிடப்பட்ட கணக்கீட்டு வளங்களால் இயக்கப்படுவது, AGI இன் வளர்ச்சியில் ஒரு முக்கிய இயக்கியாக இருக்கும் என்று குழு நம்புகிறது. QwQ-32B இந்த சாத்தியக்கூறுகளின் ஒரு சக்திவாய்ந்த ஆர்ப்பாட்டமாக செயல்படுகிறது, மூலோபாய RL செயலாக்கம் மூலம் அடையக்கூடிய குறிப்பிடத்தக்க செயல்திறன் ஆதாயங்களை வெளிப்படுத்துகிறது. Qwen குழுவின் தொடர்ச்சியான ஆராய்ச்சி மற்றும் மேம்பாட்டு முயற்சிகள், QwQ-32B இன் திறந்த-மூல தன்மையுடன் சேர்ந்து, AI துறையில் முன்னேற்றத்தை துரிதப்படுத்தும் மற்றும் உண்மையிலேயே அறிவார்ந்த இயந்திரங்களை நனவாக்குவதற்கு நம்மை நெருக்கமாக கொண்டு வரும் என்று உறுதியளிக்கின்றன. கவனம் இனி பெரிய மாடல்களை உருவாக்குவதில் மட்டும் இல்லை, ஆனால் புதுமையான பயிற்சி நுட்பங்கள் மூலம் மிகவும் அறிவார்ந்த மற்றும் தகவமைப்பு அமைப்புகளை உருவாக்குவதில் உள்ளது.