அலிபாபாவின் Qwen-32B: சிறிய ஆனால் சக்திவாய்ந்த மாடல்

அறிமுகம்

ஒரு ஆச்சரியமான நள்ளிரவு அறிவிப்பில், அலிபாபா தனது சமீபத்திய ரீசனிங் மாடலான Qwen-32B (QwQ-32B) ஐ ஓப்பன் சோர்ஸ் செய்துள்ளது. 32 பில்லியன் பாராமீட்டர்களைக் கொண்ட இந்த மாடல், கணிசமாக பெரிய 67.1 பில்லியன் பாராமீட்டர், முழு அளவிலான DeepSeek-R1 க்கு இணையான செயல்திறனை நிரூபிக்கிறது.

Qwen குழுவின் அறிவிப்பு, ரீன்போர்ஸ்மென்ட் லேர்னிங் (RL) நுட்பங்களை அளவிடுதல் குறித்த அவர்களின் ஆராய்ச்சியை எடுத்துக்காட்டுகிறது. அவர்கள் கூறினார்கள், “நாங்கள் RL ஐ நீட்டிப்பதற்கான முறைகளை ஆராய்ந்து வருகிறோம், எங்கள் Qwen2.5-32B அடிப்படையில் சில அற்புதமான முடிவுகளை அடைந்துள்ளோம். கணித மற்றும் கோடிங் பணிகளில் RL பயிற்சி செயல்திறனைத் தொடர்ந்து மேம்படுத்த முடியும் என்பதைக் கண்டறிந்தோம். RL இன் தொடர்ச்சியான அளவிடுதல் நடுத்தர அளவிலான மாடல்கள் பெரிய MoE மாடல்களுக்கு இணையான செயல்திறனை அடைய உதவும் என்பதைக் கண்டோம். எங்கள் புதிய மாடலுடன் அரட்டையடிக்கவும், எங்களுக்கு கருத்துக்களை வழங்கவும் அனைவரையும் வரவேற்கிறோம்!”

QwQ-32B இப்போது Apache 2.0 ஓப்பன் சோர்ஸ் உரிமத்தின் கீழ் Hugging Face மற்றும் ModelScope இல் கிடைக்கிறது. பயனர்கள் Qwen Chat மூலம் நேரடியாக மாடலுடன் தொடர்பு கொள்ளலாம். பிரபலமான உள்ளூர் வரிசைப்படுத்தல் கருவியான Ollama, ஏற்கனவே ஆதரவை ஒருங்கிணைத்துள்ளது, கட்டளை மூலம் அணுகலாம்: ollama run qwq.

வெளியீட்டுடன், Qwen குழு “QwQ-32B: Harnessing the Power of Reinforcement Learning,” என்ற தலைப்பில் ஒரு வலைப்பதிவு இடுகையை வெளியிட்டது, இது அற்புதமான முன்னேற்றங்களை விவரிக்கிறது.

வலைப்பதிவு இடுகை, பெரிய அளவிலான ரீன்போர்ஸ்மென்ட் லேர்னிங் (RL) இன் மகத்தான திறனை வலியுறுத்துகிறது, இது பாரம்பரிய முன் பயிற்சி மற்றும் பிந்தைய பயிற்சி முறைகளை விட மாடல் செயல்திறனை மேம்படுத்துவதில் சிறந்தது. சமீபத்திய ஆராய்ச்சி, டீப்ஸீக்-ஆர்1 இன் கோல்ட்-ஸ்டார்ட் டேட்டா மற்றும் மல்டி-ஸ்டேஜ் பயிற்சி போன்ற RL இன் ஒருங்கிணைப்பு, ரீசனிங் திறன்களை கணிசமாக அதிகரிக்கவும், ஆழமான சிந்தனை மற்றும் சிக்கலான சிக்கலைத் தீர்க்கவும் உதவுகிறது.

Qwen குழுவின் ஆய்வு பெரிய மொழி மாடல்களின் நுண்ணறிவை உயர்த்த பெரிய அளவிலான RL ஐப் பயன்படுத்துவதில் கவனம் செலுத்தியது, இது QwQ-32B இன் உருவாக்கத்தில் முடிந்தது. இந்த 32 பில்லியன் பாராமீட்டர் மாடல் 67.1 பில்லியன் பாராமீட்டர் (37 பில்லியன் செயல்படுத்தப்பட்ட) DeepSeek-R1 இன் செயல்திறனுடன் குறிப்பிடத்தக்க வகையில் போட்டியிடுகிறது. குழு வலியுறுத்தியது, “இந்த சாதனை வலுவான, முன் பயிற்சி பெற்ற ஃபவுண்டேஷன் மாடல்களுக்கு ரீன்போர்ஸ்மென்ட் லேர்னிங் பயன்படுத்துவதன் செயல்திறனை அடிக்கோடிட்டுக் காட்டுகிறது.”

QwQ-32B முகவர் தொடர்பான திறன்களையும் உள்ளடக்கியது, கருவிகளைப் பயன்படுத்தும் போது அதன் செயல்களை விமர்சன ரீதியாக மதிப்பிடவும், சுற்றுச்சூழல் பின்னூட்டத்தின் அடிப்படையில் அதன் பகுத்தறிவு செயல்முறையை மாற்றியமைக்கவும் உதவுகிறது. “சக்திவாய்ந்த ஃபவுண்டேஷன் மாடல்களை பெரிய அளவிலான ரீன்போர்ஸ்மென்ட் லேர்னிங் உடன் இணைப்பது செயற்கை பொது நுண்ணறிவை (AGI) நோக்கிய ஒரு சாத்தியமான பாதையாக இருக்கலாம் என்று நாங்கள் நம்புகிறோம்,” என்று குழு கூறியது.

மாடல் செயல்திறன்: QwQ-32B ஐ பெஞ்ச்மார்க்கிங் செய்தல்

QwQ-32B கணித ரீசனிங், புரோகிராமிங் மற்றும் பொது திறன்கள் உள்ளிட்ட பல அளவுகோல்களில் கடுமையான மதிப்பீட்டிற்கு உட்படுத்தப்பட்டது. முடிவுகள் QwQ-32B இன் செயல்திறனை மற்ற முன்னணி மாடல்களுடன் ஒப்பிடுகின்றன, இதில் DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini மற்றும் அசல் DeepSeek-R1 ஆகியவை அடங்கும்.

கண்டுபிடிப்புகள் வியக்க வைக்கின்றன. QwQ-32B விதிவிலக்கான செயல்திறனை நிரூபிக்கிறது, LiveBench, IFEval மற்றும் BFCL பெஞ்ச்மார்க்குகளில் DeepSeek-R1-67B ஐ விட சற்று அதிகமாக உள்ளது. இது Qwen குழுவால் ஏற்றுக்கொள்ளப்பட்ட ரீன்போர்ஸ்மென்ட் லேர்னிங் அணுகுமுறையின் செயல்திறனையும் சக்தியையும் எடுத்துக்காட்டுகிறது.

ரீன்போர்ஸ்மென்ட் லேர்னிங் பற்றிய ஆழமான பார்வை

QwQ-32B இன் வளர்ச்சி கோல்ட்-ஸ்டார்ட் ஃபவுண்டேஷனை அடிப்படையாகக் கொண்ட பெரிய அளவிலான ரீன்போர்ஸ்மென்ட் லேர்னிங் பயன்படுத்தப்பட்டது. ஆரம்ப கட்டம் குறிப்பாக கணித மற்றும் புரோகிராமிங் பணிகளுக்கான RL பயிற்சியில் கவனம் செலுத்தியது. ரிவார்டு மாடல்களை நம்பியிருக்கும் பாரம்பரிய அணுகுமுறைகளைப் போலல்லாமல், Qwen குழு உருவாக்கப்பட்ட பதில்களின் சரியான தன்மையை சரிபார்ப்பதன் மூலம் கணித சிக்கல்களுக்கு ஃபீட்பேக்கை வழங்கியது. கோடிங் பணிகளுக்கு, ஃபீட்பேக் ஒரு கோட் எக்ஸிகியூஷன் சர்வரில் இருந்து பெறப்பட்டது, உருவாக்கப்பட்ட குறியீடு சோதனை வழக்குகளை வெற்றிகரமாக நிறைவேற்றியதா என்பதை மதிப்பிடுகிறது.

பல மறு செய்கைகள் மூலம் பயிற்சி முன்னேறியதால், QwQ-32B இரண்டு களங்களிலும் நிலையான செயல்திறன் மேம்பாடுகளைக் காட்டியது. தீர்வு துல்லியத்தின் மீதான நேரடி ஃபீட்பேக்கால் வழிநடத்தப்படும் இந்த மறு செய்கை சுத்திகரிப்பு செயல்முறை மிகவும் பயனுள்ளதாக இருந்தது.

கணிதம் மற்றும் புரோகிராமிங்கில் கவனம் செலுத்திய ஆரம்ப RL கட்டத்தைத் தொடர்ந்து, பொது திறன்களை மேம்படுத்த ஒரு அடுத்தடுத்த RL கட்டம் அறிமுகப்படுத்தப்பட்டது. இந்த நிலை பொதுவான ரிவார்டு மாடல்கள் மற்றும் பயிற்சிக்கு விதி அடிப்படையிலான வேலிடேட்டர்களைப் பயன்படுத்தியது. பொது RL இல் ஒரு சிறிய எண்ணிக்கையிலான படிகள் கூட முன்னர் பயிற்சி பெற்ற கணித மற்றும் புரோகிராமிங் பணிகளில் செயல்திறனை கணிசமாக பாதிக்காமல் ஒட்டுமொத்த திறன்களை அதிகரிக்கும் என்பதை முடிவுகள் சுட்டிக்காட்டின. இது மாடலின் தகவமைப்பு மற்றும் வலிமையை நிரூபிக்கிறது.

எதிர்கால திசைகள்: AI இன் எல்லைகளை விரிவுபடுத்துதல்

Qwen குழு தங்கள் எதிர்கால திட்டங்களையும் பகிர்ந்து கொண்டது, “ரீசனிங் திறன்களை மேம்படுத்த பெரிய அளவிலான ரீன்போர்ஸ்மென்ட் லேர்னிங் (RL) ஐப் பயன்படுத்துவதில் இது Qwen இன் முதல் படியாகும். இந்த பயணத்தின் மூலம், RL ஐ அளவிடுவதன் மகத்தான திறனை நாங்கள் கண்டது மட்டுமல்லாமல், முன் பயிற்சி பெற்ற மொழி மாடல்களுக்குள் பயன்படுத்தப்படாத சாத்தியக்கூறுகளையும் அங்கீகரித்தோம். Qwen இன் அடுத்த தலைமுறையை உருவாக்கும் பணியில் நாங்கள் ஈடுபட்டுள்ளதால், இன்னும் சக்திவாய்ந்த ஃபவுண்டேஷன் மாடல்களை RL உடன் இணைத்து, அளவிடப்பட்ட கணக்கீட்டு வளங்களால் இயக்கப்படுவது, செயற்கை பொது நுண்ணறிவை (AGI) அடைவதற்கு எங்களை நெருக்கமாக கொண்டு வரும் என்று நாங்கள் நம்புகிறோம். மேலும், நீண்ட கால ரீசனிங் செயல்படுத்த முகவர்களை RL உடன் ஒருங்கிணைப்பதை நாங்கள் தீவிரமாக ஆராய்ந்து வருகிறோம், நீட்டிக்கப்பட்ட ரீசனிங் நேரம் மூலம் இன்னும் பெரிய நுண்ணறிவைத் திறப்பதை நோக்கமாகக் கொண்டுள்ளோம்.” தொடர்ச்சியான முன்னேற்றம் மற்றும் ஆய்வுக்கான இந்த அர்ப்பணிப்பு AI இன் எல்லைகளைத் தள்ளுவதில் குழுவின் அர்ப்பணிப்பை அடிக்கோடிட்டுக் காட்டுகிறது.

சமூக வரவேற்பு: QwQ-32B பரவலான பாராட்டைப் பெறுகிறது

QwQ-32B இன் வெளியீடு பரவலான உற்சாகத்தையும் நேர்மறையான கருத்துக்களையும் பெற்றுள்ளது. Qwen இன் பல பயனர்கள் உட்பட AI சமூகம், இந்த புதிய மாடலின் வெளியீட்டை ஆவலுடன் எதிர்பார்த்தது.

டீப்ஸீக்கைச் சுற்றியுள்ள சமீபத்திய உற்சாகம், வடிகட்டப்பட்ட பதிப்பின் வரம்புகள் காரணமாக முழு அளவிலான மாடலுக்கு சமூகத்தின் விருப்பத்தை எடுத்துக்காட்டுகிறது. இருப்பினும், 67.1B பாராமீட்டர் முழு அளவிலான மாடல் வரிசைப்படுத்தல் சவால்களை முன்வைத்தது, குறிப்பாக வரையறுக்கப்பட்ட வளங்களைக் கொண்ட எட்ஜ் சாதனங்களுக்கு. Qwen-32B, அதன் கணிசமாக குறைக்கப்பட்ட அளவுடன், இந்த கவலையை நிவர்த்தி செய்கிறது, பரந்த வரிசைப்படுத்தலுக்கான சாத்தியக்கூறுகளைத் திறக்கிறது.

ஒரு பயனர் கருத்து தெரிவித்தார், “இது இன்னும் மொபைல் போன்களில் சாத்தியமில்லை, ஆனால் போதுமான ரேம் கொண்ட மேக்ஸ் அதை கையாள முடியும்.” இந்த உணர்வு, வளங்கள் கட்டுப்படுத்தப்பட்ட சாதனங்களில் QwQ-32B ஐ இயக்குவதற்கான சாத்தியக்கூறுகளைச் சுற்றியுள்ள நம்பிக்கையை பிரதிபலிக்கிறது.

மற்றொரு பயனர் அலிபாபாவின் டோங்கி ஆய்வகத்தின் விஞ்ஞானியான பின்யுவான் ஹுயை நேரடியாக உரையாற்றினார், இன்னும் சிறிய மாடல்களை உருவாக்க வலியுறுத்தினார். இது பெருகிய முறையில் கச்சிதமான மற்றும் திறமையான AI மாடல்களுக்கான தேவையை எடுத்துக்காட்டுகிறது.

பயனர்கள் தங்கள் அனுபவங்களையும் பகிர்ந்துள்ளனர், மாடலின் வேகம் மற்றும் பதிலளிக்கும் தன்மையைப் பாராட்டுகிறார்கள். ஒரு பயனர் ஒரு ஆர்ப்பாட்டத்தை காட்சிப்படுத்தினார், QwQ-32B இன் விரைவான செயலாக்க திறன்களை எடுத்துக்காட்டுகிறது.

ஆப்பிளில் இயந்திர கற்றல் ஆராய்ச்சியாளரான அவ்னி ஹன்னுன், M4 மேக்ஸில் QwQ-32B வெற்றிகரமாக செயல்படுத்தப்பட்டதை உறுதிப்படுத்தினார், அதன் ஈர்க்கக்கூடிய வேகத்தைக் குறிப்பிட்டார். ஒரு முக்கிய ஆராய்ச்சியாளரின் இந்த சரிபார்ப்பு மாடலின் செயல்திறன் கூற்றுக்களை மேலும் உறுதிப்படுத்துகிறது.

Qwen குழு QwQ-32B இன் முன்னோட்ட பதிப்பை அவர்களின் அதிகாரப்பூர்வ அரட்டை இடைமுகமான Qwen Chat இல் கிடைக்கச் செய்துள்ளது, பயனர்களை சோதிக்கவும் கருத்துக்களை வழங்கவும் ஊக்குவிக்கிறது. இந்த ஊடாடும் அணுகுமுறை சமூக ஈடுபாட்டை வளர்க்கிறது மற்றும் மாடலின் திறன்களின் உண்மையான உலக மதிப்பீட்டை அனுமதிக்கிறது.

சமூகத்தால் QwQ-32B இன் விரைவான தத்தெடுப்பு மற்றும் Ollama போன்ற பிரபலமான கருவிகளில் அதன் ஒருங்கிணைப்பு ஆகியவை மாடலின் முக்கியத்துவத்தையும் தாக்கத்தையும் நிரூபிக்கின்றன. வலுவான செயல்திறன், சிறிய மாடல் அளவு மற்றும் ரீன்போர்ஸ்மென்ட் லேர்னிங் ஆகியவற்றின் புதுமையான பயன்பாடு QwQ-32B ஐ பெரிய மொழி மாடல்களின் துறையில் ஒரு பெரிய முன்னேற்றமாக நிலைநிறுத்தியுள்ளது. மாடலின் ஓப்பன் சோர்ஸ் தன்மை AI சமூகத்திற்குள் ஒத்துழைப்பு மற்றும் கண்டுபிடிப்புகளை மேலும் ஊக்குவிக்கிறது, எதிர்கால முன்னேற்றங்களுக்கு வழி வகுக்கிறது. நடைமுறை வரிசைப்படுத்தல் மற்றும் உண்மையான உலக பயன்பாடுகள் மீதான கவனம், QwQ-32B ஆராய்ச்சி அமைப்புகளுக்கு அப்பால் கணிசமான தாக்கத்தை ஏற்படுத்துவதற்கான சாத்தியத்தை எடுத்துக்காட்டுகிறது, மேம்பட்ட AI திறன்களை பரந்த அளவிலான பயனர்கள் மற்றும் சாதனங்களுக்கு கொண்டு வருகிறது. Qwen குழுவின் தொடர்ச்சியான ஆராய்ச்சி மற்றும் மேம்பாட்டு முயற்சிகள் AGI ஐத் தேடுவதில் இன்னும் அற்புதமான முன்னேற்றங்களை உறுதியளிக்கின்றன.