DeepSeek-R1 செயல்திறனை 32B தொகுப்பில் விஞ்சுமா?

பெரிய மொழி மாதிரிகளின் (LLMs) திறன்களை, சில கூடுதல் சரிபார்ப்புகளுடன் வலுவூட்டப்பட்ட கற்றல் எவ்வளவு உயர்த்த முடியும்? அலிபாபாவின் Qwen குழு, அவர்களின் சமீபத்திய படைப்பான QwQ மூலம் இந்தக் கேள்விக்கான விடையைக் கண்டறியும் முயற்சியில் ஈடுபட்டுள்ளது.

QwQ, ஒரு ‘பகுத்தறியும்’ மாதிரி, ஒப்பீட்டளவில் சிறிய 32 பில்லியன் அளவுருக்களைக் கொண்டுள்ளது. இருப்பினும், கணிதம், கோடிங் மற்றும் ஃபங்க்ஷன்-காலிங் தொடர்பான குறிப்பிட்ட அளவுகோல்களில், 671 பில்லியன் அளவுருக்களைக் கொண்ட DeepSeek R1-ஐ விட இது சிறப்பாக செயல்படுவதாக அலிபாபா கூறுகிறது.

R1 உடன் எடுக்கப்பட்ட அணுகுமுறையைப் போலவே, Qwen குழுவும் QwQ-வின் சிந்தனைத் தொடர் பகுத்தறிவைச் செம்மைப்படுத்த வலுவூட்டப்பட்ட கற்றலைப் பயன்படுத்தியது. இந்த முறை சிக்கல் பகுப்பாய்வு மற்றும் முறிவு திறன்களை மேம்படுத்துகிறது. வலுவூட்டப்பட்ட கற்றல் பாரம்பரியமாக சரியான பதில்களுக்கு மாதிரிகளுக்கு வெகுமதி அளிப்பதன் மூலம் படிப்படியான பகுத்தறிவை பலப்படுத்துகிறது, இதனால் மிகவும் துல்லியமான பதில்களை வளர்க்கிறது. இருப்பினும், QwQ துல்லிய சரிபார்ப்பு மற்றும் குறியீடு செயல்படுத்தும் சேவையகத்தை இணைப்பதன் மூலம் ஒரு படி மேலே செல்கிறது. இது துல்லியமான கணித தீர்வுகள் மற்றும் செயல்பாட்டு குறியீட்டிற்கு மட்டுமே வெகுமதிகள் வழங்கப்படுவதை உறுதி செய்கிறது.

இந்த அணுகுமுறை அதன் அளவை விட சிறப்பாக செயல்படும் ஒரு மாதிரியை உருவாக்குகிறது, இது மிகப் பெரிய மாடல்களுக்கு ஒப்பிடக்கூடிய செயல்திறனை அடைகிறது, சில சமயங்களில் அதை விடவும் அதிகமாகிறது என்று Qwen குழு வலியுறுத்துகிறது.

இருப்பினும், AI அளவுகோல்கள் ஏமாற்றும். எனவே, இந்த கூற்றுக்கள் எவ்வாறு உண்மையான உலக காட்சிகளாக மொழிபெயர்க்கப்படுகின்றன என்பதை ஆராய்வோம், பின்னர் QwQ-ஐ எவ்வாறு இயக்குவது என்பது குறித்து உங்களுக்கு வழிகாட்டுவோம்.

செயல்திறன் மதிப்பீடு

QwQ-ஐ பொது அறிவு, இடஞ்சார்ந்த பகுத்தறிவு, சிக்கல் தீர்க்கும் திறன், கணிதம் மற்றும் மிகவும் மேம்பட்ட LLM-களுக்கு கூட சவாலாக இருக்கும் பிற கேள்விகள் உள்ளிட்ட தொடர்ச்சியான சோதனைத் தூண்டுதல்களுக்கு உட்படுத்தினோம்.

முழு மாதிரியின் கணிசமான நினைவகத் தேவைகள் காரணமாக, மாறுபட்ட RAM திறன்களைக் கொண்ட பயனர்களுக்கு ஏற்றவாறு எங்கள் சோதனைகளை இரண்டு உள்ளமைவுகளில் நடத்தினோம். ஆரம்பத்தில், Hugging Face-இல் உள்ள QwQ டெமோவைப் பயன்படுத்தி முழு மாதிரியையும் மதிப்பிட்டோம். பின்னர், துல்லியத்தில் குவாண்டிசேஷனின் தாக்கத்தை அளவிடுவதற்கு 24 GB GPU (Nvidia 3090 அல்லது AMD Radeon RX 7900XTX) இல் 4-பிட் குவாண்டிஸ் செய்யப்பட்ட பதிப்பை சோதித்தோம்.

பெரும்பாலான பொது அறிவு கேள்விகளுக்கு, QwQ ஆனது DeepSeek-இன் 671 பில்லியன் அளவுரு R1 மற்றும் OpenAI-இன் o3-mini போன்ற பிற பகுத்தறியும் மாடல்களைப் போலவே செயல்பட்டது, பதிலளிப்பதற்கு முன் அதன் எண்ணங்களை உருவாக்க சிறிது நேரம் எடுத்துக்கொண்டது.

மாடலின் பலம், ஒருவேளை ஆச்சரியப்படத்தக்க வகையில், மிகவும் சிக்கலான தர்க்கம், கோடிங் அல்லது கணித சவால்களைச் சமாளிக்கும்போது தெளிவாகிறது. அதன் சில வரம்புகளைக் குறிப்பிடுவதற்கு முன், இந்த பகுதிகளை ஆராய்வோம்.

இடஞ்சார்ந்த பகுத்தறிவு திறன்

Homebrew Research-ஆல் அவர்களின் AlphaMaze திட்டத்தின் ஒரு பகுதியாக உருவாக்கப்பட்ட ஒப்பீட்டளவில் புதிய இடஞ்சார்ந்த-பகுத்தறிவு சோதனையுடன் தொடங்கினோம்.

சோதனை கீழே காட்டப்பட்டுள்ளபடி உரை வடிவத்தில் மாதிரியை ஒரு பிரமை மூலம் வழங்குகிறது. மாதிரியின் பணி “O” என்ற தொடக்கத்திலிருந்து “T” என்ற இலக்கை நோக்கிச் செல்வதாகும்.