ఎంత రీన్ఫోర్స్మెంట్ లెర్నింగ్, కొంత అదనపు వెరిఫికేషన్ ద్వారా బలపరచబడి, పెద్ద భాషా నమూనాల (LLMs) సామర్థ్యాలను పెంచుతుంది? అలీబాబా యొక్క Qwen టీమ్ వారి తాజా సృష్టి అయిన QwQతో దీన్ని తెలుసుకోవడానికి ప్రయత్నిస్తోంది.
QwQ, ఒక ‘రీజనింగ్’ మోడల్, ఇది 32 బిలియన్ పారామితులను కలిగి ఉంది. అయినప్పటికీ, అలీబాబా గణితం, కోడింగ్ మరియు ఫంక్షన్-కాలింగ్కు సంబంధించిన నిర్దిష్ట బెంచ్మార్క్లలో 671 బిలియన్ పారామితులతో కూడిన DeepSeek R1ని అధిగమిస్తుందని పేర్కొంది.
R1తో తీసుకున్న విధానం వలె, Qwen టీమ్ QwQ యొక్క చైన్-ఆఫ్-థాట్ రీజనింగ్ను మెరుగుపరచడానికి రీన్ఫోర్స్మెంట్ లెర్నింగ్ను ఉపయోగించింది. ఈ పద్ధతి సమస్య విశ్లేషణ మరియు బ్రేక్డౌన్ సామర్థ్యాలను మెరుగుపరుస్తుంది. రీన్ఫోర్స్మెంట్ లెర్నింగ్ సాంప్రదాయకంగా సరైన సమాధానాల కోసం మోడళ్లకు రివార్డ్ చేయడం ద్వారా స్టెప్వైజ్ రీజనింగ్ను బలపరుస్తుంది, తద్వారా మరింత ఖచ్చితమైన ప్రతిస్పందనలను ప్రోత్సహిస్తుంది. అయితే, QwQ ఖచ్చితత్వ వెరిఫైయర్ మరియు కోడ్ ఎగ్జిక్యూషన్ సర్వర్ను చేర్చడం ద్వారా ఒక అడుగు ముందుకు వేస్తుంది. ఇది ఖచ్చితమైన గణిత పరిష్కారాలు మరియు ఫంక్షనల్ కోడ్ కోసం మాత్రమే రివార్డ్లు ఇవ్వబడుతుందని నిర్ధారిస్తుంది.
ఈ విధానం దాని పరిమాణాన్ని అధిగమించే మోడల్కు దారితీస్తుందని Qwen టీమ్ పేర్కొంది, ఇది చాలా పెద్ద మోడళ్లతో పోల్చదగిన పనితీరును సాధిస్తుంది మరియు కొన్నిసార్లు వాటిని అధిగమిస్తుంది.
అయితే, AI బెంచ్మార్క్లు మోసపూరితంగా ఉంటాయి. కాబట్టి, ఈ క్లెయిమ్లు వాస్తవ-ప్రపంచ దృశ్యాలకు ఎలా అనువదిస్తాయో పరిశీలిద్దాం, ఆపై QwQని స్వతంత్రంగా ఎలా పొందాలో మరియు రన్ చేయాలో మేము మీకు మార్గనిర్దేశం చేస్తాము.
పనితీరు మూల్యాంకనం
మేము QwQని సాధారణ పరిజ్ఞానం, ప్రాదేశిక తార్కికం, సమస్య-పరిష్కారం, గణితం మరియు అత్యంత అధునాతన LLMలను కూడా సవాలు చేసే ఇతర ప్రశ్నలతో సహా వరుస పరీక్షా ప్రాంప్ట్లకు గురిచేసాము.
పూర్తి మోడల్ యొక్క గణనీయమైన మెమరీ అవసరాల కారణంగా, విభిన్న RAM సామర్థ్యాలు కలిగిన వినియోగదారులకు అనుగుణంగా మేము మా పరీక్షలను రెండు కాన్ఫిగరేషన్లలో నిర్వహించాము. ప్రారంభంలో, మేము Hugging Faceలోని QwQ డెమోను ఉపయోగించి పూర్తి మోడల్ను అంచనా వేసాము. తదనంతరం, ఖచ్చితత్వంపై క్వాంటైజేషన్ ప్రభావాన్ని అంచనా వేయడానికి మేము 24 GB GPU (Nvidia 3090 లేదా AMD Radeon RX 7900XTX)లో 4-బిట్ క్వాంటైజ్డ్ వెర్షన్ను పరీక్షించాము.
చాలా సాధారణ పరిజ్ఞాన ప్రశ్నల కోసం, QwQ DeepSeek యొక్క 671 బిలియన్ పారామీటర్ R1 మరియు OpenAI యొక్క o3-mini వంటి ఇతర రీజనింగ్ మోడల్ల మాదిరిగానే పనితీరును ప్రదర్శించింది, సమాధానాన్ని అందించే ముందు దాని ఆలోచనలను రూపొందించడానికి క్లుప్తంగా విరామం తీసుకుంది.
మోడల్ యొక్క బలాలు, బహుశా ఆశ్చర్యకరంగా, మరింత క్లిష్టమైన లాజిక్, కోడింగ్ లేదా గణిత సవాళ్లను పరిష్కరించేటప్పుడు స్పష్టంగా కనిపిస్తాయి. దాని కొన్ని పరిమితులను పరిష్కరించే ముందు ఈ ప్రాంతాలను పరిశీలిద్దాం.
ప్రాదేశిక తార్కిక పరాక్రమం
మేము హోమ్బ్రూ రీసెర్చ్ వారి ఆల్ఫామేజ్ ప్రాజెక్ట్లో భాగంగా రూపొందించిన సాపేక్షంగా నవల ప్రాదేశిక-తార్కిక పరీక్షతో ప్రారంభించాము.
పరీక్ష టెక్స్ట్ ఫార్మాట్లో మోడల్కు ఒక చిట్టడవిని అందిస్తుంది, ఇది క్రింద చూపబడింది. మోడల్ యొక్క పని మూలం “O” నుండి లక్ష్యం “T”కి నావిగేట్ చేయడం.