అలీబాబా Qwen-32B ని ఆవిష్కరించింది: పెద్ద మోడళ్లకు సవాలు విసురుతున్న కాంపాక్ట్ పవర్హౌస్
ఆశ్చర్యకరమైన అర్థరాత్రి ప్రకటనలో, అలీబాబా తన తాజా రీజనింగ్ మోడల్, Qwen-32B (QwQ-32B) ని ఓపెన్ సోర్స్ చేసింది. 32 బిలియన్ పారామితులను కలిగి ఉన్న ఈ మోడల్, గణనీయంగా పెద్దదైన 67.1 బిలియన్ పారామీటర్, పూర్తి-స్థాయి DeepSeek-R1 తో సమానమైన పనితీరును ప్రదర్శిస్తుంది.
Qwen బృందం ప్రకటన రీన్ఫోర్స్మెంట్ లెర్నింగ్ (RL) టెక్నిక్లను స్కేలింగ్ చేయడంలో వారి పరిశోధనను హైలైట్ చేసింది. వారు ఇలా పేర్కొన్నారు, “మేము RLని విస్తరించడానికి పద్ధతులను అన్వేషిస్తున్నాము, మా Qwen2.5-32B ఆధారంగా కొన్ని ఆకట్టుకునే ఫలితాలను సాధించాము. గణిత మరియు కోడింగ్ టాస్క్లలో RL శిక్షణ పనితీరును నిరంతరం మెరుగుపరుస్తుందని మేము కనుగొన్నాము. RL యొక్క నిరంతర స్కేలింగ్ మధ్య తరహా మోడల్లు దిగ్గజ MoE మోడల్లతో పోల్చదగిన పనితీరును సాధించడంలో సహాయపడుతుందని మేము గమనించాము. మా కొత్త మోడల్తో చాట్ చేయడానికి మరియు మాకు ఫీడ్బ్యాక్ అందించడానికి మేము ప్రతి ఒక్కరినీ స్వాగతిస్తున్నాము!”
QwQ-32B ఇప్పుడు Apache 2.0 ఓపెన్ సోర్స్ లైసెన్స్ క్రింద Hugging Face మరియు ModelScopeలో అందుబాటులో ఉంది. వినియోగదారులు Qwen Chat ద్వారా నేరుగా మోడల్తో ఇంటరాక్ట్ అవ్వవచ్చు. ప్రముఖ స్థానిక విస్తరణ సాధనం, Ollama, ఇప్పటికే మద్దతును ఇంటిగ్రేట్ చేసింది, కమాండ్ ద్వారా అందుబాటులో ఉంటుంది: ollama run qwq
.
విడుదలతో పాటు, Qwen బృందం “QwQ-32B: హార్నెసింగ్ ది పవర్ ఆఫ్ రీన్ఫోర్స్మెంట్ లెర్నింగ్” అనే శీర్షికతో ఒక బ్లాగ్ పోస్ట్ను ప్రచురించింది, ఇది సంచలనాత్మక పురోగతులను వివరిస్తుంది.
బ్లాగ్ పోస్ట్ మోడల్ పనితీరును మెరుగుపరచడంలో సాంప్రదాయ ప్రీ-ట్రైనింగ్ మరియు పోస్ట్-ట్రైనింగ్ పద్ధతులను అధిగమించడానికి లార్జ్-స్కేల్ రీన్ఫోర్స్మెంట్ లెర్నింగ్ (RL) యొక్క అపారమైన సామర్థ్యాన్ని నొక్కి చెబుతుంది. డీప్సీక్-R1 యొక్క కోల్డ్-స్టార్ట్ డేటా మరియు మల్టీ-స్టేజ్ ట్రైనింగ్తో కూడిన ఇటీవలి పరిశోధన, రీజనింగ్ సామర్థ్యాలను గణనీయంగా పెంచడానికి, లోతైన ఆలోచన మరియు సంక్లిష్ట సమస్య-పరిష్కారానికి వీలు కల్పించడానికి RL యొక్క సామర్థ్యాన్ని ప్రదర్శిస్తుంది.
Qwen బృందం యొక్క అన్వేషణ లార్జ్ లాంగ్వేజ్ మోడల్స్ యొక్క తెలివితేటలను పెంచడానికి లార్జ్-స్కేల్ RLని ఉపయోగించడంపై దృష్టి సారించింది, ఇది QwQ-32Bని సృష్టించడానికి దారితీసింది. ఈ 32 బిలియన్ పారామీటర్ మోడల్ 67.1 బిలియన్ పారామీటర్ (37 బిలియన్ యాక్టివేట్ చేయబడిన) DeepSeek-R1 పనితీరును విశేషంగా పోటీ చేస్తుంది. “ఈ విజయం బలమైన, ముందుగా శిక్షణ పొందిన ఫౌండేషన్ మోడళ్లకు రీన్ఫోర్స్మెంట్ లెర్నింగ్ని వర్తింపజేయడం యొక్క ప్రభావాన్ని నొక్కి చెబుతుంది” అని బృందం నొక్కి చెప్పింది.
QwQ-32B ఏజెంట్-సంబంధిత సామర్థ్యాలను కూడా కలిగి ఉంది, ఇది సాధనాలను ఉపయోగిస్తున్నప్పుడు దాని చర్యలను విమర్శనాత్మకంగా విశ్లేషించడానికి మరియు పర్యావరణ ఫీడ్బ్యాక్ ఆధారంగా దాని రీజనింగ్ ప్రక్రియను మార్చుకోవడానికి వీలు కల్పిస్తుంది. “శక్తివంతమైన ఫౌండేషన్ మోడల్లను లార్జ్-స్కేల్ రీన్ఫోర్స్మెంట్ లెర్నింగ్తో కలపడం ఆర్టిఫిషియల్ జనరల్ ఇంటెలిజెన్స్ (AGI) వైపు సాధ్యమయ్యే మార్గం కావచ్చని మా ప్రయత్నాలు నిరూపిస్తాయని మేము ఆశిస్తున్నాము” అని బృందం పేర్కొంది.
మోడల్ పనితీరు: QwQ-32B బెంచ్మార్కింగ్
గణిత రీజనింగ్, ప్రోగ్రామింగ్ మరియు సాధారణ సామర్థ్యాలతో సహా అనేక బెంచ్మార్క్లలో QwQ-32B కఠినమైన మూల్యాంకనానికి గురైంది. ఫలితాలు DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini మరియు అసలైన DeepSeek-R1తో సహా ఇతర ప్రముఖ మోడల్లతో పోలిస్తే QwQ-32B పనితీరును ప్రదర్శిస్తాయి.
కనుగొన్న విషయాలు అద్భుతమైనవి. QwQ-32B అసాధారణమైన పనితీరును ప్రదర్శిస్తుంది, LiveBench, IFEval మరియు BFCL బెంచ్మార్క్లలో DeepSeek-R1-67Bని కూడా కొద్దిగా అధిగమించింది. ఇది Qwen బృందం అనుసరించిన రీన్ఫోర్స్మెంట్ లెర్నింగ్ విధానం యొక్క సామర్థ్యం మరియు శక్తిని హైలైట్ చేస్తుంది.
రీన్ఫోర్స్మెంట్ లెర్నింగ్లో లోతైన డైవ్
QwQ-32B అభివృద్ధి కోల్డ్-స్టార్ట్ ఫౌండేషన్ ఆధారంగా నిర్మించబడిన లార్జ్-స్కేల్ రీన్ఫోర్స్మెంట్ లెర్నింగ్ను ఉపయోగించుకుంది. ప్రారంభ దశ ప్రత్యేకంగా గణిత మరియు ప్రోగ్రామింగ్ టాస్క్ల కోసం RL శిక్షణపై దృష్టి సారించింది. రివార్డ్ మోడళ్లపై ఆధారపడే సాంప్రదాయ విధానాల వలె కాకుండా, Qwen బృందం ఉత్పత్తి చేయబడిన సమాధానాల యొక్క ఖచ్చితత్వాన్ని ధృవీకరించడం ద్వారా గణిత సమస్యలకు ఫీడ్బ్యాక్ను అందించింది. కోడింగ్ టాస్క్ల కోసం, ఫీడ్బ్యాక్ కోడ్ ఎగ్జిక్యూషన్ సర్వర్ నుండి తీసుకోబడింది, ఉత్పత్తి చేయబడిన కోడ్ టెస్ట్ కేసులను విజయవంతంగా ఉత్తీర్ణత సాధించిందా లేదా అని అంచనా వేస్తుంది.
బహుళ పునరావృతాల ద్వారా శిక్షణ పురోగమిస్తున్నప్పుడు, QwQ-32B రెండు డొమైన్లలో స్థిరమైన పనితీరు మెరుగుదలలను ప్రదర్శించింది. పరిష్కార ఖచ్చితత్వంపై ప్రత్యక్ష ఫీడ్బ్యాక్ ద్వారా మార్గనిర్దేశం చేయబడిన ఈ పునరావృత శుద్ధీకరణ ప్రక్రియ అత్యంత ప్రభావవంతమైనదని నిరూపించబడింది.
గణితం మరియు ప్రోగ్రామింగ్పై దృష్టి సారించిన ప్రారంభ RL దశ తర్వాత, సాధారణ సామర్థ్యాలను మెరుగుపరచడానికి తదుపరి RL దశ ప్రవేశపెట్టబడింది. ఈ దశ శిక్షణ కోసం సాధారణ రివార్డ్ మోడల్లు మరియు నియమం-ఆధారిత వాలిడేటర్లను ఉపయోగించింది. ఫలితాలు సాధారణ RLలో తక్కువ సంఖ్యలో దశలు కూడా గతంలో శిక్షణ పొందిన గణిత మరియు ప్రోగ్రామింగ్ టాస్క్లపై పనితీరును గణనీయంగా ప్రభావితం చేయకుండా మొత్తం సామర్థ్యాలను పెంచుతాయని సూచించాయి. ఇది మోడల్ యొక్క అనుకూలత మరియు దృఢత్వాన్ని ప్రదర్శిస్తుంది.
భవిష్యత్తు దిశలు: AI యొక్క పరిధులను విస్తరించడం
Qwen బృందం తమ భవిష్యత్ ప్రణాళికలను కూడా పంచుకుంది, “రీజనింగ్ సామర్థ్యాలను మెరుగుపరచడానికి లార్జ్-స్కేల్ రీన్ఫోర్స్మెంట్ లెర్నింగ్ (RL)ని ఉపయోగించడంలో ఇది Qwen యొక్క మొదటి అడుగు. ఈ ప్రయాణం ద్వారా, మేము RLని స్కేలింగ్ చేయడం యొక్క అపారమైన సామర్థ్యాన్ని చూడటమే కాకుండా, ముందుగా శిక్షణ పొందిన లాంగ్వేజ్ మోడల్స్లో ఉపయోగించని అవకాశాలను కూడా గుర్తించాము. మేము తదుపరి తరం Qwenని అభివృద్ధి చేయడానికి పని చేస్తున్నప్పుడు, స్కేల్డ్ కంప్యూటేషనల్ వనరుల ద్వారా శక్తిని పొందిన RLతో మరింత శక్తివంతమైన ఫౌండేషన్ మోడల్లను కలపడం మమ్మల్ని ఆర్టిఫిషియల్ జనరల్ ఇంటెలిజెన్స్ (AGI)ని సాధించడానికి దగ్గర చేస్తుందని మేము నమ్ముతున్నాము. ఇంకా, మేము దీర్ఘకాలిక రీజనింగ్ని ఎనేబుల్ చేయడానికి ఏజెంట్లను RLతో ఇంటిగ్రేట్ చేయడాన్ని చురుకుగా అన్వేషిస్తున్నాము, విస్తరించిన రీజనింగ్ సమయం ద్వారా మరింత ఎక్కువ తెలివితేటలను అన్లాక్ చేయాలని లక్ష్యంగా పెట్టుకున్నాము.” నిరంతర మెరుగుదల మరియు అన్వేషణ పట్ల ఈ నిబద్ధత AI యొక్క సరిహద్దులను ముందుకు తీసుకెళ్లడానికి బృందం యొక్క అంకితభావాన్ని నొక్కి చెబుతుంది.
కమ్యూనిటీ రిసెప్షన్: QwQ-32B విస్తృత ప్రశంసలను పొందింది
QwQ-32B విడుదల విస్తృత ఉత్సాహం మరియు సానుకూల ఫీడ్బ్యాక్తో స్వాగతించబడింది. Qwen యొక్క చాలా మంది వినియోగదారులతో సహా AI కమ్యూనిటీ, ఈ కొత్త మోడల్ యొక్క ఆవిష్కరణ కోసం ఆసక్తిగా ఎదురుచూసింది.
డీప్సీక్ చుట్టూ ఉన్న ఇటీవలి ఉత్సాహం డిస్టిల్డ్ వెర్షన్ యొక్క పరిమితుల కారణంగా పూర్తి-స్థాయి మోడల్కు కమ్యూనిటీ యొక్క ప్రాధాన్యతను హైలైట్ చేసింది. అయితే, 67.1B పారామీటర్ పూర్తి-స్థాయి మోడల్ విస్తరణ సవాళ్లను అందించింది, ముఖ్యంగా పరిమిత వనరులతో కూడిన ఎడ్జ్ పరికరాల కోసం. Qwen-32B, దాని గణనీయంగా తగ్గించబడిన పరిమాణంతో, ఈ ఆందోళనను పరిష్కరిస్తుంది, విస్తృత విస్తరణకు అవకాశాలను తెరుస్తుంది.
ఒక వినియోగదారు ఇలా వ్యాఖ్యానించారు, “ఇది బహుశా మొబైల్ ఫోన్లలో ఇంకా సాధ్యం కాకపోవచ్చు, కానీ తగినంత RAM ఉన్న Macలు దీన్ని నిర్వహించగలవు.” ఈ సెంటిమెంట్ వనరుల-పరిమిత పరికరాలలో QwQ-32Bని అమలు చేయగల సామర్థ్యం చుట్టూ ఉన్న ఆశావాదాన్ని ప్రతిబింబిస్తుంది.
మరొక వినియోగదారు అలీబాబా యొక్క టోంగీ లాబొరేటరీలో శాస్త్రవేత్త అయిన బిన్యువాన్ హుయ్ని నేరుగా సంబోధించారు, ఇంకా చిన్న మోడల్లను అభివృద్ధి చేయాలని కోరారు. ఇది మరింత కాంపాక్ట్ మరియు సమర్థవంతమైన AI మోడల్ల కోసం డిమాండ్ను హైలైట్ చేస్తుంది.
వినియోగదారులు తమ అనుభవాలను కూడా పంచుకున్నారు, మోడల్ యొక్క వేగం మరియు ప్రతిస్పందనను ప్రశంసించారు. ఒక వినియోగదారు ప్రదర్శనను ప్రదర్శించారు, QwQ-32B యొక్క వేగవంతమైన ప్రాసెసింగ్ సామర్థ్యాలను హైలైట్ చేశారు.
Appleలో మెషిన్ లెర్నింగ్ పరిశోధకుడు అవ్ని హన్నున్, M4 Maxలో QwQ-32B యొక్క విజయవంతమైన అమలును ధృవీకరించారు, దాని ఆకట్టుకునే వేగాన్ని గుర్తించారు. ప్రముఖ పరిశోధకుడి నుండి ఈ ధ్రువీకరణ మోడల్ యొక్క పనితీరు వాదనలను మరింత బలపరుస్తుంది.
Qwen బృందం తమ అధికారిక చాట్ ఇంటర్ఫేస్, Qwen Chatలో QwQ-32B యొక్క ప్రివ్యూ వెర్షన్ను కూడా అందుబాటులో ఉంచింది, వినియోగదారులను పరీక్షించడానికి మరియు ఫీడ్బ్యాక్ అందించడానికి ప్రోత్సహిస్తుంది. ఈ ఇంటరాక్టివ్ విధానం కమ్యూనిటీ ఎంగేజ్మెంట్ను ప్రోత్సహిస్తుంది మరియు మోడల్ యొక్క సామర్థ్యాల యొక్క వాస్తవ-ప్రపంచ మూల్యాంకనాన్ని అనుమతిస్తుంది.
కమ్యూనిటీ ద్వారా QwQ-32B యొక్క వేగవంతమైన స్వీకరణ మరియు Ollama వంటి ప్రముఖ సాధనాల్లోకి దాని ఇంటిగ్రేషన్ మోడల్ యొక్క ప్రాముఖ్యత మరియు ప్రభావాన్ని ప్రదర్శిస్తాయి. బలమైన పనితీరు, చిన్న మోడల్ పరిమాణం మరియు రీన్ఫోర్స్మెంట్ లెర్నింగ్ యొక్క వినూత్న ఉపయోగం కలయిక QwQ-32Bని లార్జ్ లాంగ్వేజ్ మోడల్స్ రంగంలో ఒక ప్రధాన ముందడుగుగా ఉంచింది. మోడల్ యొక్క ఓపెన్ సోర్స్ స్వభావం AI కమ్యూనిటీలో సహకారం మరియు ఆవిష్కరణలను మరింత ప్రోత్సహిస్తుంది, భవిష్యత్ పురోగతులకు మార్గం సుగమం చేస్తుంది. ప్రాక్టికల్ డిప్లాయ్మెంట్ మరియు రియల్ వరల్డ్ అప్లికేషన్లపై దృష్టి పెట్టడం QwQ-32B పరిశోధన సెట్టింగ్లకు మించి గణనీయమైన ప్రభావాన్ని చూపే సామర్థ్యాన్ని హైలైట్ చేస్తుంది, అధునాతన AI సామర్థ్యాలను విస్తృత శ్రేణి వినియోగదారులు మరియు పరికరాలకు తీసుకువస్తుంది. Qwen బృందం చేస్తున్న నిరంతర పరిశోధన మరియు అభివృద్ధి ప్రయత్నాలు AGIని సాధించే దిశలో మరింత ఉత్తేజకరమైన పురోగతులను వాగ్దానం చేస్తున్నాయి.