క్వెన్-32Bని ఆవిష్కరించిన అలీబాబా

అలీబాబా Qwen-32B ని ఆవిష్కరించింది: పెద్ద మోడళ్లకు సవాలు విసురుతున్న కాంపాక్ట్ పవర్‌హౌస్

ఆశ్చర్యకరమైన అర్థరాత్రి ప్రకటనలో, అలీబాబా తన తాజా రీజనింగ్ మోడల్, Qwen-32B (QwQ-32B) ని ఓపెన్ సోర్స్ చేసింది. 32 బిలియన్ పారామితులను కలిగి ఉన్న ఈ మోడల్, గణనీయంగా పెద్దదైన 67.1 బిలియన్ పారామీటర్, పూర్తి-స్థాయి DeepSeek-R1 తో సమానమైన పనితీరును ప్రదర్శిస్తుంది.

Qwen బృందం ప్రకటన రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) టెక్నిక్‌లను స్కేలింగ్ చేయడంలో వారి పరిశోధనను హైలైట్ చేసింది. వారు ఇలా పేర్కొన్నారు, “మేము RLని విస్తరించడానికి పద్ధతులను అన్వేషిస్తున్నాము, మా Qwen2.5-32B ఆధారంగా కొన్ని ఆకట్టుకునే ఫలితాలను సాధించాము. గణిత మరియు కోడింగ్ టాస్క్‌లలో RL శిక్షణ పనితీరును నిరంతరం మెరుగుపరుస్తుందని మేము కనుగొన్నాము. RL యొక్క నిరంతర స్కేలింగ్ మధ్య తరహా మోడల్‌లు దిగ్గజ MoE మోడల్‌లతో పోల్చదగిన పనితీరును సాధించడంలో సహాయపడుతుందని మేము గమనించాము. మా కొత్త మోడల్‌తో చాట్ చేయడానికి మరియు మాకు ఫీడ్‌బ్యాక్ అందించడానికి మేము ప్రతి ఒక్కరినీ స్వాగతిస్తున్నాము!”

QwQ-32B ఇప్పుడు Apache 2.0 ఓపెన్ సోర్స్ లైసెన్స్ క్రింద Hugging Face మరియు ModelScopeలో అందుబాటులో ఉంది. వినియోగదారులు Qwen Chat ద్వారా నేరుగా మోడల్‌తో ఇంటరాక్ట్ అవ్వవచ్చు. ప్రముఖ స్థానిక విస్తరణ సాధనం, Ollama, ఇప్పటికే మద్దతును ఇంటిగ్రేట్ చేసింది, కమాండ్ ద్వారా అందుబాటులో ఉంటుంది: ollama run qwq.

విడుదలతో పాటు, Qwen బృందం “QwQ-32B: హార్నెసింగ్ ది పవర్ ఆఫ్ రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్” అనే శీర్షికతో ఒక బ్లాగ్ పోస్ట్‌ను ప్రచురించింది, ఇది సంచలనాత్మక పురోగతులను వివరిస్తుంది.

బ్లాగ్ పోస్ట్ మోడల్ పనితీరును మెరుగుపరచడంలో సాంప్రదాయ ప్రీ-ట్రైనింగ్ మరియు పోస్ట్-ట్రైనింగ్ పద్ధతులను అధిగమించడానికి లార్జ్-స్కేల్ రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) యొక్క అపారమైన సామర్థ్యాన్ని నొక్కి చెబుతుంది. డీప్‌సీక్-R1 యొక్క కోల్డ్-స్టార్ట్ డేటా మరియు మల్టీ-స్టేజ్ ట్రైనింగ్‌తో కూడిన ఇటీవలి పరిశోధన, రీజనింగ్ సామర్థ్యాలను గణనీయంగా పెంచడానికి, లోతైన ఆలోచన మరియు సంక్లిష్ట సమస్య-పరిష్కారానికి వీలు కల్పించడానికి RL యొక్క సామర్థ్యాన్ని ప్రదర్శిస్తుంది.

Qwen బృందం యొక్క అన్వేషణ లార్జ్ లాంగ్వేజ్ మోడల్స్ యొక్క తెలివితేటలను పెంచడానికి లార్జ్-స్కేల్ RLని ఉపయోగించడంపై దృష్టి సారించింది, ఇది QwQ-32Bని సృష్టించడానికి దారితీసింది. ఈ 32 బిలియన్ పారామీటర్ మోడల్ 67.1 బిలియన్ పారామీటర్ (37 బిలియన్ యాక్టివేట్ చేయబడిన) DeepSeek-R1 పనితీరును విశేషంగా పోటీ చేస్తుంది. “ఈ విజయం బలమైన, ముందుగా శిక్షణ పొందిన ఫౌండేషన్ మోడళ్లకు రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌ని వర్తింపజేయడం యొక్క ప్రభావాన్ని నొక్కి చెబుతుంది” అని బృందం నొక్కి చెప్పింది.

QwQ-32B ఏజెంట్-సంబంధిత సామర్థ్యాలను కూడా కలిగి ఉంది, ఇది సాధనాలను ఉపయోగిస్తున్నప్పుడు దాని చర్యలను విమర్శనాత్మకంగా విశ్లేషించడానికి మరియు పర్యావరణ ఫీడ్‌బ్యాక్ ఆధారంగా దాని రీజనింగ్ ప్రక్రియను మార్చుకోవడానికి వీలు కల్పిస్తుంది. “శక్తివంతమైన ఫౌండేషన్ మోడల్‌లను లార్జ్-స్కేల్ రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌తో కలపడం ఆర్టిఫిషియల్ జనరల్ ఇంటెలిజెన్స్ (AGI) వైపు సాధ్యమయ్యే మార్గం కావచ్చని మా ప్రయత్నాలు నిరూపిస్తాయని మేము ఆశిస్తున్నాము” అని బృందం పేర్కొంది.

మోడల్ పనితీరు: QwQ-32B బెంచ్‌మార్కింగ్

గణిత రీజనింగ్, ప్రోగ్రామింగ్ మరియు సాధారణ సామర్థ్యాలతో సహా అనేక బెంచ్‌మార్క్‌లలో QwQ-32B కఠినమైన మూల్యాంకనానికి గురైంది. ఫలితాలు DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini మరియు అసలైన DeepSeek-R1తో సహా ఇతర ప్రముఖ మోడల్‌లతో పోలిస్తే QwQ-32B పనితీరును ప్రదర్శిస్తాయి.

కనుగొన్న విషయాలు అద్భుతమైనవి. QwQ-32B అసాధారణమైన పనితీరును ప్రదర్శిస్తుంది, LiveBench, IFEval మరియు BFCL బెంచ్‌మార్క్‌లలో DeepSeek-R1-67Bని కూడా కొద్దిగా అధిగమించింది. ఇది Qwen బృందం అనుసరించిన రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ విధానం యొక్క సామర్థ్యం మరియు శక్తిని హైలైట్ చేస్తుంది.

రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌లో లోతైన డైవ్

QwQ-32B అభివృద్ధి కోల్డ్-స్టార్ట్ ఫౌండేషన్ ఆధారంగా నిర్మించబడిన లార్జ్-స్కేల్ రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌ను ఉపయోగించుకుంది. ప్రారంభ దశ ప్రత్యేకంగా గణిత మరియు ప్రోగ్రామింగ్ టాస్క్‌ల కోసం RL శిక్షణపై దృష్టి సారించింది. రివార్డ్ మోడళ్లపై ఆధారపడే సాంప్రదాయ విధానాల వలె కాకుండా, Qwen బృందం ఉత్పత్తి చేయబడిన సమాధానాల యొక్క ఖచ్చితత్వాన్ని ధృవీకరించడం ద్వారా గణిత సమస్యలకు ఫీడ్‌బ్యాక్‌ను అందించింది. కోడింగ్ టాస్క్‌ల కోసం, ఫీడ్‌బ్యాక్ కోడ్ ఎగ్జిక్యూషన్ సర్వర్ నుండి తీసుకోబడింది, ఉత్పత్తి చేయబడిన కోడ్ టెస్ట్ కేసులను విజయవంతంగా ఉత్తీర్ణత సాధించిందా లేదా అని అంచనా వేస్తుంది.

బహుళ పునరావృతాల ద్వారా శిక్షణ పురోగమిస్తున్నప్పుడు, QwQ-32B రెండు డొమైన్‌లలో స్థిరమైన పనితీరు మెరుగుదలలను ప్రదర్శించింది. పరిష్కార ఖచ్చితత్వంపై ప్రత్యక్ష ఫీడ్‌బ్యాక్ ద్వారా మార్గనిర్దేశం చేయబడిన ఈ పునరావృత శుద్ధీకరణ ప్రక్రియ అత్యంత ప్రభావవంతమైనదని నిరూపించబడింది.

గణితం మరియు ప్రోగ్రామింగ్‌పై దృష్టి సారించిన ప్రారంభ RL దశ తర్వాత, సాధారణ సామర్థ్యాలను మెరుగుపరచడానికి తదుపరి RL దశ ప్రవేశపెట్టబడింది. ఈ దశ శిక్షణ కోసం సాధారణ రివార్డ్ మోడల్‌లు మరియు నియమం-ఆధారిత వాలిడేటర్‌లను ఉపయోగించింది. ఫలితాలు సాధారణ RLలో తక్కువ సంఖ్యలో దశలు కూడా గతంలో శిక్షణ పొందిన గణిత మరియు ప్రోగ్రామింగ్ టాస్క్‌లపై పనితీరును గణనీయంగా ప్రభావితం చేయకుండా మొత్తం సామర్థ్యాలను పెంచుతాయని సూచించాయి. ఇది మోడల్ యొక్క అనుకూలత మరియు దృఢత్వాన్ని ప్రదర్శిస్తుంది.

భవిష్యత్తు దిశలు: AI యొక్క పరిధులను విస్తరించడం

Qwen బృందం తమ భవిష్యత్ ప్రణాళికలను కూడా పంచుకుంది, “రీజనింగ్ సామర్థ్యాలను మెరుగుపరచడానికి లార్జ్-స్కేల్ రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL)ని ఉపయోగించడంలో ఇది Qwen యొక్క మొదటి అడుగు. ఈ ప్రయాణం ద్వారా, మేము RLని స్కేలింగ్ చేయడం యొక్క అపారమైన సామర్థ్యాన్ని చూడటమే కాకుండా, ముందుగా శిక్షణ పొందిన లాంగ్వేజ్ మోడల్స్‌లో ఉపయోగించని అవకాశాలను కూడా గుర్తించాము. మేము తదుపరి తరం Qwenని అభివృద్ధి చేయడానికి పని చేస్తున్నప్పుడు, స్కేల్డ్ కంప్యూటేషనల్ వనరుల ద్వారా శక్తిని పొందిన RLతో మరింత శక్తివంతమైన ఫౌండేషన్ మోడల్‌లను కలపడం మమ్మల్ని ఆర్టిఫిషియల్ జనరల్ ఇంటెలిజెన్స్ (AGI)ని సాధించడానికి దగ్గర చేస్తుందని మేము నమ్ముతున్నాము. ఇంకా, మేము దీర్ఘకాలిక రీజనింగ్‌ని ఎనేబుల్ చేయడానికి ఏజెంట్‌లను RLతో ఇంటిగ్రేట్ చేయడాన్ని చురుకుగా అన్వేషిస్తున్నాము, విస్తరించిన రీజనింగ్ సమయం ద్వారా మరింత ఎక్కువ తెలివితేటలను అన్‌లాక్ చేయాలని లక్ష్యంగా పెట్టుకున్నాము.” నిరంతర మెరుగుదల మరియు అన్వేషణ పట్ల ఈ నిబద్ధత AI యొక్క సరిహద్దులను ముందుకు తీసుకెళ్లడానికి బృందం యొక్క అంకితభావాన్ని నొక్కి చెబుతుంది.

కమ్యూనిటీ రిసెప్షన్: QwQ-32B విస్తృత ప్రశంసలను పొందింది

QwQ-32B విడుదల విస్తృత ఉత్సాహం మరియు సానుకూల ఫీడ్‌బ్యాక్‌తో స్వాగతించబడింది. Qwen యొక్క చాలా మంది వినియోగదారులతో సహా AI కమ్యూనిటీ, ఈ కొత్త మోడల్ యొక్క ఆవిష్కరణ కోసం ఆసక్తిగా ఎదురుచూసింది.

డీప్‌సీక్ చుట్టూ ఉన్న ఇటీవలి ఉత్సాహం డిస్టిల్డ్ వెర్షన్ యొక్క పరిమితుల కారణంగా పూర్తి-స్థాయి మోడల్‌కు కమ్యూనిటీ యొక్క ప్రాధాన్యతను హైలైట్ చేసింది. అయితే, 67.1B పారామీటర్ పూర్తి-స్థాయి మోడల్ విస్తరణ సవాళ్లను అందించింది, ముఖ్యంగా పరిమిత వనరులతో కూడిన ఎడ్జ్ పరికరాల కోసం. Qwen-32B, దాని గణనీయంగా తగ్గించబడిన పరిమాణంతో, ఈ ఆందోళనను పరిష్కరిస్తుంది, విస్తృత విస్తరణకు అవకాశాలను తెరుస్తుంది.

ఒక వినియోగదారు ఇలా వ్యాఖ్యానించారు, “ఇది బహుశా మొబైల్ ఫోన్‌లలో ఇంకా సాధ్యం కాకపోవచ్చు, కానీ తగినంత RAM ఉన్న Macలు దీన్ని నిర్వహించగలవు.” ఈ సెంటిమెంట్ వనరుల-పరిమిత పరికరాలలో QwQ-32Bని అమలు చేయగల సామర్థ్యం చుట్టూ ఉన్న ఆశావాదాన్ని ప్రతిబింబిస్తుంది.

మరొక వినియోగదారు అలీబాబా యొక్క టోంగీ లాబొరేటరీలో శాస్త్రవేత్త అయిన బిన్యువాన్ హుయ్‌ని నేరుగా సంబోధించారు, ఇంకా చిన్న మోడల్‌లను అభివృద్ధి చేయాలని కోరారు. ఇది మరింత కాంపాక్ట్ మరియు సమర్థవంతమైన AI మోడల్‌ల కోసం డిమాండ్‌ను హైలైట్ చేస్తుంది.

వినియోగదారులు తమ అనుభవాలను కూడా పంచుకున్నారు, మోడల్ యొక్క వేగం మరియు ప్రతిస్పందనను ప్రశంసించారు. ఒక వినియోగదారు ప్రదర్శనను ప్రదర్శించారు, QwQ-32B యొక్క వేగవంతమైన ప్రాసెసింగ్ సామర్థ్యాలను హైలైట్ చేశారు.

Appleలో మెషిన్ లెర్నింగ్ పరిశోధకుడు అవ్ని హన్నున్, M4 Maxలో QwQ-32B యొక్క విజయవంతమైన అమలును ధృవీకరించారు, దాని ఆకట్టుకునే వేగాన్ని గుర్తించారు. ప్రముఖ పరిశోధకుడి నుండి ఈ ధ్రువీకరణ మోడల్ యొక్క పనితీరు వాదనలను మరింత బలపరుస్తుంది.

Qwen బృందం తమ అధికారిక చాట్ ఇంటర్‌ఫేస్, Qwen Chatలో QwQ-32B యొక్క ప్రివ్యూ వెర్షన్‌ను కూడా అందుబాటులో ఉంచింది, వినియోగదారులను పరీక్షించడానికి మరియు ఫీడ్‌బ్యాక్ అందించడానికి ప్రోత్సహిస్తుంది. ఈ ఇంటరాక్టివ్ విధానం కమ్యూనిటీ ఎంగేజ్‌మెంట్‌ను ప్రోత్సహిస్తుంది మరియు మోడల్ యొక్క సామర్థ్యాల యొక్క వాస్తవ-ప్రపంచ మూల్యాంకనాన్ని అనుమతిస్తుంది.

కమ్యూనిటీ ద్వారా QwQ-32B యొక్క వేగవంతమైన స్వీకరణ మరియు Ollama వంటి ప్రముఖ సాధనాల్లోకి దాని ఇంటిగ్రేషన్ మోడల్ యొక్క ప్రాముఖ్యత మరియు ప్రభావాన్ని ప్రదర్శిస్తాయి. బలమైన పనితీరు, చిన్న మోడల్ పరిమాణం మరియు రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ యొక్క వినూత్న ఉపయోగం కలయిక QwQ-32Bని లార్జ్ లాంగ్వేజ్ మోడల్స్ రంగంలో ఒక ప్రధాన ముందడుగుగా ఉంచింది. మోడల్ యొక్క ఓపెన్ సోర్స్ స్వభావం AI కమ్యూనిటీలో సహకారం మరియు ఆవిష్కరణలను మరింత ప్రోత్సహిస్తుంది, భవిష్యత్ పురోగతులకు మార్గం సుగమం చేస్తుంది. ప్రాక్టికల్ డిప్లాయ్‌మెంట్ మరియు రియల్ వరల్డ్ అప్లికేషన్‌లపై దృష్టి పెట్టడం QwQ-32B పరిశోధన సెట్టింగ్‌లకు మించి గణనీయమైన ప్రభావాన్ని చూపే సామర్థ్యాన్ని హైలైట్ చేస్తుంది, అధునాతన AI సామర్థ్యాలను విస్తృత శ్రేణి వినియోగదారులు మరియు పరికరాలకు తీసుకువస్తుంది. Qwen బృందం చేస్తున్న నిరంతర పరిశోధన మరియు అభివృద్ధి ప్రయత్నాలు AGIని సాధించే దిశలో మరింత ఉత్తేజకరమైన పురోగతులను వాగ్దానం చేస్తున్నాయి.