Alibaba onthult Qwen-32B: Een compacte krachtpatser die grotere modellen uitdaagt
In een verrassende late-night aankondiging heeft Alibaba zijn nieuwste reasoning model, Qwen-32B (QwQ-32B), open-sourced. Met 32 miljard parameters demonstreert dit model prestaties die vergelijkbaar zijn met het aanzienlijk grotere, volwaardige DeepSeek-R1 met 67,1 miljard parameters.
Het Qwen-team benadrukte in hun aankondiging hun onderzoek naar het schalen van reinforcement learning (RL) technieken. Ze verklaarden: “We hebben methoden onderzocht om RL uit te breiden en hebben indrukwekkende resultaten behaald op basis van onze Qwen2.5-32B. We ontdekten dat RL-training de prestaties continu kan verbeteren, vooral bij wiskundige en codeertaken. We hebben vastgesteld dat de voortdurende schaling van RL middelgrote modellen kan helpen prestaties te bereiken die vergelijkbaar zijn met gigantische MoE-modellen. We nodigen iedereen uit om met ons nieuwe model te chatten en ons feedback te geven!”
QwQ-32B is nu beschikbaar op Hugging Face en ModelScope onder de Apache 2.0 open-source licentie. Gebruikers kunnen ook direct met het model communiceren via Qwen Chat. De populaire lokale implementatietool, Ollama, heeft al ondersteuning geïntegreerd, toegankelijk via het commando: ollama run qwq
.
Samen met de release publiceerde het Qwen-team een blogpost met de titel “QwQ-32B: Harnessing the Power of Reinforcement Learning”, waarin de baanbrekende ontwikkelingen worden beschreven.
De blogpost benadrukt het immense potentieel van grootschalige reinforcement learning (RL) om traditionele pre-training en post-training methoden te overtreffen bij het verbeteren van de modelprestaties. Recent onderzoek, zoals de integratie van cold-start data en multi-stage training in DeepSeek-R1, toont aan dat RL het redeneervermogen aanzienlijk kan verbeteren, waardoor dieper nadenken en complexe probleemoplossing mogelijk worden.
Het onderzoek van het Qwen-team was gericht op het benutten van grootschalige RL om de intelligentie van grote taalmodellen te verhogen, wat culmineerde in de creatie van QwQ-32B. Dit model met 32 miljard parameters evenaart opmerkelijk genoeg de prestaties van het DeepSeek-R1 model met 67,1 miljard parameters (waarvan 37 miljard geactiveerd). Het team benadrukte: “Deze prestatie onderstreept de effectiviteit van het toepassen van reinforcement learning op robuuste, vooraf getrainde fundamentele modellen.”
QwQ-32B bevat ook agent-gerelateerde mogelijkheden, waardoor het zijn acties kritisch kan evalueren terwijl het tools gebruikt en zijn redeneerproces kan aanpassen op basis van feedback uit de omgeving. “We hopen dat onze inspanningen aantonen dat het combineren van krachtige fundamentele modellen met grootschalige reinforcement learning een haalbare weg zou kunnen zijn naar Artificial General Intelligence (AGI)”, aldus het team.
Modelprestaties: Benchmarking van QwQ-32B
QwQ-32B werd rigoureus geëvalueerd aan de hand van een reeks benchmarks, waaronder wiskundig redeneren, programmeren en algemene capaciteiten. De resultaten tonen de prestaties van QwQ-32B in vergelijking met andere toonaangevende modellen, waaronder DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini en de originele DeepSeek-R1.
De bevindingen zijn opvallend. QwQ-32B demonstreert uitzonderlijke prestaties en overtreft zelfs DeepSeek-R1-67B op de LiveBench, IFEval en BFCL benchmarks. Dit benadrukt de efficiëntie en kracht van de reinforcement learning aanpak die door het Qwen-team is gekozen.
Diepgaande duik in Reinforcement Learning
De ontwikkeling van QwQ-32B maakte gebruik van grootschalige reinforcement learning gebouwd op een cold-start fundament. De initiële fase concentreerde zich specifiek op RL-training voor wiskundige en programmeertaken. In tegenstelling tot traditionele benaderingen die afhankelijk zijn van beloningsmodellen, gaf het Qwen-team feedback voor wiskundige problemen door de juistheid van gegenereerde antwoorden te verifiëren. Voor codeertaken werd feedback afgeleid van een code-uitvoerserver, die beoordeelde of de gegenereerde code met succes testcases doorstond.
Naarmate de training vorderde door middel van meerdere iteraties, vertoonde QwQ-32B consistente prestatieverbeteringen in beide domeinen. Dit iteratieve verfijningsproces, geleid door directe feedback op de nauwkeurigheid van de oplossing, bleek zeer effectief.
Na de initiële RL-fase gericht op wiskunde en programmeren, werd een volgende RL-fase geïntroduceerd om de algemene capaciteiten te verbeteren. Deze fase maakte gebruik van algemene beloningsmodellen en op regels gebaseerde validatoren voor training. De resultaten gaven aan dat zelfs een klein aantal stappen in algemene RL de algehele capaciteiten kon verbeteren zonder de prestaties op de eerder getrainde wiskundige en programmeertaken significant te beïnvloeden. Dit toont de aanpasbaarheid en robuustheid van het model aan.
Toekomstige Richtingen: De horizon van AI verbreden
Het Qwen-team deelde ook hun toekomstplannen en verklaarde: “Dit is Qwen’s eerste stap in het benutten van grootschalige reinforcement learning (RL) om het redeneervermogen te verbeteren. Tijdens deze reis hebben we niet alleen het immense potentieel van het schalen van RL gezien, maar ook de onbenutte mogelijkheden binnen vooraf getrainde taalmodellen erkend. Terwijl we werken aan de ontwikkeling van de volgende generatie Qwen, geloven we dat het combineren van nog krachtigere fundamentele modellen met RL, aangedreven door geschaalde computationele resources, ons dichter bij het bereiken van Artificial General Intelligence (AGI) zal brengen. Bovendien onderzoeken we actief de integratie van agents met RL om langdurig redeneren mogelijk te maken, met als doel nog grotere intelligentie te ontsluiten door middel van langere redeneertijd.” Deze toewijding aan continue verbetering en verkenning onderstreept de toewijding van het team om de grenzen van AI te verleggen.
Ontvangst door de gemeenschap: QwQ-32B oogst brede bijval
De release van QwQ-32B is met groot enthousiasme en positieve feedback ontvangen. De AI-gemeenschap, waaronder veel van Qwen’s gebruikers, keek reikhalzend uit naar de onthulling van dit nieuwe model.
De recente opwinding rond DeepSeek benadrukte de voorkeur van de gemeenschap voor het volwaardige model vanwege de beperkingen van de gedistilleerde versie. Het volwaardige model met 67,1 miljard parameters vormde echter een uitdaging voor de implementatie, met name voor edge-apparaten met beperkte resources. Qwen-32B, met zijn aanzienlijk kleinere omvang, pakt dit probleem aan en opent mogelijkheden voor bredere implementatie.
Een gebruiker merkte op: “Het is waarschijnlijk nog steeds niet haalbaar op mobiele telefoons, maar Macs met voldoende RAM-geheugen zouden het misschien wel aankunnen.” Dit sentiment weerspiegelt het optimisme rond de mogelijkheid om QwQ-32B op apparaten met beperkte resources te draaien.
Een andere gebruiker richtte zich rechtstreeks tot Binyuan Hui, een wetenschapper bij Alibaba’s Tongyi Laboratory, en drong aan op de ontwikkeling van nog kleinere modellen. Dit benadrukt de vraag naar steeds compactere en efficiëntere AI-modellen.
Gebruikers hebben ook hun ervaringen gedeeld en prezen de snelheid en responsiviteit van het model. Een gebruiker toonde een demonstratie, waarin de snelle verwerkingsmogelijkheden van QwQ-32B werden benadrukt.
Awni Hannun, een machine learning onderzoeker bij Apple, bevestigde de succesvolle uitvoering van QwQ-32B op een M4 Max en merkte de indrukwekkende snelheid op. Deze validatie van een prominente onderzoeker versterkt de prestatieclaims van het model verder.
Het Qwen-team heeft ook een preview-versie van QwQ-32B beschikbaar gesteld op hun officiële chat-interface, Qwen Chat, en moedigt gebruikers aan om te testen en feedback te geven. Deze interactieve aanpak bevordert de betrokkenheid van de gemeenschap en maakt een real-world evaluatie van de mogelijkheden van het model mogelijk.
De snelle adoptie van QwQ-32B door de gemeenschap en de integratie ervan in populaire tools zoals Ollama tonen het belang en de impact van het model aan. De combinatie van sterke prestaties, een kleinere modelgrootte en het innovatieve gebruik van reinforcement learning heeft QwQ-32B gepositioneerd als een belangrijke vooruitgang op het gebied van grote taalmodellen. Het open-source karakter van het model stimuleert verder samenwerking en innovatie binnen de AI-gemeenschap, en baant de weg voor toekomstige doorbraken. De focus op praktische implementatie en real-world toepassingen benadrukt het potentieel van QwQ-32B om een substantiële impact te hebben buiten onderzoekssettings, waardoor geavanceerde AI-mogelijkheden naar een breder scala aan gebruikers en apparaten worden gebracht. De voortdurende onderzoeks- en ontwikkelingsinspanningen van het Qwen-team beloven nog meer opwindende ontwikkelingen in het streven naar AGI.