DeepSeek-R1-prestaties in 32B?

Hoeveel kan reinforcement learning, versterkt met extra verificatie, de mogelijkheden van grote taalmodellen (LLM’s) vergroten? Het Qwen-team van Alibaba is op zoek naar het antwoord met hun nieuwste creatie, QwQ.

QwQ, een ‘redeneermodel’, heeft een relatief compacte 32 miljard parameters. Toch beweert Alibaba dat het DeepSeek R1, met zijn enorme 671 miljard parameters, overtreft in specifieke benchmarks met betrekking tot wiskunde, codering en functieaanroepen.

Het Qwen-team heeft, vergelijkbaar met de aanpak die is gebruikt met R1, reinforcement learning gebruikt om de chain-of-thought redenering van QwQ te verfijnen. Deze methode verbetert de mogelijkheden voor probleemanalyse en -opsplitsing. Reinforcement learning versterkt traditioneel stapsgewijs redeneren door modellen te belonen voor correcte antwoorden, waardoor nauwkeurigere reacties worden bevorderd. QwQ gaat echter een stap verder door een nauwkeurigheidsverificateur en een code-uitvoerserver op te nemen. Dit zorgt ervoor dat beloningen uitsluitend worden toegekend voor nauwkeurige wiskundige oplossingen en functionele code.

Het Qwen-team beweert dat deze aanpak resulteert in een model dat zijn grootte overtreft en prestaties levert die vergelijkbaar zijn met, en soms zelfs groter zijn dan, veel grotere modellen.

AI-benchmarks kunnen echter misleidend zijn. Laten we dus eens kijken hoe deze claims zich vertalen naar real-world scenario’s en dan zullen we u begeleiden bij het zelfstandig opzetten en uitvoeren van QwQ.

Prestatie-evaluatie

We hebben QwQ onderworpen aan een reeks testprompts, waaronder algemene kennis, ruimtelijk redeneren, probleemoplossing, wiskunde en andere vragen waarvan bekend is dat ze zelfs de meest geavanceerde LLM’s uitdagen.

Vanwege de aanzienlijke geheugenvereisten van het volledige model, hebben we onze tests uitgevoerd in twee configuraties om tegemoet te komen aan gebruikers met verschillende RAM-capaciteiten. In eerste instantie hebben we het volledige model beoordeeld met behulp van de QwQ-demo op Hugging Face. Vervolgens hebben we een 4-bit gekwantiseerde versie getest op een 24 GB GPU (Nvidia 3090 of AMD Radeon RX 7900XTX) om de impact van kwantisatie op de nauwkeurigheid te meten.

Voor de meeste algemene kennisvragen vertoonde QwQ prestaties die vergelijkbaar waren met DeepSeek’s 671 miljard parameter R1 en andere redeneermodellen zoals OpenAI’s o3-mini, waarbij het kort pauzeerde om zijn gedachten te formuleren voordat het antwoord werd gegeven.

De sterke punten van het model worden, misschien niet verrassend, duidelijk bij het aanpakken van meer ingewikkelde logica, codering of wiskundige uitdagingen. Laten we ons in deze gebieden verdiepen voordat we enkele van de beperkingen aanpakken.

Ruimtelijk Redeneervermogen

We begonnen met een relatief nieuwe ruimtelijke redeneertest, bedacht door Homebrew Research als onderdeel van hun AlphaMaze-project.

De test presenteert het model met een doolhof in tekstformaat, zoals hieronder weergegeven. De taak van het model is om van de oorsprong ‘O’ naar het doel ‘T’ te navigeren.