DeepSeek-R1-Leistung in 32B?

Wie stark kann Reinforcement Learning, verstärkt durch zusätzliche Verifikation, die Fähigkeiten großer Sprachmodelle (LLMs) verbessern? Das Qwen-Team von Alibaba ist mit seiner neuesten Kreation, QwQ, auf der Suche nach Antworten.

QwQ, ein ‘Reasoning’-Modell, verfügt über relativ kompakte 32 Milliarden Parameter. Dennoch behauptet Alibaba, dass es DeepSeek R1 mit seinen massiven 671 Milliarden Parametern in spezifischen Benchmarks in Bezug auf Mathematik, Codierung und Funktionsaufrufe übertrifft.

Das Qwen-Team verwendete, ähnlich wie beim Ansatz mit R1, Reinforcement Learning, um das Chain-of-Thought-Reasoning von QwQ zu verfeinern. Diese Methode verbessert die Fähigkeiten zur Problemanalyse und -zerlegung. Reinforcement Learning stärkt traditionell das schrittweise Reasoning, indem es Modelle für richtige Antworten belohnt und so genauere Antworten fördert. QwQ geht jedoch noch einen Schritt weiter, indem es einen Genauigkeitsprüfer und einen Code-Ausführungsserver integriert. Dadurch wird sichergestellt, dass Belohnungen ausschließlich für genaue mathematische Lösungen und funktionsfähigen Code vergeben werden.

Das Qwen-Team behauptet, dass dieser Ansatz zu einem Modell führt, das seine Größe übertrifft und eine Leistung erzielt, die mit viel größeren Modellen vergleichbar ist und diese manchmal sogar übertrifft.

Allerdings können AI-Benchmarks täuschen. Lassen Sie uns also untersuchen, wie sich diese Behauptungen in reale Szenarien übersetzen, und dann zeigen wir Ihnen, wie Sie QwQ selbstständig zum Laufen bringen können.

Leistungsbewertung

Wir haben QwQ einer Reihe von Testaufforderungen unterzogen, die Allgemeinwissen, räumliches Denken, Problemlösung, Mathematik und andere Fragen umfassten, die selbst die fortschrittlichsten LLMs herausfordern.

Aufgrund der erheblichen Speicheranforderungen des vollständigen Modells haben wir unsere Tests in zwei Konfigurationen durchgeführt, um Benutzern mit unterschiedlichen RAM-Kapazitäten gerecht zu werden. Zunächst haben wir das vollständige Modell mit der QwQ-Demo auf Hugging Face bewertet. Anschließend haben wir eine 4-Bit-quantisierte Version auf einer 24-GB-GPU (Nvidia 3090 oder AMD Radeon RX 7900XTX) getestet, um die Auswirkungen der Quantisierung auf die Genauigkeit zu messen.

Bei den meisten Fragen zum Allgemeinwissen zeigte QwQ eine ähnliche Leistung wie DeepSeeks 671-Milliarden-Parameter-R1 und andere Reasoning-Modelle wie OpenAIs o3-mini, wobei es kurz pausierte, um seine Gedanken zu formulieren, bevor es die Antwort gab.

Die Stärken des Modells zeigen sich, wenig überraschend, bei der Bewältigung komplexerer Logik-, Codierungs- oder mathematischer Herausforderungen. Lassen Sie uns diese Bereiche untersuchen, bevor wir auf einige seiner Einschränkungen eingehen.

Fähigkeiten im räumlichen Denken

Wir begannen mit einem relativ neuen Test zum räumlichen Denken, der von Homebrew Research als Teil ihres AlphaMaze-Projekts entwickelt wurde.

Der Test präsentiert dem Modell ein Labyrinth im Textformat, wie untengezeigt. Die Aufgabe des Modells besteht darin, vom Ursprung ‘O’ zum Ziel ‘T’ zu navigieren.