DeepSeek-R1 in 32B? El Reg testet Alibabas QwQ

Herausforderer der Giganten: Ein kompakter Konkurrent

QwQ, obwohl es nur 32 Milliarden Parameter im Vergleich zu DeepSeek R1’s angeblichen 671 Milliarden hat, wird als ‘Reasoning’-Modell positioniert. Alibaba behauptet, dass dieses relativ kleine Modell R1 in bestimmten Benchmarks übertreffen kann, insbesondere in Bereichen wie Mathematik, Codierung und Funktionsaufrufen. Diese ehrgeizige Behauptung rechtfertigt einen genaueren Blick auf die inneren Abläufe und die reale Leistung von QwQ.

Reinforcement Learning: Der Schlüssel zu QwQs Fähigkeiten

Ähnlich wie DeepSeek R1 verwendete das Qwen-Team Reinforcement Learning (RL), um die Chain-of-Thought-Reasoning-Fähigkeiten von QwQ zu verfeinern. Diese Methode verbessert die Fähigkeit des Modells, komplexe Probleme Schritt für Schritt zu analysieren und zu zerlegen. Der traditionelle Ansatz in RL besteht darin, das Modell für richtige Antworten zu belohnen und so korrekte Antworten zu verstärken.

Das Qwen-Team verfolgte jedoch mit QwQ einen differenzierteren Ansatz. Sie integrierten einen Genauigkeitsprüfer und einen Code-Ausführungsserver. Dieser entscheidende Zusatz stellt sicher, dass Belohnungen nur für mathematisch fundierte Lösungen und funktionsfähigen Code vergeben werden. Durch die Implementierung dieses strengen Verifizierungsprozesses will das Team ein Modell entwickeln, das ein höheres Maß an Präzision und Zuverlässigkeit aufweist.

Leistungsansprüche: Ein Realitätscheck

Die Bemühungen des Qwen-Teams haben, so behaupten sie, ein Modell hervorgebracht, das deutlich über seiner Gewichtsklasse liegt. Sie behaupten, dass QwQ Leistungsniveaus erreicht, die mit denen viel größerer Modelle vergleichbar sind und diese in einigen Fällen sogar übertreffen.

Die Welt der KI-Benchmarks kann jedoch komplex sein. Es ist entscheidend, über die berichteten Zahlen hinauszugehen und zu untersuchen, wie sich diese Behauptungen in praktische, reale Szenarien übersetzen.

Praxistests: QwQ auf dem Prüfstand

Um die Fähigkeiten von QwQ zu beurteilen, wurde eine Reihe von Testaufforderungen entwickelt, die eine Reihe von Bereichen abdecken. Dazu gehörten Allgemeinwissen, räumliches Denken, Problemlösung, Mathematik und andere Herausforderungen, die selbst für die fortschrittlichsten großen Sprachmodelle (LLMs) Schwierigkeiten bereiten.

Aufgrund des erheblichen Speicherbedarfs des vollständigen Modells wurde der Test in zwei Konfigurationen durchgeführt. Zuerst wurde das vollständige Modell mit der QwQ-Demo auf Hugging Face evaluiert. Dies ermöglichte eine Beurteilung seines vollen Potenzials. Zweitens wurde eine 4-Bit-quantisierte Version auf einer 24-GB-GPU (insbesondere einer Nvidia 3090 oder einer AMD Radeon RX 7900XTX) getestet. Diese Konfiguration zielte darauf ab, die Auswirkungen der Quantisierung auf die Genauigkeit des Modells zu messen, wodurch es für Benutzer mit weniger leistungsstarker Hardware zugänglicher wird.

Allgemeinwissen: Behauptet sich

Als Reaktion auf die meisten Fragen zum Allgemeinwissen zeigte QwQ eine Leistung, die mit DeepSeeks 671-Milliarden-Parameter-R1 und anderen Reasoning-Modellen wie OpenAIs o3-mini vergleichbar ist. Das Modell brauchte in der Regel einige Sekunden, um seine Gedanken zu formulieren, bevor es eine Antwort auf die Anfrage gab. Dieses Verhalten ist charakteristisch für Reasoning-Modelle, die eine sorgfältige Abwägung gegenüber sofortigen Antworten priorisieren.

Exzellenz in der Komplexität: Logik, Codierung und Mathematik

Wo QwQ sich wirklich zu unterscheiden beginnt, ist bei der Bewältigung komplexerer Herausforderungen, die Logik, Codierung oder Mathematik beinhalten. Lassen Sie uns in diese Bereiche eintauchen und seine Stärken hervorheben und einige Bereiche ansprechen, in denen es hinter den Erwartungen zurückbleibt.

Räumliches Denken: Navigieren im Labyrinth

Ein relativ neuer Test zum räumlichen Denken, der von Homebrew Research als Teil ihres AlphaMaze-Projekts entwickelt wurde, wurde verwendet, um QwQ zu evaluieren.

Sowohl die lokal gehostete QwQ-Instanz als auch das Modell in voller Größe lösten diese Rätsel durchweg erfolgreich. Jeder Lauf dauerte jedoch einige Minuten. Dies deutet darauf hin, dass QwQ zwar räumliches Denken effektiv bewältigen kann, aber nicht unbedingt das schnellste darin ist.

Im Gegensatz dazu zeigten DeepSeeks R1 und sein 32B-Destillat unterschiedliche Verhaltensweisen. Beide Modelle lösten das erste Labyrinth erfolgreich. R1 hatte jedoch Schwierigkeiten mit dem zweiten, während das 32B-Destillat eine Erfolgsquote von 90 % beim zweiten Labyrinth erreichte. Diese Variabilität ist nicht völlig unerwartet, da R1 und das Destillat unterschiedliche Basismodelle verwenden.

Während QwQ in diesem speziellen Test eine überlegene Leistung im Vergleich zu DeepSeek zeigte, wurde beim 4-Bit-Modell ein ungewöhnliches Verhalten beobachtet. Anfangs benötigte es fast doppelt so viele ‘Thought’-Token, um den Test abzuschließen. Dies deutete zunächst auf mögliche Verluste durch Quantisierung hin. Weitere Untersuchungen ergaben jedoch, dass das quantisierte Modell in seinem ursprünglichen Zustand eine suboptimale Leistung zeigte. Das Anpassen der Hyperparameter und das erneute Ausführen der Tests lösten dieses Problem, was die Bedeutung der richtigen Konfiguration demonstriert.

One-Shot-Codierung: Eine potenzielle Stärke

QwQ hat beträchtliche Aufmerksamkeit für sein Potenzial bei der ‘One-Shot’-Codegenerierung erregt – der Fähigkeit, beim ersten Versuch verwendbaren Code zu erzeugen. Dieser spezielle Bereich scheint eine bedeutende Stärke des Modells zu sein.

Das Modell wurde beauftragt, mehrere relativ einfache Spiele in Python mit der pygame-Bibliothek neu zu erstellen. Die ausgewählten Spiele waren Pong, Breakout, Asteroids und Flappy Bird.

QwQ bewältigte Pong und Breakout relativ einfach. Nach einigen Minuten Bearbeitungszeit generierte das Modell funktionierende Versionen beider Spiele.

Als es jedoch darum ging, Asteroids neu zu erstellen, stieß QwQ auf Schwierigkeiten. Obwohl der generierte Code lief, waren die Grafiken und Spielmechaniken häufig verzerrt und fehlerhaft. Im Gegensatz dazu hat R1 bei seinem ersten Versuch den klassischen Arcade-Shooter originalgetreu nachgebildet.

Es ist wichtig, die Trainingsdaten für diese Modelle zu berücksichtigen. Sie wurden einer riesigen Menge an offen verfügbarem Quellcode ausgesetzt, wahrscheinlich einschließlich Reproduktionen klassischer Spiele. Dies wirft die Frage auf, ob die Modelle einfach gelernte Informationen abrufen, anstatt Spielmechaniken unabhängig von Grund auf neu abzuleiten. Dies unterstreicht die grundlegende Natur dieser massiven neuronalen Netze, bei denen scheinbare Intelligenz oft aus umfangreicher Mustererkennung resultiert.

Selbst mit diesen Einschränkungen ist die Leistung von QwQ bei der Nachbildung klassischer Arcade-Spiele beeindruckend, insbesondere angesichts seiner Parameterzahl. Es mag R1 nicht in jedem Test entsprechen, aber es zeigt ein bemerkenswertes Maß an Fähigkeit. Der Satz ‘Es gibt keinen Ersatz für Hubraum’, der oft in der Automobilwelt verwendet wird, könnte hier relevant sein. Dies könnte erklären, warum Alibaba eine ‘Max’-Version von QwQ entwickelt, obwohl es unwahrscheinlich ist, dass diese in absehbarer Zeit auf Consumer-Hardware lauffähig sein wird.

Im Vergleich zu DeepSeeks ähnlich großem R1 Qwen 2.5 32B-Destillat könnte Alibabas Entscheidung, einen Code-Ausführungsserver in seine Reinforcement-Learning-Pipeline zu integrieren, einen Vorteil bei Programmieraufgaben verschafft haben.

Mathematik: Fähigkeit mit Vorbehalt

In der Vergangenheit hatten LLMs Schwierigkeiten mit Mathematik, eine Folge ihres sprachorientierten Trainings. Während neuere Modelle Verbesserungen gezeigt haben, steht QwQ immer noch vor Herausforderungen, wenn auch nicht unbedingt aus den Gründen, die man erwarten könnte.

QwQ löste erfolgreich alle mathematischen Probleme, die zuvor R1 gestellt wurden. Dies deutet darauf hin, dass QwQ grundlegende Arithmetik und sogar etwas Algebra beherrscht. Das Problem liegt jedoch in seiner Effizienz. Ein LLM für mathematische Berechnungen einzusetzen, erscheint widersinnig, wenn Taschenrechner und direkte Berechnungen weiterhin verfügbar und deutlich schneller sind.
Zum Beispiel benötigte QwQ für die Lösung einer einfachen Gleichung wie 7*43 über 1.000 Token und dauerte etwa 23 Sekunden auf einer RTX 3090 Ti. Dies ist eine Aufgabe, die auf einem Taschenrechner in einem Bruchteil der Zeit erledigt werden könnte.

Die Ineffizienz wird bei größeren Berechnungen noch deutlicher. Die Lösung von 3394*35979, einem Multiplikationsproblem, das die Fähigkeiten der meisten Nicht-Reasoning-Modelle übersteigt, dauerte bei der lokalen Instanz von QwQ drei Minuten und über 5.000 Token.

Vor der Hyperparameter-Korrektur benötigte dieselbe Gleichung erstaunliche neun Minuten und fast 12.000 Token.

Die wichtigste Erkenntnis hier ist, dass ein Modell zwar in der Lage sein mag, sich mit roher Gewalt zur richtigen Antwort durchzuschlagen, dies aber nicht unbedingt bedeutet, dass es das optimale Werkzeug für die Aufgabe ist. Ein praktischerer Ansatz wäre, QwQ Zugriff auf einen Python-Taschenrechner zu geben. Dies nutzt die Stärken des Modells, während rechenintensive Aufgaben an ein geeigneteres Werkzeug ausgelagert werden.

Wenn QwQ mit der Lösung derselben Gleichung 3394*35979 unter Verwendung von Werkzeugen beauftragt wurde, sank seine Reaktionszeit auf acht Sekunden, da der Taschenrechner die schwere Arbeit übernahm.

Die Prävalenz von ‘Wait’: Ein Einblick in den Denkprozess

Die Untersuchung von QwQs ‘Gedanken’ zeigt ein häufiges Vorkommen des Wortes ‘wait’ (warten), insbesondere bei komplexen Aufgaben oder Textaufgaben. Dies spiegelt den internen Prozess des Modells wider, seine Arbeit mit alternativen Ergebnissen abzugleichen.

Während dieses Verhalten bei Reasoning-Modellen üblich ist, kann es besonders frustrierend sein, wenn QwQ eine falsche Antwort generiert, selbst nachdem es während seines ‘Gedanken’-Prozesses ein Verständnis der richtigen Antwort gezeigt hat.

Dieses Problem trat während des Tests häufig auf. Eines der anschaulichsten Beispiele war die Adaption des klassischen Wolf-, Ziege- und Kohl-Problems durch AutoGen AI. Dieses Rätsel stellt eine Transportoptimierungsaufgabe mit einem Twist dar:

Die Lösung ist in der Aufforderung eingebettet: Mit drei sicheren Fächern kann der Bauer alle Gegenstände in einer einzigen Fahrt transportieren. Aufgrund der Ähnlichkeit des Rätsels mit der klassischen Version übersehen Modelle jedoch oft die Fächer.

Im Test konnte QwQ dieses Rätsel durchweg nicht korrekt lösen. Die Untersuchung seines Denkprozesses ergab, dass es die drei Fächer nicht übersehen hat. Tatsächlich hat es sie erkannt, aber als zu einfach abgetan:

‘Warte, wenn der Bauer alle drei in einer Fahrt mitnehmen kann, dann kann er das einfach tun und fertig sein. Aber das würde das Problem trivial machen, was unwahrscheinlich ist. Vielleicht sind die Fächer getrennt, aber das Boot kann nur zwei Gegenstände plus den Bauern tragen?’

Unabhängig davon, ob der Test auf dem vollständigen Modell in der Cloud oder lokal ausgeführt wurde, hatte QwQ Schwierigkeiten, dies konsistent zu lösen. Dies unterstreicht eine potenzielle Einschränkung seiner Reasoning-Fähigkeiten, bei der es die Einschränkungen des Problems möglicherweise überdenkt oder falsch interpretiert.

Hyperparameter-Sensitivität: Ein empfindliches Gleichgewicht

Im Vergleich zu anderen Modellen zeigte QwQ eine erhöhte Empfindlichkeit gegenüber seiner Konfiguration. Ursprünglich empfahl Alibaba spezifische Sampling-Parameter:

  • Temperature: 0.6
  • TopP: 0.95
  • TopK: zwischen 20 und 40

Anschließend wurden diese Empfehlungen aktualisiert und umfassen nun:

  • MinP: 0
  • Presence Penalty: zwischen 0 und 2

Aufgrund eines offensichtlichen Fehlers in der Handhabung von Sampling-Parametern durch Llama.cpp (Llama.cpp wird zum Ausführen von Inferenz auf Modellen verwendet) war es auch notwendig, die Wiederholungsstrafe zu deaktivieren, indem sie auf 1 gesetzt wurde.

Wie bereits erwähnt, führte die Behebung dieser Konfigurationsprobleme zu einer signifikanten Verbesserung, wodurch die Anzahl der ‘denkenden’ Token, die benötigt wurden, um zu einer Antwort zu gelangen, mehr als halbiert wurde. Dieser Fehler scheint jedoch spezifisch für GGUF-quantisierte Versionen des Modells zu sein, wenn sie auf der Llama.cpp-Inferenz-Engine ausgeführt werden, die von beliebten Anwendungen wie Ollama und LM Studio verwendet wird.

Für Benutzer, die Llama.cpp verwenden möchten, wird dringend empfohlen, den Leitfaden von Unsloth zur Korrektur der Sampling-Reihenfolge zu konsultieren.

Erste Schritte mit QwQ: Eine praktische Anleitung

Für diejenigen, die daran interessiert sind, mit QwQ zu experimentieren, ist die Einrichtung in Ollama relativ einfach. Es ist jedoch wichtig zu beachten, dass es eine GPU mit einer erheblichen Menge an vRAM benötigt. Das Modell wurde erfolgreich auf einer 24 GB 3090 Ti mit einem Kontextfenster ausgeführt, das groß genug für den praktischen Gebrauch ist.

Obwohl es technisch machbar ist, das Modell auf einer CPU und Systemspeicher auszuführen, führt dies wahrscheinlich zu extrem langsamen Reaktionszeiten, es sei denn, es wird eine High-End-Workstation oder ein Server verwendet.

Voraussetzungen:

  1. Eine Maschine, die in der Lage ist, mittelgroße LLMs mit 4-Bit-Quantisierung auszuführen. Eine kompatible GPU mit mindestens 24 GB vRAM wird empfohlen. Eine Liste der unterstützten Karten finden Sie hier.
  2. Für Apple Silicon Macs werden mindestens 32 GB Arbeitsspeicher empfohlen.

Diese Anleitung setzt grundlegende Kenntnisse einer Linux-Befehlszeilenschnittstelle und Ollama voraus.

Ollama installieren

Ollama ist ein beliebter Modell-Runner, der den Prozess des Herunterladens und Bereitstellens von LLMs auf Consumer-Hardware vereinfacht. Für Windows- oder macOS-Benutzer laden Sie es herunter und installieren Sie es wie jede andere Anwendung von ollama.com.

Für Linux-Benutzer bietet Ollama einen praktischen Einzeiler für die Installation: