Alibaba: Qwen-32B fordert größere Modelle heraus

Alibaba stellt Qwen-32B vor: Ein kompaktes Kraftpaket, das größere Modelle herausfordert

In einer überraschenden Ankündigung in der späten Nacht hat Alibaba sein neuestes Reasoning-Modell, Qwen-32B (QwQ-32B), als Open Source veröffentlicht. Mit 32 Milliarden Parametern zeigt dieses Modell eine Leistung, die mit dem deutlich größeren, vollwertigen DeepSeek-R1 mit 67,1 Milliarden Parametern vergleichbar ist.

Das Qwen-Team hob in seiner Ankündigung seine Forschung zur Skalierung von Reinforcement Learning (RL)-Techniken hervor. Sie erklärten: ‘Wir haben Methoden zur Erweiterung von RL untersucht und einige beeindruckende Ergebnisse auf der Grundlage unseres Qwen2.5-32B erzielt. Wir haben festgestellt, dass RL-Training die Leistung kontinuierlich verbessern kann, insbesondere bei mathematischen und Programmieraufgaben. Wir haben beobachtet, dass die kontinuierliche Skalierung von RL mittelgroßen Modellen helfen kann, eine Leistung zu erzielen, die mit riesigen MoE-Modellen vergleichbar ist. Wir laden alle ein, mit unserem neuen Modell zu chatten und uns Feedback zu geben!’

QwQ-32B ist jetzt auf Hugging Face und ModelScope unter der Apache 2.0 Open-Source-Lizenz verfügbar. Benutzer können auch direkt über Qwen Chat mit dem Modell interagieren. Das beliebte lokale Bereitstellungstool Ollama hat bereits Unterstützung integriert, die über den Befehl ollama run qwq zugänglich ist.

Begleitend zur Veröffentlichung veröffentlichte das Qwen-Team einen Blogbeitrag mit dem Titel ‘QwQ-32B: Harnessing the Power of Reinforcement Learning’, in dem die bahnbrechenden Fortschritte detailliert beschrieben werden.

Der Blogbeitrag betont das immense Potenzial von groß angelegtem Reinforcement Learning (RL), um traditionelle Pre-Training- und Post-Training-Methoden zur Verbesserung der Modellleistung zu übertreffen. Jüngste Forschungsergebnisse, wie die Integration von Kaltstartdaten und mehrstufigem Training durch DeepSeek-R1, zeigen die Fähigkeit von RL, die Reasoning-Fähigkeiten erheblich zu verbessern und tieferes Denken und komplexe Problemlösungen zu ermöglichen.

Die Forschung des Qwen-Teams konzentrierte sich auf die Nutzung von groß angelegtem RL, um die Intelligenz großer Sprachmodelle zu steigern, was zur Entwicklung von QwQ-32B führte. Dieses Modell mit 32 Milliarden Parametern konkurriert bemerkenswerterweise mit der Leistung des DeepSeek-R1 mit 67,1 Milliarden Parametern (von denen 37 Milliarden aktiviert sind). Das Team betonte: ‘Diese Leistung unterstreicht die Effektivität der Anwendung von Reinforcement Learning auf robuste, vortrainierte Basismodelle.’

QwQ-32B beinhaltet auch agentenbezogene Fähigkeiten, die es ihm ermöglichen, seine Aktionen kritisch zu bewerten, während es Tools verwendet, und seinen Reasoning-Prozess basierend auf dem Feedback der Umgebung anzupassen. ‘Wir hoffen, dass unsere Bemühungen zeigen, dass die Kombination leistungsstarker Basismodelle mit groß angelegtem Reinforcement Learning ein gangbarer Weg zur Artificial General Intelligence (AGI) sein könnte’, erklärte das Team.

Modellleistung: Benchmarking von QwQ-32B

QwQ-32B wurde einer strengen Bewertung anhand einer Reihe von Benchmarks unterzogen, die mathematisches Reasoning, Programmierung und allgemeine Fähigkeiten umfassen. Die Ergebnisse zeigen die Leistung von QwQ-32B im Vergleich zu anderen führenden Modellen, darunter DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini und das ursprüngliche DeepSeek-R1.

Die Ergebnisse sind beeindruckend. QwQ-32B zeigt eine außergewöhnliche Leistung und übertrifft sogar DeepSeek-R1-67B in den Benchmarks LiveBench, IFEval und BFCL leicht. Dies unterstreicht die Effizienz und Leistungsfähigkeit des vom Qwen-Team gewählten Reinforcement-Learning-Ansatzes.

Ein tiefer Einblick in Reinforcement Learning

Die Entwicklung von QwQ-32B nutzte groß angelegtes Reinforcement Learning, das auf einer Kaltstart-Grundlage aufbaute. Die anfängliche Phase konzentrierte sich speziell auf das RL-Training für mathematische und Programmieraufgaben. Im Gegensatz zu herkömmlichen Ansätzen, die auf Belohnungsmodellen basieren, gab das Qwen-Team Feedback für mathematische Probleme, indem es die Richtigkeit der generierten Antworten überprüfte. Für Programmieraufgaben wurde das Feedback von einem Code-Ausführungsserver abgeleitet, der beurteilte, ob der generierte Code die Testfälle erfolgreich bestanden hat.

Im Laufe des Trainings mit mehreren Iterationen zeigte QwQ-32B in beiden Bereichen konsistente Leistungsverbesserungen. Dieser iterative Verfeinerungsprozess, der durch direktes Feedback zur Lösungsgenauigkeit gesteuert wird, erwies sich als äußerst effektiv.

Nach der anfänglichen RL-Phase, die sich auf Mathematik und Programmierung konzentrierte, wurde eine nachfolgende RL-Phase eingeführt, um die allgemeinen Fähigkeiten zu verbessern. In dieser Phase wurden allgemeine Belohnungsmodelle und regelbasierte Validatoren für das Training verwendet. Die Ergebnisse zeigten, dass selbst eine kleine Anzahl von Schritten im allgemeinen RL die Gesamtfähigkeiten steigern kann, ohne die Leistung bei den zuvor trainierten mathematischen und Programmieraufgaben wesentlich zu beeinträchtigen. Dies zeigt die Anpassungsfähigkeit und Robustheit des Modells.

Zukünftige Richtungen: Den Horizont der KI erweitern

Das Qwen-Team teilte auch seine Zukunftspläne mit und erklärte: ‘Dies ist Qwens erster Schritt bei der Nutzung von groß angelegtem Reinforcement Learning (RL) zur Verbesserung der Reasoning-Fähigkeiten. Auf diesem Weg haben wir nicht nur das immense Potenzial der Skalierung von RL erkannt, sondern auch die ungenutzten Möglichkeiten in vortrainierten Sprachmodellen. Während wir an der Entwicklung der nächsten Generation von Qwen arbeiten, glauben wir, dass die Kombination noch leistungsfähigerer Basismodelle mit RL, unterstützt durch skalierte Rechenressourcen, uns der Verwirklichung der Artificial General Intelligence (AGI) näher bringen wird. Darüber hinaus untersuchen wir aktiv die Integration von Agenten mit RL, um langfristiges Reasoning zu ermöglichen, mit dem Ziel, durch verlängerte Reasoning-Zeit noch mehr Intelligenz freizusetzen.’ Dieses Engagement für kontinuierliche Verbesserung und Forschung unterstreicht das Bestreben des Teams, die Grenzen der KI zu verschieben.

Community-Rezeption: QwQ-32B erntet breite Anerkennung

Die Veröffentlichung von QwQ-32B wurde mit großer Begeisterung und positivem Feedback aufgenommen. Die KI-Community, darunter viele Benutzer von Qwen, erwarteten mit Spannung die Enthüllung dieses neuen Modells.

Die jüngste Aufregung um DeepSeek unterstrich die Präferenz der Community für das vollwertige Modell aufgrund der Einschränkungen der destillierten Version. Das vollwertige Modell mit 67,1 Milliarden Parametern stellte jedoch Herausforderungen bei der Bereitstellung dar, insbesondere für Edge-Geräte mit begrenzten Ressourcen. Qwen-32B, mit seiner deutlich reduzierten Größe, behebt dieses Problem und eröffnet Möglichkeiten für eine breitere Bereitstellung.

Ein Benutzer kommentierte: ‘Es ist wahrscheinlich immer noch nicht auf Mobiltelefonen machbar, aber Macs mit ausreichend RAM könnten es möglicherweise verarbeiten.’ Diese Stimmung spiegelt den Optimismus wider, der das Potenzial für die Ausführung von QwQ-32B auf ressourcenbeschränkten Geräten umgibt.

Ein anderer Benutzer wandte sich direkt an Binyuan Hui, einen Wissenschaftler am Tongyi Laboratory von Alibaba, und forderte die Entwicklung noch kleinerer Modelle. Dies unterstreicht die Nachfrage nach immer kompakteren und effizienteren KI-Modellen.

Benutzer haben auch ihre Erfahrungen geteilt und die Geschwindigkeit und Reaktionsfähigkeit des Modells gelobt. Ein Benutzer präsentierte eine Demonstration, die die schnellen Verarbeitungsfähigkeiten von QwQ-32B hervorhob.

Awni Hannun, ein Machine-Learning-Forscher bei Apple, bestätigte die erfolgreiche Ausführung von QwQ-32B auf einem M4 Max und bemerkte seine beeindruckende Geschwindigkeit. Diese Validierung durch einen prominenten Forscher festigt die Leistungsansprüche des Modells weiter.

Das Qwen-Team hat auch eine Vorschauversion von QwQ-32B auf seiner offiziellen Chat-Oberfläche, Qwen Chat, zur Verfügung gestellt und Benutzer aufgefordert, Feedback zu testen und bereitzustellen. Dieser interaktive Ansatz fördert das Engagement der Community und ermöglicht eine realistische Bewertung der Fähigkeiten des Modells.

Die schnelle Akzeptanz von QwQ-32B durch die Community und seine Integration in beliebte Tools wie Ollama zeigen die Bedeutung und den Einfluss des Modells. Die Kombination aus starker Leistung, einer kleineren Modellgröße und dem innovativen Einsatz von Reinforcement Learning hat QwQ-32B als einen großen Fortschritt im Bereich der großen Sprachmodelle positioniert. Der Open-Source-Charakter des Modells fördert die Zusammenarbeit und Innovation innerhalb der KI-Community weiter und ebnet den Weg für zukünftige Durchbrüche. Der Fokus auf praktische Bereitstellung und reale Anwendungen unterstreicht das Potenzial von QwQ-32B, über Forschungsumgebungen hinaus erhebliche Auswirkungen zu haben und fortschrittliche KI-Fähigkeiten einem breiteren Spektrum von Benutzern und Geräten zugänglich zu machen. Die laufenden Forschungs- und Entwicklungsbemühungen des Qwen-Teams versprechen noch aufregendere Fortschritte auf dem Weg zur AGI.