DeepSeek-R1 battu par QwQ (32B) ?

Combien l’apprentissage par renforcement, renforcé par une vérification supplémentaire, peut-il élever les capacités des grands modèles de langage (LLM) ? L’équipe Qwen d’Alibaba cherche à le découvrir avec sa dernière création, QwQ.

QwQ, un modèle de « raisonnement », possède un nombre relativement compact de 32 milliards de paramètres. Pourtant, Alibaba affirme qu’il surpasse DeepSeek R1, avec ses 671 milliards de paramètres massifs, dans des benchmarks spécifiques liés aux mathématiques, au codage et aux appels de fonctions.

L’équipe Qwen, similaire à l’approche adoptée avec R1, a utilisé l’apprentissage par renforcement pour affiner le raisonnement de la chaîne de pensée de QwQ. Cette méthode améliore l’analyse des problèmes et les capacités de décomposition. L’apprentissage par renforcement renforce traditionnellement le raisonnement par étapes en récompensant les modèles pour les réponses correctes, favorisant ainsi des réponses plus précises. Cependant, QwQ va plus loin en incorporant un vérificateur de précision et un serveur d’exécution de code. Cela garantit que les récompenses sont exclusivement accordées pour des solutions mathématiques précises et du code fonctionnel.

L’équipe Qwen affirme que cette approche aboutit à un modèle qui surpasse sa taille, atteignant des performances comparables, voire supérieures, à celles de modèles beaucoup plus grands.

Cependant, les benchmarks d’IA peuvent être trompeurs. Examinons donc comment ces affirmations se traduisent dans des scénarios réels, puis nous vous guiderons sur la façon de faire fonctionner QwQ de manière indépendante.

Évaluation des performances

Nous avons soumis QwQ à une série d’invites de test, englobant des connaissances générales, le raisonnement spatial, la résolution de problèmes, les mathématiques et d’autres requêtes connues pour défier même les LLM les plus avancés.

En raison des besoins importants en mémoire du modèle complet, nous avons effectué nos tests dans deux configurations pour répondre aux utilisateurs ayant des capacités de RAM variables. Dans un premier temps, nous avons évalué le modèle complet en utilisant la démo QwQ sur Hugging Face. Par la suite, nous avons testé une version quantifiée 4 bits sur un GPU de 24 Go (Nvidia 3090 ou AMD Radeon RX 7900XTX) pour évaluer l’impact de la quantification sur la précision.

Pour la plupart des questions de connaissances générales, QwQ a présenté des performances similaires à celles du R1 de 671 milliards de paramètres de DeepSeek et d’autres modèles de raisonnement comme l’o3-mini d’OpenAI, s’arrêtant brièvement pour formuler ses pensées avant de fournir la réponse.

Les points forts du modèle, sans surprise, deviennent évidents lorsqu’il s’agit de relever des défis plus complexes en matière de logique, de codage ou de mathématiques. Examinons ces domaines avant d’aborder certaines de ses limites.

Prouesses en matière de raisonnement spatial

Nous avons commencé par un test de raisonnement spatial relativement nouveau, conçu par Homebrew Research dans le cadre de leur projet AlphaMaze.

Le test présente au modèle un labyrinthe au format texte, comme indiqué ci-dessous. La tâche du modèle est de naviguer de l’origine « O » à la cible « T ».

Analyse détaillée de QwQ d’Alibaba : Un concurrent de 32 milliards de paramètres qui défie DeepSeek-R1

L’apprentissage par renforcement, combiné à des techniques de vérification avancées, permet-il d’améliorer significativement les performances des grands modèles de langage (LLM) ? C’est la question à laquelle l’équipe Qwen d’Alibaba tente de répondre avec QwQ, son dernier modèle.

QwQ est présenté comme un modèle axé sur le “raisonnement”. Malgré sa taille relativement modeste de 32 milliards de paramètres, Alibaba prétend qu’il surpasse DeepSeek R1 (un modèle beaucoup plus imposant de 671 milliards de paramètres) dans certains benchmarks spécifiques, notamment en mathématiques, en codage et en function-calling.

L’équipe Qwen a employé une approche similaire à celle utilisée pour DeepSeek R1, en utilisant l’apprentissage par renforcement pour affiner le processus de raisonnement “chaîne de pensée” (chain-of-thought) de QwQ. Cette technique améliore la capacité du modèle à analyser et à décomposer les problèmes. Traditionnellement, l’apprentissage par renforcement améliore le raisonnement étape par étape en récompensant le modèle lorsqu’il fournit des réponses correctes, ce qui l’encourage à produire des résultats plus précis. QwQ va cependant plus loin en intégrant un vérificateur de précision et un serveur d’exécution de code. Ce système garantit que les récompenses ne sont attribuées que pour les solutions mathématiques exactes et le code fonctionnel.

Selon l’équipe Qwen, cette approche permet au modèle de surpasser les attentes liées à sa taille, atteignant des performances comparables, voire supérieures, à celles de modèles beaucoup plus grands.

Il est toutefois crucial de rester prudent face aux benchmarks d’IA, qui peuvent parfois être trompeurs. Examinons donc de plus près comment ces affirmations se traduisent dans des scénarios réels. Nous vous fournirons ensuite un guide pour exécuter QwQ de manière autonome.

Évaluation des performances : Un examen pratique

Nous avons soumis QwQ à une série de tests, couvrant des domaines variés tels que les connaissances générales, le raisonnement spatial, la résolution de problèmes, les mathématiques et d’autres types de questions qui posent généralement des difficultés, même aux LLM les plus avancés.

En raison des exigences de mémoire importantes du modèle complet, nous avons effectué nos tests en utilisant deux configurations différentes, afin de nous adapter aux utilisateurs disposant de capacités de RAM variées. Dans un premier temps, nous avons évalué le modèle complet en utilisant la démo QwQ disponible sur Hugging Face. Ensuite, nous avons testé une version quantifiée sur 4 bits sur un GPU de 24 Go (Nvidia 3090 ou AMD Radeon RX 7900XTX). Cette seconde configuration nous a permis d’évaluer l’impact de la quantification sur la précision du modèle.

Pour la plupart des questions de connaissances générales, QwQ a affiché des performances similaires à celles de DeepSeek R1 (671 milliards de paramètres) et d’autres modèles de raisonnement, tels que o3-mini d’OpenAI. Le modèle prenait généralement une courte pause pour formuler sa réponse avant de la fournir.

Comme on pouvait s’y attendre, les points forts de QwQ se manifestent plus clairement lorsqu’il est confronté à des défis plus complexes en matière de logique, de codage ou de mathématiques. Examinons ces aspects plus en détail, avant de nous pencher sur certaines des limitations du modèle.

Maîtrise du raisonnement spatial : Un test révélateur

Nous avons commencé notre évaluation par un test de raisonnement spatial relativement récent, développé par Homebrew Research dans le cadre de leur projet AlphaMaze.

Ce test présente au modèle un labyrinthe sous forme de texte, comme illustré ci-dessous. L’objectif du modèle est de trouver le chemin le plus court entre le point de départ “O” (origine) et le point d’arrivée “T” (cible).