AlibabaのQwQ、32BでDeepSeek-R1超え？ | ja

巨人への挑戦：コンパクトな競争者

QwQは、DeepSeek R1の6710億パラメータに対し、わずか320億パラメータでありながら、「推論」モデルとして位置づけられています。Alibabaは、この比較的小さなモデルが、特定のベンチマーク、特に数学、コーディング、関数呼び出しなどの分野でR1を上回ることができると主張しています。この野心的な主張には、QwQの内部構造と実際のパフォーマンスを詳しく調べる必要があります。

強化学習：QwQの能力の鍵

DeepSeek R1と同様に、Qwenチームは強化学習(RL)を採用して、QwQの思考連鎖推論能力を洗練させました。この方法は、モデルが複雑な問題を段階的に分析し、分解する能力を強化します。RLの従来のアプローチでは、正解に対してモデルに報酬を与え、正確な応答を強化します。

しかし、QwenチームはQwQでより微妙なアプローチを取りました。彼らは、精度検証器とコード実行サーバーを統合しました。この重要な追加により、数学的に健全なソリューションと機能的なコードに対してのみ報酬が与えられるようになります。この厳格な検証プロセスを実装することにより、チームはより高い精度と信頼性を示すモデルを育成することを目指しています。

パフォーマンスの主張：現実の確認

Qwenチームの努力により、彼らが主張するように、そのクラスをはるかに超えるパフォーマンスを発揮するモデルが生まれました。彼らは、QwQがはるかに大きなモデルと同等、場合によってはそれを超えるパフォーマンスレベルを達成すると主張しています。

しかし、AIベンチマークの世界は複雑になる可能性があります。報告された数値を超えて、これらの主張が実際の実用的なシナリオにどのように変換されるかを調べることが重要です。

ハンズオンテスト：QwQの能力を試す

QwQの能力を評価するために、さまざまなドメインにまたがる一連のテストプロンプトが設計されました。これらには、一般的な知識、空間推論、問題解決、数学、および最も高度な大規模言語モデル(LLM)でさえ困難であることが知られているその他の課題が含まれていました。

完全なモデルのメモリ要件が大きいため、テストは2つの構成で実行されました。まず、Hugging FaceのQwQデモを使用して完全なモデルを評価しました。これにより、その潜在能力を最大限に評価することができました。次に、4ビット量子化バージョンを24GB GPU(具体的にはNvidia 3090またはAMD Radeon RX 7900XTX)でテストしました。この構成は、量子化がモデルの精度に与える影響を測定することを目的としており、より強力でないハードウェアを持つユーザーがよりアクセスしやすくなっています。

一般知識：その地位を維持

ほとんどの一般知識の質問に対して、QwQはDeepSeekの6710億パラメータのR1やOpenAIのo3-miniなどの他の推論モデルと同等のパフォーマンスを示しました。モデルは通常、クエリへの回答を提供する前に、数秒かけて考えをまとめました。この動作は、即時の応答よりも慎重な検討を優先する推論モデルの特徴です。

複雑さにおける卓越性：ロジック、コーディング、数学

QwQが真に差別化され始めるのは、ロジック、コーディング、または数学を含むより複雑な課題に取り組む場合です。これらの分野を詳しく見て、その強みを強調し、不足しているいくつかの分野に対処しましょう。

空間推論：迷路のナビゲート

Homebrew ResearchがAlphaMazeプロジェクトの一環として開発した、比較的新しい空間推論テストを使用して、QwQを評価しました。

ローカルにホストされたQwQインスタンスとフルサイズのモデルの両方が、これらのパズルを一貫して正常に解決しました。ただし、各実行には数分かかりました。これは、QwQが空間推論を効果的に処理できる一方で、必ずしも最速ではないことを示しています。

対照的に、DeepSeekのR1とその32B distillは異なる動作を示しました。両方のモデルが最初の迷路を正常に解決しました。ただし、R1は2番目の迷路に苦労しましたが、32B distillは2番目の迷路で90%の成功率を達成しました。R1とdistillが異なるベースモデルを利用していることを考えると、この変動は完全に予想外ではありません。

QwQはこの特定のテストでDeepSeekよりも優れたパフォーマンスを示しましたが、4ビットモデルでいくつかの異常な動作が観察されました。最初は、テストを完了するためにほぼ2倍の「思考」トークンが必要でした。これは当初、量子化による潜在的な損失を示唆していました。しかし、さらなる調査により、量子化されたモデルは、初期状態では、最適ではないパフォーマンスを示していることが明らかになりました。ハイパーパラメータを調整してテストを再実行すると、この問題は解決され、適切な構成の重要性が示されました。

ワンショットコーディング：潜在的な強み

QwQは、「ワンショット」コード生成(最初の試行で利用可能なコードを生成する機能)の可能性でかなりの注目を集めています。この特定の領域は、モデルの重要な強みであるように思われます。

モデルは、pygameライブラリを使用してPythonでいくつかの比較的単純なゲームを再作成するように指示されました。選択されたゲームは、Pong、Breakout、Asteroids、Flappy Birdでした。

QwQはPongとBreakoutを比較的簡単に処理しました。数分間の処理の後、モデルは両方のゲームの動作バージョンを生成しました。

しかし、Asteroidsの再作成を指示されたとき、QwQは困難に遭遇しました。生成されたコードは実行されましたが、グラフィックとゲームの仕組みは頻繁に歪んでバグがありました。対照的に、R1は、最初の試行で、古典的なアーケードシューティングゲームを忠実に再現しました。

これらのモデルのトレーニングデータを考慮することが重要です。彼らは、古典的なゲームの複製を含む可能性のある、膨大な量のオープンに利用可能なソースコードにさらされてきました。これは、モデルが単に学習した情報を呼び出しているのか、それともゲームの仕組みを最初から独立して導き出しているのかという疑問を提起します。これは、これらの大規模なニューラルネットワークの基本的な性質を強調しており、見かけの知性は多くの場合、広範なパターン認識から生じます。

これらの制限があっても、QwQの古典的なアーケードゲームの再現におけるパフォーマンスは、特にそのパラメータ数を考慮すると印象的です。すべてのテストでR1に匹敵するとは限りませんが、驚くべきレベルの能力を示しています。自動車の世界でよく使われる「排気量に代わるものはない」というフレーズは、ここでも当てはまるかもしれません。これは、AlibabaがQwQの「Max」バージョンを開発している理由を説明する可能性がありますが、すぐにコンシューマーハードウェアで実行できるようになる可能性は低いでしょう。

DeepSeekの同様のサイズのR1 Qwen 2.5 32B distillと比較して、Alibabaがコード実行サーバーを強化学習パイプラインに統合するという決定は、プログラミング関連の課題において有利になった可能性があります。

数学：注意点付きの能力

歴史的に、LLMは数学に苦労してきました。これは、言語に焦点を当てたトレーニングの結果です。新しいモデルは改善を示していますが、QwQは依然として課題に直面していますが、必ずしも予想される理由ではありません。

QwQは、以前にR1に提示されたすべての数学の問題を正常に解決しました。これは、QwQが基本的な算術演算といくつかの代数を処理できることを示しています。ただし、問題はその効率にあります。電卓と直接計算がすぐに利用でき、大幅に高速である場合、数学の計算にLLMを使用することは直感に反するように思われます。
たとえば、7*43のような単純な方程式を解くには、QwQは1,000を超えるトークンを生成する必要があり、RTX 3090 Tiで約23秒かかりました。これは、ポケット電卓でほんの一瞬で完了できるタスクです。

非効率性は、より大きな計算でさらに顕著になります。ほとんどの非推論モデルの能力を超える乗算問題である3394*35979を解くには、QwQのローカルインスタンスは計算に3分と5,000を超えるトークンを必要としました。

ハイパーパラメータの修正前は、同じ方程式で9分と12,000近くのトークンという驚異的な時間が必要でした。

ここでの重要なポイントは、モデルが力ずくで正解にたどり着くことができるかもしれませんが、それが必ずしも最適なツールであるとは限らないということです。より実用的なアプローチは、QwQにPython電卓へのアクセスを提供することです。これにより、モデルの強みを活用しながら、計算負荷の高いタスクをより適切なツールにオフロードできます。

ツールを使用して同じ3394*35979の方程式を解くように指示された場合、電卓が重い処理を行ったため、QwQの応答時間は8秒に急落しました。

「待機」の蔓延：思考プロセスの垣間見る

QwQの「思考」を調べると、「待機」という単語が頻繁に出現することがわかります。これは、特に複雑なタスクや単語の問題の際に顕著です。これは、モデルが代替の結果に対して自分の作業をチェックする内部プロセスを反映しています。

この動作は推論モデルでは一般的ですが、「思考」プロセス中に正解の理解を示した後でも、QwQが不正解を生成すると、特にイライラする可能性があります。

この問題は、テスト中に頻繁に発生しました。最もわかりやすい例の1つは、AutoGen AIが古典的なオオカミ、ヤギ、キャベツの問題を改作したものです。このパズルは、輸送最適化の課題にひねりを加えたものです。

解決策はプロンプト内に埋め込まれています。3つの安全なコンパートメントがあれば、農家はすべてのアイテムを1回の旅行で輸送できます。ただし、パズルが古典的なバージョンに似ているため、モデルはコンパートメントを見落とすことがよくあります。

テストでは、QwQはこのパズルを正しく解くことができませんでした。その思考プロセスを調べると、3つのコンパートメントを見落としていないことがわかりました。実際、それらを認識していましたが、単純すぎるとして却下しました。

「待てよ、もし農家が3つすべてを1回の旅行で運べるなら、そうすればそれで終わりだ。しかし、それでは問題が些細なものになってしまい、それはありそうもない。だから、おそらくコンパートメントは別々だが、ボートは農家と2つのアイテムしか運べないのだろうか？」

テストがクラウド上のフルモデルで実行されたか、ローカルで実行されたかに関係なく、QwQはこれを一貫して解決するのに苦労しました。これは、問題の制約を考えすぎたり、誤って解釈したりする可能性がある、その推論能力の潜在的な制限を浮き彫りにしています。

ハイパーパラメータの感度：微妙なバランス

他のモデルと比較して、QwQはその構成に対して高い感度を示しました。当初、Alibabaは特定のサンプリングパラメータを推奨していました。

Temperature: 0.6
TopP: 0.95
TopK: 20から40の間

その後、これらの推奨事項は以下を含むように更新されました。

MinP: 0
Presence Penalty: 0から2の間

Llama.cppのサンプリングパラメータの処理における明らかなバグ(Llama.cppはモデルで推論を実行するために使用されます)のため、繰り返しペナルティを1に設定して無効にする必要もありました。

前述のように、これらの構成の問題に対処することで、大幅な改善が得られ、答えに到達するために必要な「思考」トークンの数が半分以上になりました。ただし、このバグは、OllamaやLM Studioなどの一般的なアプリケーションで使用されるLlama.cpp推論エンジンで実行する場合、GGUF量子化バージョンのモデルに固有のようです。

Llama.cppを利用する予定のユーザーは、Unslothのサンプリング順序の修正に関するガイドを参照することを強くお勧めします。

QwQを始める：実践的なガイド

QwQを試してみたい方のために、Ollamaでのセットアップは比較的簡単です。ただし、大量のvRAMを搭載したGPUが必要であることに注意してください。モデルは、実用的な使用に十分な大きさのコンテキストウィンドウを持つ24GB 3090 Tiで正常に実行されました。

技術的にはCPUとシステムメモリでモデルを実行することは可能ですが、ハイエンドのワークステーションまたはサーバーを使用しない限り、応答時間が非常に遅くなる可能性があります。

前提条件：

4ビット量子化で中規模のLLMを実行できるマシン。少なくとも24GBのvRAMを搭載した互換性のあるGPUをお勧めします。サポートされているカードのリストはこちらにあります。
Apple Silicon Macの場合、最低32GBのメモリをお勧めします。

このガイドでは、Linuxの世界のコマンドラインインターフェイスとOllamaに関する基本的な知識を前提としています。

Ollamaのインストール

Ollamaは、コンシューマーハードウェアでのLLMのダウンロードと提供のプロセスを簡素化する一般的なモデルランナーです。WindowsまたはmacOSユーザーの場合は、ollama.comから他のアプリケーションと同様にダウンロードしてインストールします。

Linuxユーザーの場合、Ollamaはインストール用の便利なワンライナーを提供します。

更新日時: 2025-03-18

# AIGC # Qwen # Alibaba