強化学習に加えて検証を強化することで、大規模言語モデル (LLM) の能力はどれほど向上するのでしょうか? Alibaba の Qwen チームは、最新の成果である QwQ でその答えを探求しています。
QwQ は「推論」モデルであり、320 億パラメータという比較的コンパクトなサイズを誇ります。しかし、Alibaba は、数学、コーディング、関数呼び出しに関連する特定のベンチマークにおいて、6710 億パラメータという巨大な DeepSeek R1 を上回ると主張しています。
Qwen チームは、R1 で採用されたアプローチと同様に、強化学習を用いて QwQ の思考連鎖推論を洗練させました。この方法は、問題の分析と分解能力を強化します。強化学習は、従来、正解に対してモデルに報酬を与えることで段階的な推論を強化し、より正確な応答を促進します。しかし、QwQ は、精度検証器とコード実行サーバーを組み込むことで、さらに一歩進んでいます。これにより、正確な数学的解法と機能的なコードに対してのみ報酬が与えられるようになります。
Qwen チームは、このアプローチにより、そのサイズを凌駕するパフォーマンスを発揮し、はるかに大規模なモデルに匹敵する、場合によってはそれを超えるパフォーマンスを達成するモデルが実現すると主張しています。
しかし、AI ベンチマークは欺瞞的な場合があります。そこで、これらの主張が実際のシナリオにどのように反映されるかを確認し、QwQ を独自に起動して実行する方法を説明します。
パフォーマンス評価
QwQ に対して、一般的な知識、空間推論、問題解決、数学、および最先端の LLM でさえも苦戦することが知られているその他のクエリを含む一連のテストプロンプトを実施しました。
完全なモデルはかなりのメモリを必要とするため、さまざまな RAM 容量を持つユーザーに対応できるように、2 つの構成でテストを実施しました。最初に、Hugging Face の QwQ デモを使用して完全なモデルを評価しました。次に、24 GB GPU (Nvidia 3090 または AMD Radeon RX 7900XTX) で 4 ビット量子化バージョンをテストし、量子化が精度に与える影響を測定しました。
ほとんどの一般的な知識に関する質問に対して、QwQ は DeepSeek の 6710 億パラメータの R1 や OpenAI の o3-mini などの他の推論モデルと同様のパフォーマンスを示し、回答を提供する前に思考を整理するために少し間を置きました。
当然のことながら、このモデルの強みは、より複雑なロジック、コーディング、または数学的な課題に取り組むときに明らかになります。いくつかの制限事項に対処する前に、これらの領域について詳しく見ていきましょう。
空間推論能力
Homebrew Research が AlphaMaze プロジェクトの一環として考案した、比較的新しい空間推論テストから始めました。
このテストでは、以下に示すように、テキスト形式でモデルに迷路を提示します。モデルのタスクは、原点 “O” からターゲット “T” まで移動することです。