Alibaba、Qwen-32Bを発表:より大きなモデルに匹敵するコンパクトなパワーハウス
Alibabaは、深夜の驚くべき発表で、最新の推論モデルであるQwen-32B (QwQ-32B) をオープンソース化した。320億のパラメータを誇るこのモデルは、はるかに大きい671億パラメータの本格的なDeepSeek-R1と同等の性能を示している。
Qwenチームの発表では、強化学習 (RL) 技術のスケーリングに関する研究が強調された。彼らは、「我々はRLを拡張する方法を模索しており、Qwen2.5-32Bに基づいていくつかの印象的な結果を達成しました。RLトレーニングは、特に数学とコーディングのタスクにおいて、パフォーマンスを継続的に改善できることがわかりました。RLの継続的なスケーリングは、中規模モデルが巨大なMoEモデルに匹敵するパフォーマンスを達成するのに役立つことがわかりました。新しいモデルとチャットして、フィードバックを提供してください!」と述べている。
QwQ-32Bは、Apache 2.0オープンソースライセンスの下で、Hugging FaceとModelScopeで利用できるようになった。ユーザーは、Qwen Chatを通じてモデルと直接対話することもできる。人気のあるローカル展開ツールであるOllamaは、すでにサポートを統合しており、コマンドollama run qwq
でアクセスできる。
リリースに伴い、Qwenチームは「QwQ-32B: Harnessing the Power of Reinforcement Learning」というタイトルのブログ投稿を公開し、画期的な進歩について詳しく説明した。
このブログ投稿では、大規模強化学習 (RL) が、モデルのパフォーマンスを向上させる上で、従来の事前学習および事後学習の方法を超える計り知れない可能性を秘めていることを強調している。DeepSeek-R1のコールドスタートデータと多段階トレーニングの統合など、最近の研究では、RLが推論能力を大幅に向上させ、より深い思考と複雑な問題解決を可能にすることが示されている。
Qwenチームの探求は、大規模RLを活用して大規模言語モデルの知性を高めることに焦点を当て、QwQ-32Bの作成に至った。この320億パラメータのモデルは、671億パラメータ (370億がアクティブ) のDeepSeek-R1のパフォーマンスに匹敵する。チームは、「この成果は、強化学習を堅牢な事前学習済みの基盤モデルに適用することの有効性を強調しています」と強調した。
QwQ-32Bは、エージェント関連の機能も組み込んでおり、ツールを使用しながら自分の行動を批判的に評価し、環境からのフィードバックに基づいて推論プロセスを適応させることができる。「強力な基盤モデルと大規模強化学習を組み合わせることが、汎用人工知能 (AGI) への実行可能な道である可能性があることを、我々の取り組みが示すことを願っています」とチームは述べた。
モデルのパフォーマンス:QwQ-32Bのベンチマーク
QwQ-32Bは、数学的推論、プログラミング、および一般的な機能を含む、さまざまなベンチマークで厳密な評価を受けた。結果は、DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini、およびオリジナルのDeepSeek-R1を含む、他の主要なモデルと比較したQwQ-32Bのパフォーマンスを示している。
その結果は驚くべきものだ。QwQ-32Bは、LiveBench、IFEval、およびBFCLベンチマークでDeepSeek-R1-67Bをわずかに上回る、卓越したパフォーマンスを示している。これは、Qwenチームが採用した強化学習アプローチの効率性とパワーを強調している。
強化学習の詳細
QwQ-32Bの開発は、コールドスタート基盤の上に構築された大規模強化学習を活用した。最初の段階では、特に数学とプログラミングのタスクのRLトレーニングに集中した。報酬モデルに依存する従来のアプローチとは異なり、Qwenチームは、生成された回答の正しさを検証することによって、数学の問題に対するフィードバックを提供した。コーディングタスクの場合、フィードバックはコード実行サーバーから取得され、生成されたコードがテストケースに合格したかどうかを評価した。
トレーニングが複数の反復を通じて進行するにつれて、QwQ-32Bは両方のドメインで一貫したパフォーマンスの向上を示した。ソリューションの正確性に関する直接的なフィードバックによって導かれるこの反復的な改善プロセスは、非常に効果的であることが証明された。
数学とプログラミングに焦点を当てた最初のRLフェーズに続いて、一般的な機能を強化するための後続のRLフェーズが導入された。この段階では、一般的な報酬モデルとルールベースのバリデーターをトレーニングに使用した。結果は、一般的なRLの少数のステップでさえ、以前にトレーニングされた数学およびプログラミングタスクのパフォーマンスに大きな影響を与えることなく、全体的な機能を向上させることができることを示した。これは、モデルの適応性と堅牢性を示している。
将来の方向性:AIの地平線を拡大する
Qwenチームはまた、将来の計画を共有し、「これは、大規模強化学習 (RL) を活用して推論能力を強化するためのQwenの最初のステップです。この旅を通じて、RLのスケーリングの計り知れない可能性を目の当たりにしただけでなく、事前学習済み言語モデル内の未開発の可能性も認識しました。次世代のQwenの開発に向けて取り組む中で、さらに強力な基盤モデルとRLを組み合わせ、スケーリングされた計算リソースを活用することで、汎用人工知能 (AGI) の実現に近づくと信じています。さらに、長期的な推論を可能にするためにエージェントとRLの統合を積極的に模索しており、拡張された推論時間を通じてさらに優れた知性を解き放つことを目指しています」と述べた。継続的な改善と探求へのこのコミットメントは、AIの限界を押し広げるというチームの献身を強調している。
コミュニティの反応:QwQ-32Bは広く称賛を集める
QwQ-32Bのリリースは、幅広い熱意と肯定的なフィードバックで迎えられた。Qwenの多くのユーザーを含むAIコミュニティは、この新しいモデルの発表を熱心に期待していた。
最近のDeepSeekをめぐる興奮は、蒸留バージョンの制限により、コミュニティが本格的なモデルを好むことを浮き彫りにした。しかし、671億パラメータの本格的なモデルは、特にリソースが限られているエッジデバイスでは、展開の課題があった。Qwen-32Bは、サイズが大幅に縮小されたことで、この懸念に対処し、より広範な展開の可能性を開いている。
あるユーザーは、「おそらくまだ携帯電話では実現不可能ですが、十分なRAMを搭載したMacなら処理できるかもしれません」とコメントした。この感情は、リソースに制約のあるデバイスでQwQ-32Bを実行できる可能性に対する楽観的な見方を反映している。
別のユーザーは、AlibabaのTongyi Laboratoryの科学者であるBinyuan Huiに直接、さらに小さなモデルの開発を促した。これは、ますますコンパクトで効率的なAIモデルに対する需要を浮き彫りにしている。
ユーザーはまた、モデルの速度と応答性を賞賛する経験を共有している。あるユーザーは、QwQ-32Bの迅速な処理能力を強調するデモンストレーションを紹介した。
Appleの機械学習研究者であるAwni Hannunは、M4 MaxでQwQ-32Bの実行に成功したことを確認し、その印象的な速度に言及した。著名な研究者からのこの検証は、モデルのパフォーマンスの主張をさらに強固なものにする。
Qwenチームはまた、公式チャットインターフェースであるQwen ChatでQwQ-32Bのプレビューバージョンを利用できるようにし、ユーザーにテストとフィードバックの提供を奨励している。このインタラクティブなアプローチは、コミュニティの関与を促進し、モデルの機能の実際の評価を可能にする。
QwQ-32Bがコミュニティに急速に採用され、Ollamaなどの人気のあるツールに統合されたことは、モデルの重要性と影響を示している。強力なパフォーマンス、より小さなモデルサイズ、および強化学習の革新的な使用の組み合わせにより、QwQ-32Bは大規模言語モデルの分野における大きな進歩として位置付けられている。モデルのオープンソースの性質は、AIコミュニティ内でのコラボレーションとイノベーションをさらに促進し、将来のブレークスルーへの道を開く。実用的な展開と実際のアプリケーションに焦点を当てることは、QwQ-32Bが研究環境を超えて大きな影響を与え、高度なAI機能をより幅広いユーザーとデバイスにもたらす可能性を強調している。Qwenチームによる継続的な研究開発努力は、AGIの追求においてさらにエキサイティングな進歩を約束する。