Moonshot AI MuonとMoonlightを発表

大規模言語モデル学習における効率性の追求

より大規模で高性能な言語モデルへの絶え間ない追求は、効率性という喫緊の課題をもたらしました。これらの巨大モデルの学習には、単なる計算能力だけでなく、あらゆるワットと時間を最大限に活用できる洗練された技術が必要です。学習プロセスを推進するエンジンである最適化アルゴリズムは、絶対的に重要です。数十億、さらには数兆ものパラメータを持つモデルが、どれだけ迅速かつ効果的に最適なパフォーマンスの状態に収束できるかは、最適化アルゴリズムによって決まります。AdamWのようなオプティマイザは業界の主力となっていますが、綿密なハイパーパラメータチューニングの必要性と計算資源への飽くなき要求が、より効率的な代替手段の探求を促しています。最終的な目標は、計算負荷を大幅に削減しながら、堅牢な学習安定性を提供するオプティマイザです。

既存の最適化技術の限界

巨大な言語モデルの学習における中心的な課題は、計算要求の規模の大きさにあります。モデルが大きくなるにつれて、反復ごとに更新する必要があるパラメータの数が爆発的に増加します。既存の多くのオプティマイザは、小規模な設定では効果的ですが、この巨大な圧力の下では不安定になり始めます。効率が低下し、学習期間を長引かせる絶え間ない微調整が必要になります。さらに、不安定性の問題が忍び寄り、モデルのパフォーマンスを低下させる不安定な更新として現れることがあります。したがって、真に効果的なソリューションは、効率性と安定性の両方に対処し、過剰な計算能力や手動によるパラメータ調整の無限の時間を必要とせずに、スムーズで信頼性の高い学習を保証する必要があります。

広く使用されているAdamおよびAdamWオプティマイザは、たとえば、適応学習率と重み減衰に依存してモデルのパフォーマンスを微調整します。これらの方法は、さまざまなアプリケーションでその価値を証明してきました。しかし、モデルがスケールアップするにつれて、その有効性は低下します。これらのオプティマイザに関連する計算オーバーヘッドは劇的に増加し、真に大規模な学習の取り組みには非効率になります。これは、代替オプティマイザの特定と開発に焦点を当てた活発な研究努力を促進しました。これらの新しいアプローチは、優れたパフォーマンスと効率を提供し、理想的には、面倒なハイパーパラメータチューニングの必要性を排除しながら、安定したスケーラブルな結果を達成することを目指しています。

スケーラビリティのために設計された新しいオプティマイザ、Muon

Moonshot AIの研究者は、UCLAとの共同研究で、大規模学習シナリオにおける既存の方法の限界を克服するために特別に設計されたオプティマイザであるMuonを発表しました。Muonは当初、小規模モデルで印象的なパフォーマンスを示しましたが、言語モデルの世界の巨人に取り組むためにスケールアップすると、ハードルに遭遇しました。これらの課題に対処するために、研究者は2つの重要な技術を実装しました。

まず、過剰適合を防ぎ、学習の安定性を高める正則化技術である重み減衰を組み込みました。次に、一貫した二乗平均平方根(RMS)更新を導入しました。これにより、大きさに関係なく、すべてのパラメータに均一に調整が適用されます。この均一性は、大規模言語モデルの広大なパラメータ空間全体でバランスの取れた学習を維持するために非常に重要です。これらの機能強化により、Muonは広範なハイパーパラメータチューニングを必要とせずに効率的に動作できます。この「すぐに使える」準備は、大規模モデルの学習にとって魅力的な選択肢となり、セットアップと構成のオーバーヘッドを大幅に削減します。

Moonlight: 混合エキスパートモデルにおけるMuonの力の活用

Muonに具体化された進歩に基づいて、研究者は混合エキスパート(MoE)モデルであるMoonlightを開発しました。Moonlightは、30億パラメータバージョンと、より実質的な160億パラメータバージョンの2つの構成で利用できます。どちらも、5.7兆トークンという驚異的な数のトークンを含む大規模なデータセットで学習されました。MoonlightはMuonを活用してパフォーマンスを最適化すると同時に、計算コストを最小限に抑えます。

効率をさらに高めるために、ZeRO-1スタイルの最適化戦略を採用したMuonの分散バージョンが開発されました。このアプローチは、オプティマイザの状態を複数のデバイスに分散することにより、メモリ効率を大幅に向上させます。また、大規模な分散学習における重要な要素である通信オーバーヘッドを最小限に抑えます。これらの改良により、非常に安定した学習プロセスが実現しました。Moonlightは、同様の規模の以前のモデルと比較して、大幅に低い計算フットプリントで最先端のパフォーマンスを達成しました。

パフォーマンスベンチマーク:Moonlightは競合他社を凌駕

厳密なパフォーマンス評価により、Moonlightは、同等の規模の既存の最先端モデルを一貫して上回っていることが実証されています。これには、LLAMA3-3BやQwen2.5-3Bなどの高く評価されているモデルが含まれます。モデルサイズ、データ、およびパフォーマンスの関係を調査するスケーリング則の実験では、Muonの顕著な利点が明らかになりました。MuonはAdamの約2倍のサンプル効率です。これは、競争力のある結果を達成しながら、学習に必要な浮動小数点演算(FLOP)の数を大幅に削減することを意味します。

Moonlightの能力は、幅広いベンチマークタスクに及びます。MMLU(Massive Multitask Language Understanding)ベンチマークでは、70.0という印象的なスコアを達成し、LLAMA3-3B(54.75)とQwen2.5-3B(65.6)を大幅に上回りました。MMLU-proやBBH(Big-Bench Hard)などのより専門的なベンチマークでは、Moonlightはそれぞれ42.4と65.2のスコアを獲得し、その強化された機能をさらに強調しています。このモデルは、質問応答ベンチマークであるTriviaQAでも66.3のスコアで強力なパフォーマンスを示し、すべての同等のモデルを上回りました。

コード生成と数学的推論:多様性の実証

Moonlightの機能は、自然言語理解と質問応答にとどまりません。コード関連のタスクにも優れています。コード生成能力を評価するために設計されたベンチマークであるHumanEvalでは、48.1のスコアを達成しました。別のコード生成ベンチマークであるMBPP(Mostly Basic Programming Problems)では、63.8のスコアを獲得しました。これらの結果は、機能的なコードを生成する能力を示しており、同様のパラメータ数を持つ他のモデルよりも優れています。

数学的推論の分野では、Moonlightは優れた問題解決能力を示しました。小学校レベルの数学の文章問題で構成されるベンチマークであるGSM8K(Grade School Math 8K)で77.4のスコアを達成しました。高度な数学の問題に焦点を当てた、より挑戦的なベンチマークであるMATHでは、45.3のスコアを獲得しました。これらの結果は、Moonlightが複雑な数学的推論タスクに取り組む能力を強調しています。

多言語能力:中国語タスクでの卓越性

Moonlightの機能は英語に限定されません。中国語のタスクでも強力なパフォーマンスを示しています。包括的な中国語評価スイートであるC-Evalでは、77.2のスコアを獲得しました。多言語理解に焦点を当てた別の中国語ベンチマークであるCMMLUでは、78.2のスコアを達成しました。これらの結果は、Moonlightの多言語処理における有効性を確立し、多様な言語的ニュアンスを処理する能力を示しています。このような多様なベンチマーク全体でのモデルの一貫して強力なパフォーマンスは、その堅牢な一般化能力の説得力のある証拠を提供します。以前のモデルと比較して大幅に低い計算コストを維持しながら、さまざまなタスクに適応して優れています。

スケーラビリティの課題への対処と将来の研究の促進

Muonに具体化されたイノベーションは、大規模言語モデルの学習を長い間悩ませてきた重要なスケーラビリティの課題に直接対処します。重み減衰と一貫したRMS更新を組み込むことにより、研究者は安定性と効率の両方を大幅に向上させました。これにより、Moonlightはパフォーマンスの限界を押し上げると同時に、学習コストを削減することができました。これらの進歩により、MuonはAdamベースのオプティマイザに代わる魅力的な代替手段としての地位を確立しています。Adamとそのバリアントに通常関連付けられる広範なチューニングを必要とせずに、優れたサンプル効率を提供します。

さらに、MuonとMoonlightの両方をオープンソース化することは、研究コミュニティへの重要な貢献を表しています。これらのツールを自由に利用できるようにすることで、研究者は大規模モデルの効率的な学習方法のさらなる探求と開発を促進しています。このオープンなアプローチは、コラボレーションを促進し、分野の進歩を加速し、将来のさらに強力でアクセスしやすい言語モデルへの道を開きます。Muonのようなオプティマイザの継続的な改良は、単により大きなモデルを構築することだけではありません。利用可能なリソースを最大限に活用し、AI研究の最先端へのアクセスを民主化し、よりスマートにモデルを構築することです。