MiniMax、線形注意への賭け

非主流技術への先駆的挑戦

簡単に自己紹介をお願いします。

MiniMaxの上級研究ディレクターであるZhong Yiranと申します。主にネットワークアーキテクチャとマルチモーダル理解の大規模モデルの設計を統括しています。MiniMaxでは、MiniMax-01のネットワーク構造の設計を主導することが主な役割です。

以前は、上海人工知能研究所の新規アーキテクチャ探索グループのPIを務め、非Transformerアーキテクチャの効率的なトレーニングモデリング手法や、視覚・音声・言語のマルチモーダル融合の研究に注力していました。

線形注意の研究を始めたのはいつ頃ですか?そして、なぜこの技術ルートを選んだのですか?

2021年の7月頃に線形注意の研究を始めました。これは、2020年に博士課程で取り組んだ論文「Invertible Attention」がきっかけです。当時、可逆ニューラルネットワークと注意機構の両方が非常に人気があり、それらを研究で組み合わせました。

その後、チームのメンバーの一部が数学に非常に興味を持つようになりました。線形注意のような効率的なシーケンスモデリング手法は、強力な数学的基礎を必要とし、数多くの数式導出を伴います。それがチームの関心と完全に一致したため、この方向を選びました。

当時、業界における線形注意の状況はどうでしたか?

非常に非主流で、取り組んでいる人はほとんどいませんでした。ほとんどの研究者はTransformerに焦点を当てており、Transformerは本質的にNLPにおける支配的な勢力となっていました。

Transformerの研究を行う他の大勢の中の一人になるのではなく、何か違うことをすべきだと考えました。

線形注意ルートの技術的可能性をどのように評価しましたか?

最初の動機は単純でした。Transformerの二次計算複雑性に対処することです。スパースTransformerや線形注意など、さまざまな方法をテストしました。

スパースTransformerは実際に機能し、Transformerと比較して高速でメモリ使用量が少ないことがわかりました。しかし、線形注意はパフォーマンスが悪く、速度も遅かったです。それにもかかわらず、線形注意を追求することを選択しました。

理由の一つはその数学的な魅力でした。そのパフォーマンスはもっと良くなるはずだと信じていました。もう一つの理由は、スパース注意の上限は完全注意であり、それを超えるのは難しいと感じたからです。一方、線形注意はそれを超える可能性を秘めていると考えました。

線形注意とは何かを説明していただけますか?

線形注意は本質的にカーネルトリックです。Transformerでは、Q、K、V行列を乗算する場合、次元が異なるため、QKを最初に乗算するか、KVを最初に乗算するかによって、計算複雑性が異なります。

KVを最初に乗算すると、計算複雑性を線形に削減できます。ただし、問題は、QKの乗算の後にsoftmax演算が続くことです。softmax演算は可換性を持たず、簡単に分割してKVを最初に乗算することはできません。したがって、線形注意の最初のステップは、softmaxを削除することです。

しかし、softmaxを削除すると結果に影響が出ます。その後のタスクは、softmaxなしで結果の一貫性を維持することであり、それが線形注意が目指すものです。

線形注意、スパース注意、線形RNNアーキテクチャの根本的な違いは何ですか?

スパース注意は、本質的に依然としてsoftmax注意です。単に、密な注意行列よりも計算する点が少ないだけです。たとえば、スライディングウィンドウ注意は、ウィンドウ内の注意スコアのみを計算し、計算量を減らすことによって高速化を実現します。

線形RNNと線形注意は本質的に同じものであり、一部の人はRNNと呼び、他の人は注意と呼んでいます。

すべてRNN形式で記述できます。たとえば、lightning attentionはRWKV-4に対応し、RWKV-7はゲート付きデルタネットの改良版です。本質的には似ていますが、実装の詳細は異なります。

線形注意メカニズムの研究における主要なマイルストーンは何ですか?

2018〜19年頃の研究では、Transformerのsoftmax注意の理論上の計算複雑性はカーネルトリックを使用して削減できることが示されましたが、結果は悪く、効率は低かったです。

2019〜20年には、スパース注意が主流であり、Googleのような企業が多くのスパース注意の変種を提案しました。その後、線形注意が登場し始めましたが、パフォーマンスが悪く、速度が遅いという課題に直面しました。

研究者たちは主に2つのアプローチを採用して改善を図りました。1つは、softmax関数を近似して、分布をsoftmaxに適合させること。もう1つは、私たちが選択したアプローチで、softmaxの近似を気にせずに、完全に異なる方法を使用してモデリングすることでした。

2021年10月に最初の論文「COSFORMER: RETHINKING SOFTMAX IN ATTENTION」を発表し、softmax演算をコサイン関数に置き換え、計算を分割できるようにしました。

2022年前半には、2番目の論文「The Devil in Linear Transformer」を発表し、線形注意のパフォーマンス低下の理由を分析し、解決策を提供しました。これはlightning attentionの前身です。

その後、線形注意と長畳み込み専用の位置エンコーディングも研究し、TNN、「TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING」を発表しました。これはS4(Mambaの前身)に似た手法です。

最後に、lightning attentionを立ち上げました。lightning attentionは、改善された減衰方法とネットワーク構造を通じて、Transformerのパフォーマンスに匹敵します。また、タイリング技術を使用して高速化しました。

現在の非Transformerアーキテクチャの技術ルートについてどう思いますか?

線形注意は実際には非Transformer手法です。現在、RNNのようなアプローチに加えて、他の非Transformerアーキテクチャは衰退しています。

たとえば、長畳み込みや大きなカーネル畳み込みのようなCNNは、パフォーマンスの悪さのために徐々に淘汰されているように感じますが、実際には特定の側面では非常に強力であり、シーケンスモデリング、たとえば異常検出タスクなどで依然として効果があります。

実際には、非Transformerアーキテクチャは3つしかありません。線形注意、長畳み込み、線形RNNです。

しかし実際には、これら3つを1つにまとめることができます。それを線形複雑性モデルと呼んでいます。3つすべてを包含する記事を書きました。

lightning attentionとMambaおよびRWKVの主な違いは何ですか?

最も重要な違いは、lightning attentionが最も単純な線形注意であることです。MambaとRWKVはどちらもデータ依存の減衰を使用しますが、lightning attentionは速度のために手作りの減衰を使用します。

学習可能な減衰はより良い結果を達成できますが、速度を犠牲にします。たとえば、RWKV-7はゲート付きデルタネットよりも10〜15%遅く、ゲート付きデルタネットは約lightning attentionの半分の速度です。

RWKVのモデリング効果は確かにlightning attentionよりも優れていますが、速度が遅く、検索の問題をまだ解決していません。

線形注意が高い上限と実現可能性を持つことは、現在業界のコンセンサスになっていますか?

いいえ、コンセンサスであれば、誰もが線形注意モデルをスケールアップするでしょう。そして、今はコンセンサスでもありません。そうであれば、誰もが線形を行うでしょうが、ご存知のように、そうではありません。

しかし、私たちにとって、それは2023年後半にはすでにわかりました。当時、多くの人に尋ね、多くの人と話しましたが、彼らが提起した最も一般的な点は、線形注意が小規模では機能することを知っていましたが、スケールアップすると失敗すると感じていたことです。

当時、私は皆に見せるためにスケールアップするだろうと思っていました。MiniMax-01がリリースされた今、大規模な線形注意の能力を疑う人はいません。

小規模実験から大規模実装へ

線形注意の上限が完全注意を超える可能性があると思いますか?

ハイブリッドアーキテクチャは純粋なTransformerよりも優れていることがわかりました。しかし、純粋な線形注意の最大の問題は検索能力であり、それは学界が解決するのが難しい問題です。

既存の手法は、複雑で遅いにもかかわらず、まだ完全に解決することはできません。そのため、ハイブリッドアーキテクチャに移行する必要があります。

研究所から出てくることを決意させたノードはどこにありましたか?

2023年5〜6月には、すでに内部にlightning attention 2がありました。これは、Flash attentionよりも高速な世界初の線形注意の実装でした。

産業上のレッドラインを超えており、その技術的成熟度が非常に高く、スケールアップできると信じています。

この産業上のレッドラインをどのように定義しますか?

まず、効果がTransformerよりも優れていること。次に、Transformerよりも高速であること。これにより、Transformerを置き換える能力が得られます。当時、15Bスケールの高密度モデルでこれを検証しました。

研究所から出てきたノードで、最終的にMiniMaxと一緒になったのはなぜですか?

実は、当時いくつかの大手企業と話をしていました。しかし結局、MiniMaxとこれを実現しました。

まず、cosformerは私がJunjieと協力した記事です。私たちには協力の基礎があります。Junjieは、SenseTimeにいたときの私の上司でした。23年末に、Junjieが私を夕食に招待しました。彼はこれらの最先端技術の可能性に自信を持っています。私の理解では、彼は当時技術的なブレークスルーを探していました。

当時、MiniMaxはMoeの研究を完了しており、次のステップのための技術的なブレークスルーポイントは実際にはほとんどありませんでした。当時、lightning attentionがリリースされ、Mambaも人気があったため、彼の目には、それは実行可能な方向でした。

これはMiniMaxのインタラクティブコンパニオン製品に関連していますか?

つながりはありません。Yan Junjieはモデルの上限と、この天井をさらに突破する方法についてより関心を持っています。

線形注意は、天井を突破するよりも効率を突破する方向性があるかもしれません。

ここでのポイントは、まず、各メーカーの計算能力は一定であるということです。モデルを高速化できるほど、より多くのデータを食べることができ、より良いモデルが生成されます。計算能力が一定の場合、モデルが高速であるほど良いです。

データがピークに達している状況を観察しましたか?

まだですよね?データはまだ継続的なスケーリングの段階にありますが、23年ほど積極的ではないかもしれません。

データは常に増加しており、毎日新しいデータが出てくるからです。モデルにとって、毎日処理する新しいデータがあります。インターネットによって毎日生成されるデータは非常に多く、クリーニングを通じて、新しいデータを取り出すことができます。

人間の開発の長年にわたって存在していたデータと比較して、データ成長率は鈍化しましたか?

実際、必ずしもそうではありません。中国の5000年の歴史を見てください。ほんのわずかな本しか蓄積されていません。しかし、インターネットの発展により、データ量の増加は非常に急な曲線を描いています。インターネット以前に生成された全体的なデータは、後年の1年間に生成されたデータほど多くない可能性があります。

スケールアップの過程で、lightning attentionはどのような課題に直面しましたか?

そのスケーラビリティを検証するために、最初にスケーリング則の実験を行い、小規模モデルから7B、9Bへと徐々に拡大し、最終的には400B以上のモデルにスケールアップしました。

そして、線形の容量がTransformerよりも大きいことを理論的に証明しました。

容量をRNNの現在の状態のサイズとして定義します。Transformerの場合、容量サイズはO(d)です。ここで、dはサイズです。線形注意の場合、容量サイズはd²/hです。dはhよりもはるかに大きいため、容量は大きくなります。

最終的に、ハイブリッドモデルが純粋なTransformerよりも優れていることも検証しました。

4M長のシーケンスウィンドウはどのように達成されますか?

lightningの場合、トレーニング長は任意です。計算能力を最大限に活用する限り、8K、32K、または128Kのトレーニング速度は同じであり、TGS(GPUあたりのトークン数/秒)は同じです。

Transformerはn²の計算複雑性であるため、シーケンスが長くなるほど、計算複雑性が高速に増加し、遅延が二次曲線で増加します。1M長の場合、softmax注意の遅延はlightning attentionの2,700倍です。

将来、無限のコンテキストウィンドウを達成するために、どのような技術的課題を解決する必要がありますか?

現在のハイブリッドアーキテクチャでは、softmax注意がまだ1/8あります。これは1M長のボトルネックです。この1/8によってもたらされる遅延は、残りの7/8の線形注意よりもはるかに高くなっています。

長いテキストを最適化したい場合は、softmax注意の部分を最適化することを検討する必要があります。スパース注意の手法から学んで、より高速で軽量にすることができます。

さらに、softmaxと線形注意の混合比率をより極端にすることも検討しています。1/8ではなく、1/16または1/32になる可能性があります。最も過激な解決策は、モデル全体に1つのsoftmaxレイヤーのみを配置することですが、保険のために採用しませんでした。主に検索能力への影響を考慮しました。

検索能力がモデルにとって非常に重要なのはなぜですか?

検索はインコンテキスト学習の基礎であり、必要な条件です。

インコンテキスト学習を行うには、コンテキスト内の情報を覚えておく必要があります。インコンテキスト学習は、CoT(Chain of Thought)など、現在の大規模モデルのすべての高度な機能の基礎であり、特に長いCoTはすべて検索能力に依存しています。

決定的な新アーキテクチャ

業界におけるFFNと注意の最新のアーキテクチャ改善に注意を払っていますか?

FFNの改善はMoeです。ByteのUltra Memにも注意を払いましたが、それは損失のあるものであり、損失のある圧縮だと思います。将来スケールアップすると問題が発生する可能性がありますが、スケールアップしていないため、問題が発生する可能性があると言うしかありません。

FFNは基本的にこれらだからです。Moe領域での改善は、以前の大きな専門家から現在の小さな専門家モードへの変更にすぎず、よりスパースになり、加速を行うだけです。これにはさらなる研究が必要です。

さらに最適化する場合は、FFNが行列乗算であるため、NvidiaがCUDAレベルで行列乗算の下位レベルの最適化を行うことでしか最適化できません。

業界における注意アーキテクチャの改善に注意を払っていますか?

注意に関する改善は基本的に線形です。将来的にはより強力な線形を作るかどうか、現在の基盤で線形注意をさらに加速するかどうかも検討しています。

改善する方法はたくさんあります。1つは減衰を変更すること、もう1つは内部の小さなトリックを変更することです。私たちの新しい論文を楽しみにしてください。

現在のコンテキスト長と推論コストの比率は比較的進んでいますか?

シーケンス長を長くすることになると、計算能力のコスト優位性が非常に明確になります。長ければ長いほど、推論であろうとトレーニングであろうと、コスト優位性がより明確になります。

たとえば、1Mの場合、線形注意によって消費される計算能力は、完全注意の1/2700です。比較すると、完全注意がまだ1/8あるため、基本的にはTransformerアーキテクチャの1/8です。線形注意は基本的に費用としてカウントされないためです。

計算コストが非常に低い場合、計算ボトルネックを達成できますか?

現在は確かにメモリアクセスボトルネックです。デコードは計算ボトルネックではなく、メモリアクセスボトルネックです。lightningは非常に高速であるため、メモリアクセスが計算としてリソースを占有することを許可するには速すぎます。これは主に、実際のアプリケーションのシーケンス長が十分に長くないためです。

将来的にそれを計算ボトルネックにする方法は、メモリアクセスを最適化する方法によって異なります。これらはエンジニアリング部門が担当する必要があることになります。

線形アーキテクチャが次世代の主流アーキテクチャになる場合、どのようなハードウェア適応改善がより適していますか?

ここでの非常に難しい点は、シーケンス長を考慮する必要があるということです。シーケンス長が8Kまたは32Kに焦点を当てている場合、注意はわずか10%強しか占めておらず、残りの80%はFFN部分です。

注意を極限まで最適化して0にしても、レイテンシの10%強しか最適化していません。ただし、シーケンス長を長くすると、注意の割合が大きくなります。これは完全注意と比較した場合ですが、線形注意の場合、その割合は変わりません。

FFNも線形であり、線形注意も線形であるため、その割合は約10%で、1Mの場合でもほとんど変わりません。

ただし、完全注意の場合、注意計算が99%を占め、次のFFNはわずか1%しか占めない可能性があります。したがって、線形注意は長いテキストでのみ利点があります。

線形アーキテクチャが主流になる場合、追求されるのは低エネルギーハードウェアであり、エネルギー消費を削減するだけです。Spiking Neural Network(SNN)チップを含む方が適している可能性があり、実際に一部の人がそれを行っています。

AGIへの道を期待して

モデルのオープンソース効果に対する期待は何ですか?

1つ目は広報効果です。個人的には、筋肉を示すことに加えて、オープンソースの最も重要なことは、今後どのように使用されるかを確認することだと思います。小規模モデルのオープンソースは、今後私たちがより検討することになるかもしれません。

また、誰もが微調整するためのインフラストラクチャをどのように構築するかを検討する必要があるかもしれません。オープンソースは、今後私たちにとって長期的なものであり、フラッグシップモデルはオープンソースであり続ける必要があります。

ハイブリッドではない純血アーキテクチャが将来実行される可能性はありますか?

現在、特に速度の点で、ハイブリッドよりも優れている可能性のある方法はありません。少量のsoftmax注意を追加すると、シーケンス長が特に長くない場合、特にフラッシュ注意の出現後、速度の利点が非常に明確になります。

純血アーキテクチャの研究は現在も進行中ですが、非常に難しく、ローハンギングフルーツはもうありません。いくつかの技術的なソリューションがありますが、実装は簡単ではなく、最終的には達成する必要があるシーケンス長によって異なります。

もう1つの問題は、超長文に対する強い需要があるかどうかです。Claudeのようなモデルは200Kコンテキストに達していますが、ユーザーは現在の長さに非常に満足しているようです。エージェントアプリケーションは、将来超長シーケンスの需要をもたらす可能性がありますが、成熟したベンチマークはまだありません。

しかし、この問題は、将来のゲームのために高度なパフォーマンスグラフィックスカードを開発しているNvidiaのようなものだと思います。たとえ今必要とされなくても、それは未来のテクノロジーです。

たとえば、深い研究では、モデルが数十のWebサイトのコンテンツを読み取る必要があり、処理時間は数十分単位であり、これは長いテキストのアプリケーション方向である可能性があります。

CoTの次の大きなことは何だと思いますか?

これについて考えました。まず、現在の推論モデルは比較的普及しており、今年の主流は依然として推論部分です。その後、純粋な言語モデルの将来に特に大きな変化があるとは考えにくいです。

他の先生とも話しましたが、彼らの気持ちは、誰もがモデルのコストを再削減して、推論の速度がますます速くなり、価格がますます低くなり、効果を維持しながらコストが削減されるということです。

天井が急速に近づいているため、ほとんどの場合、大規模モデルの機能のギャップをチェックして埋めることです。しかし、さらに大きな技術的ブレークスルーがあったとしても、短期的には比較的まれであり、まだ見ていません。

MiniMaxが線形注意を探索した後、次に探索する方向は何になる可能性がありますか?

次は、マルチモーダルのアーキテクチャ、具体的には、このネイティブ生成と理解の統合された大規模モデルアーキテクチャをやりたいかどうかを検討することかもしれません。

AGIを終点として、計算複雑度がO(n²)またはO(n)のどちらのモデルがより良い答えになるでしょうか?

もちろん、O(n)です。擬人化の観点からすると、人はO(n)複雑度である必要があります。たとえば、人の複雑度がO(n²)の場合、私があなたに話す速度はますます遅くなります。

Transformerの場合、その推論複雑度はO(n²)の計算複雑度、つまり、最初のトークンを吐き出す遅延と100番目のトークンを吐き出す遅延が異なります。

人間はそのようなことを想像できません。人は生まれてから再起動したことがなく、常に何かを吐き出しているため、人の計算複雑度は一定です。

人は必ずしも知性の最適なソリューションですか?

現時点ではそう考えることしかできません。生体工学的な知能のルートに取り組んでいる人もいますが、それらの方向にはあまり注意を払っていません。

AGIを終点ゲームとして、モデルの改善のどの領域が最も重要ですか?

言語モデリングに加えて、学習方法の問題もあります。どのように学習し、環境から学習するか、環境との相互作用から学習するかは非常に重要です。結局のところ、現在のマルチモーダル理解は依然としてデータが非常に不足しています。

また、機械の少数のショット学習でさえ、現在はラベル付けされていますが、人間の学習はラベル付けされていません。したがって、すべてを自己構築されたフレームワークの下でどのように統一するかも問題です。