AIの進化を形作る:Noam ShazeerとJeff Deanとの対話

AI進化の夜明け:PageRankからAGIへの25年

Googleの技術的な旅路における二人の重要人物、現在のチーフサイエンティストであるJeff Deanと、Transformerモデルの背後にある中心人物であり、最近Googleに復帰したNoam Shazeerが、刺激的な対話を行いました。著名なポッドキャスターであるDwarkesh Patelが司会を務めたこの対話は、MapReduceの基礎時代から、TransformerとMoEアーキテクチャの変革期に至る、AIの進化を垣間見ることができました。

Googleで数十年の経験を持つこれらのベテランは、インターネットと人工知能の定義となる技術を目撃しただけでなく、積極的に形作ってきました。皮肉なことに、Shazeerは、Googleに参加した当初の動機は短期的な金銭的追求であったと告白しました。彼の計画は、その後のこの分野への貢献によって劇的に覆されました。

AIコンピュートの現状と将来の軌跡

2時間に及ぶ広範な意見交換の中で、DeanとShazeerは、AIコンピュートの現状について洞察を明らかにしました。

  • オペレーションの規模は、個々のデータセンターを超越しました。Geminiのトレーニングは現在、異なる大都市圏の複数のデータセンターにまたがり、非同期で動作しています。
  • 従来の読書よりもAIとの対話の方が大幅に費用対効果が高いため、推論コンピュートの拡張には大きな余地があります。
  • 将来のモデルアーキテクチャは、MoEの柔軟性を凌駕し、さまざまなモデルコンポーネントの異なるチームによる独立した開発を可能にすると想定されています。

現場からの洞察:バグバウンティと将来のアーキテクチャ

この対話はソーシャルメディアでも関心を集め、ユーザーは次のような興味深い概念を強調しました。

  • 巨大なMoEモデルをメモリに格納する可能性。
  • コードのバグの予期せぬ利点。スケールが大きくなるにつれて、意図せずに画期的な発見につながる可能性があります。

Deanは、AIコンピュートが法外に高価であるという概念に異議を唱えました。同じ本について、本を読むこととAIと対話することのコストを比較することで、彼は説得力のある点を説明しました。

最先端の言語モデルは、1回の操作あたり約$10^{-18}$という驚くほど低いコストで動作し、1ドルで100万のトークンを処理できます。対照的に、ペーパーバックの本を購入すると、1ドルあたりわずか10,000トークンしか得られません。

この顕著な違い、つまりAIインタラクションにおける100倍のコスト優位性は、推論コンピュートを増やすことによってAIインテリジェンスを強化する未開発の可能性を強調しています。

インフラストラクチャの観点から見ると、推論時の計算の重要性の高まりは、データセンターの計画を再構築する可能性があります。これにより、推論タスクに特化したハードウェアが必要になる可能性があります。これは、当初は推論用に設計され、後にトレーニング用に適合されたGoogleの第1世代TPUを彷彿とさせます。

分散型および非同期計算:新しいパラダイム

推論の重視の高まりは、データセンター間の継続的な通信が不要になる可能性を示唆しており、より分散型および非同期の計算モデルにつながる可能性があります。

Gemini 1.5はすでにこの道を歩み始めており、いくつかの主要都市の計算リソースを活用しています。 高速ネットワークは、異なるデータセンターからの計算を同期させ、前例のないトレーニング規模を実現します。各トレーニングステップに数秒かかる大規模モデルの場合、50ミリ秒のネットワーク遅延でも影響は最小限です。

推論の分野では、遅延に対する感度が重要な考慮事項になります。即時の応答は最適化された低遅延パフォーマンスを必要としますが、複雑なコンテキスト分析などの緊急性の低いタスクでは、より長い処理時間を許容できます。

より適応性があり効率的なシステムは、複数のタスクを非同期で管理し、ユーザーの待ち時間を最小限に抑えながら、全体的なパフォーマンスを向上させることができます。さらに、より小さなドラフトモデルを採用するなどのアルゴリズムの進歩は、推論プロセスのボトルネックを軽減できます。このアプローチでは、より小さなモデルが潜在的なトークンを生成し、それがより大きなモデルによって検証され、並列化によって推論プロセスが大幅に加速されます。

Shazeerは、非同期トレーニング中、各モデルレプリカは独立して動作し、勾配の更新を中央システムに送信して非同期で適用すると付け加えました。マイナーなパラメータの変動の理論的な影響にもかかわらず、この方法は非常に成功していることが証明されています。

対照的に、同期トレーニングは安定性と再現性を提供し、多くの研究者にとって好ましいものです。トレーニングの再現性を確保するために、 Deanは、操作のログ記録、特に勾配の更新とデータバッチの同期の実践を強調しました。これらのログを再生することで、非同期トレーニングでも再現可能な結果が得られ、デバッグがより管理しやすくなり、環境要因によって引き起こされる不整合が軽減されます。

バグの偶然の役割

これを踏まえて、Shazeerは興味深い視点を導入しました。

モデルのトレーニングではさまざまなバグが発生しますが、これらのモデルの固有のノイズ許容度により、自己調整が可能になり、予期しない結果につながります。スケールが実験的な異常を増幅させるにつれて、一部のバグは肯定的な効果をもたらし、改善の機会を提供します。

デバッグの実践について質問されたとき、Shazeerは、迅速な検証のために多数の小規模な実験を実施する彼らのアプローチについて説明しました。この方法により、コードベースが簡素化され、実験サイクルが数週間ではなく数時間に短縮され、迅速なフィードバックと調整が容易になります。

Deanは同意し、最初は不利な結果に終わった多くの実験が、後で重要な洞察を提供できると述べました。ただし、研究者はコードの複雑さという課題に直面しています。漸進的な改善は必要ですが、パフォーマンスとメンテナンスの課題も発生するため、システムのクリーンさと革新性のバランスを取る必要があります。

将来のモデルの有機的な構造

DeanとShazeerは、AIモデルがモノリシックな構造からモジュール式のアーキテクチャに大きく移行すると予測しています。

Gemini 1.5 Proなどのモデルは、すでにMixture of Experts(MoE)アーキテクチャを採用しており、タスクに基づいてさまざまなコンポーネントをアクティブにします。たとえば、数学の問題は数学に精通したセクションを起動し、画像処理は対応する専門モジュールをアクティブにします。

ただし、現在のモデル構造はやや硬直的であり、エキスパートモジュールはサイズが均一で、柔軟性がありません。Deanは、より先見性のあるビジョンを提案しました。将来のモデルは有機的な構造を採用し、さまざまなチームがモデルの異なる部分を独立して開発または強化できるようにする必要があります。

たとえば、東南アジアの言語を専門とするチームは、関連するモジュールを改良し、別のチームはコードの理解度を向上させることに集中できます。このモジュール式のアプローチは、開発効率を高めるだけでなく、グローバルチームがモデルの進歩に貢献できるようにします。

技術的には、モデルは蒸留を通じて個々のモジュールを継続的に最適化できます。これには、大規模で高性能なモジュールをより小さく効率的なバージョンに凝縮し、その後、新しい知識を学習し続けることが含まれます。

ルーターは、タスクの複雑さに基づいて適切なモジュールバージョンを選択し、パフォーマンスと効率のバランスを取ることができます。これは、GoogleのPathwayアーキテクチャの中心となる概念です。

この新しいアーキテクチャには、強力なTPUクラスターと豊富な高帯域幅メモリ(HBM)を含む堅牢なインフラストラクチャが必要です。各呼び出しで使用されるのはモデルのパラメータのごく一部だけである可能性がありますが、システム全体は同時リクエストに対応するために完全なモデルをメモリに保持する必要があります。

現在のモデルは、タスクを10個のサブタスクに分解し、成功率80%を達成できます。将来のモデルは、タスクを100個または1,000個のサブタスクに分解し、90%以上の成功率を達成できる可能性があります。

「マジかよ」の瞬間:正確な猫認識

振り返ってみると、2007年は大規模言語モデル(LLM)にとって重要なマイルストーンとなりました。

当時、Googleは機械翻訳のために2兆のトークンを使用してNグラムモデルをトレーニングしました。ただし、Nグラムデータのディスクストレージへの依存により、広範なディスクI/O(例:1ワードあたり100,000回の検索)のために高遅延が発生し、1つの文を翻訳するのに12時間かかりました。

これに対処するために、彼らはメモリ圧縮、分散アーキテクチャ、バッチ処理APIの最適化を含むいくつかの戦略を考案しました。

  • **メモリ圧縮:**ディスクI/Oを回避するために、Nグラムデータを完全にメモリにロードします。
  • **分散アーキテクチャ:**並列クエリのために、データを複数のマシン(例:200)に分散します。
  • **バッチ処理APIの最適化:**リクエストごとのオーバーヘッドを削減して、スループットを向上させます。

この期間中、計算能力はムーアの法則に従い始め、指数関数的な成長につながりました。

「2008年後半から、ムーアの法則のおかげで、ニューラルネットワークは本当に機能し始めました。」

特定の研究努力が実際に機能したという不信感の瞬間、つまり「マジかよ」の瞬間について尋ねられたとき、Jeffは初期のGoogleチームのプロジェクトについて語りました。そのプロジェクトでは、YouTubeビデオフレームから高レベルの特徴(猫や歩行者の認識など)を学習するモデルをトレーニングしました。分散トレーニング(2,000台のマシン、16,000コア)を通じて、大規模な教師なし学習を実現しました。

教師なし事前トレーニングの後、教師ありタスク(ImageNet)でのモデルのパフォーマンスは60%向上し、大規模トレーニング教師なし学習の可能性を示しました。

Googleが依然として主に情報検索会社であるかどうかについて、Jeffは強調しました。

「AIはGoogleの当初のミッションを果たします。」

本質的に、AIは情報を検索するだけでなく、複雑なコンテンツを理解し生成することもでき、将来の可能性は広大です。Googleの将来の方向性については、「わかりません」と述べています。

ただし、Googleと一部のオープンソースコードがすべての開発者のコンテキストに統合されることが予想されます。言い換えれば、モデルがより多くのトークンを処理できるようにすることで、検索内の検索がモデルの機能と有用性をさらに向上させます。

この概念はすでにGoogle内で実験されています。

「実際、社内開発者向けに、Geminiモデルで社内コードベースに関するさらなるトレーニングをすでに実施しています。」

より正確には、Googleは社内でコードの25%がAIによって作成されるという目標を達成しました。

Googleでの最も幸せな時間

興味深いことに、デュオはGoogleに関連するさらに興味深い経験も共有しました。

1999年のNoamにとって、Googleのような大企業への参加は最初は魅力的ではありませんでした。なぜなら、自分のスキルが十分に活用されないのではないかと感じていたからです。しかし、Googleの毎日の検索ボリュームインデックスチャートを見た後、彼はすぐに考えを変えました。

「これらの人々は必ず成功するだろうし、解決すべき興味深い問題がたくさんあるようだ。」

彼は特定の「小さな」意図を持って参加しました。

「お金を稼いでから、自分のAI研究の関心を追求する。」

Googleに参加すると、彼はメンターであるJeffに会いました(新入社員にはメンターが割り当てられました)。そして、彼らはいくつかのプロジェクトで協力しました。

この時点で、JeffはGoogleへの感謝の気持ちを込めて口を挟みました。

「RMビジョン(レスポンシブでマルチモーダル)に対するGoogleの幅広い権限が好きです。たとえそれが一方向であっても、多くの小さなプロジェクトを実行できます。」

これはまた、最初に「ヒットアンドラン」を計画していた人が長期滞在につながる自由をNoamに与えました。

一方、話題がジェフに変わると、彼の並列バックプロパゲーションに関する学部論文が再検討されました。

この8ページの論文は、1990年の最高の学部論文となり、ミネソタ大学図書館に保存されています。その中で、Jeffはバックプロパゲーションに基づくニューラルネットワークの並列トレーニングのための2つの方法を調査しました。

  • **パターン分割アプローチ:**各プロセッサですべてのニューラルネットワークを表し、入力パターンを使用可能なプロセッサ間で分割します。
  • **ネットワーク分割アプローチ(パイプラインアプローチ):**ニューラルネットワークのニューロンを使用可能なプロセッサ全体に分散し、通信リングを形成します。特徴はこのパイプラインを通過し、各プロセッサのニューロンによって処理されます。

彼はこれらの方法を、さまざまなサイズのニューラルネットワークとさまざまな入力データでテストしました。結果は、パターン分割アプローチの場合、より大きなネットワークとより多くの入力パターンで、より優れた加速が得られることを示しました。

最も注目すべきは、この論文が1990年に「大規模」なニューラルネットワークがどのように見えたかを明らかにしていることです。

「レイヤーごとに10, 21、10個のニューロンを持つ3層ニューラルネットワークは、非常に大きいと見なされました。」

Jeffは、テストに最大32個のプロセッサを使用したことを思い出しました。

(当時、彼は12年後、彼がAndrew Ng、Quoc Leらとともに、大量のデータから猫を識別するために16,000個のCPUコアを使用するとは想像できなかったでしょう。)

ただし、Jeffは、これらの研究結果が真に効果的になるためには、**「約100万倍の計算能力が必要でした。」**と認めました。

その後、彼らはAIの潜在的なリスク、特にAIが非常に強力になった場合のフィードバックループの問題について議論しました。言い換えれば、AIはコードを記述したり、アルゴリズムを改善したりすることで、制御不能な加速ループ(つまり、「インテリジェンス爆発」)に入る可能性があります。

これにより、AIは急速に人間の制御を超え、悪意のあるバージョンを作成する可能性さえあります。ホストが言ったように、「Jeffのような100万人のトッププログラマーが、最終的には100万人の邪悪なJeffになる」と想像してください。

(ネチズン):「新しい悪夢がアンロックされた、ハハ!」

最後に、Googleでの最も幸せな時間を振り返って、両方とも思い出を共有しました。

Jeffにとって、Googleの初期の最も楽しい瞬間は、Googleの検索トラフィックの爆発的な成長を目撃することでした。

「20億人が現在使用しているものを構築するのは信じられないほどです。」

最近では、彼はGeminiチームと、5年前には不可能だと信じられていなかったものを構築することに興奮しており、モデルの影響がさらに拡大すると予測しています。

Noamも同様の経験と使命感を反映し、Googleの「マイクロキッチンエリア」についても言及しました。

これは、コーヒーと軽食を提供する約50のテーブルがある特別なスペースで、人々は自由にチャットしてアイデアを交換できます。

この言及で、Jeffさえも活気づきました(ドージェ)。