OpenAI GPT-4.5学習：GPU10万基の深層 | ja

GPT-4.5の誕生：2年間の道のり

OpenAIが最近、最も意欲的なモデルであるGPT-4.5の開発に関する詳細を共有しました。この発表は、モデルのリリースから1か月以上経ってから行われ、OpenAIの共同創設者兼CEOであるサム・アルトマン氏と、GPT-4.5プロジェクトの主要な技術担当者3名との45分間の率直な会話で行われました。この議論では、大幅なタイムラインの超過、計算クラスターでの頻繁な故障、パフォーマンス向上のための予測不可能な経路など、これまで知られていなかった多くの課題が明らかになりました。

GPT-4.5の取り組みは、発売の2年前に考案され、OpenAIがこれまでに行った中で最も綿密に計画された事業でした。これは、何百人もの個人の協調的な努力を必要とし、アルトマン氏は、プロジェクトがOpenAIで「ほとんどすべての人」を効果的に関与させたと述べています。この広範な関与は、組織のより広範なミッションにおけるGPT-4.5の戦略的重要性を強調しています。

開発段階では、OpenAIチームは「壊滅的な問題」と呼んだものに遭遇しました。10万GPUのクラスターの展開により、頻度は低いものの深刻な故障として現れる潜在的なインフラストラクチャの脆弱性が明らかになりました。迅速性と最適なパフォーマンスのバランスを取るために、システムエンジニアは基本的に「構築と修正」を同時に行う反復的なアプローチを採用しました。特に捉えどころのないバグは、トレーニングプロセスが約40％完了するまで検出されずに、反復的なエラーでクラスターを悩ませました。

逆説的に、これらの試練はOpenAIの技術基盤の強化に貢献しました。得られた専門知識により、現在ではわずか5〜10人の精鋭チームがGPT-4の規模のモデルを複製できます。GPT-4からGPT-4.5へのパフォーマンスの飛躍は、約10倍と推定されており、「定量化するのが難しいが包括的に強化されたインテリジェンス」によって特徴付けられ、OpenAI内部の人々でさえ驚かせました。この定性的な飛躍は、単なるスケーリングを超えた進歩を示唆しており、モデルの推論および理解能力の根本的な改善を示しています。

今後を見据えて、OpenAIは、次の桁違いのパフォーマンスの達成は、計算能力だけでなく、データ効率にかかっていることを認識しています。焦点は、既存のデータセットからより多くの知識を抽出し、利用可能な計算リソースの有用性を最大化できるアルゴリズムの開発に移っています。

さらに、アーキテクチャは、単一クラスターからマルチクラスター設計に進化しており、最大1000万GPUにわたる共同学習を含む将来のトレーニングシナリオを想定しています。この移行には、このような大規模な分散システムの安定性と信頼性を確保するためのフォールトトレランスの大幅な改善が必要です。

会話はまた、データの「ロングテール」とスケーリング則の関係、機械学習チームとシステムチーム（共同設計）間の緊密な連携の利点、教師なし学習の本質、および綿密な問題解決の文化についても掘り下げました。

GPT-4.5を支える主要人物

アルトマン氏に加えて、この会話に参加した他の3人のOpenAIチームメンバーは次のとおりです。

アレックス・パイノ: GPT-4.5の事前学習機械学習アルゴリズムを担当。
アミン・トゥートゥンチアン: OpenAIのチーフシステムアーキテクト。
ダニエル・セルサム: データ効率とアルゴリズムを研究。

GPT-4.5の起源と進化

サム・アルトマン: GPT-4.5ほど大規模なモデルを構築するには、実際に何が必要ですか？

アレックス・パイノ: このプロジェクトは約2年前に開始しました。当時、OpenAIは新しい大規模コンピューティングクラスターを立ち上げようとしており、私たちのチームはこの機会を見て、モデルに含める必要のある機能を決定するための一連のタスクを実行し、多数のリスク軽減運用テストを実施しました。

システムから機械学習までの技術スタック全体を含む長期的な計画を策定しました。リスクを軽減し、トレーニングに備えることは長期的な実行プロセスであり、トレーニング自体も非常に大規模なプロジェクトです。

アミン・トゥートゥンチアン: このプロセスでは、トレーニングしたいモデルを明確に理解し、トレーニングを開始するまで、機械学習チームとシステムチームが最初から緊密に協力する必要があると思います。

機械学習とシステムで予測を行い、期待と現実のギャップを最小限に抑えようとしています。ただし、私たちの作業リズムは非常に速く、最新のコンピューティングリソースを使用する必要があるため、モデルトレーニングは事前に完全に計画することが難しいものになっています。

私たちはほとんど常に多くの未解決の問題を抱えた状態でトレーニングを開始し、プロセス中に課題を克服し、進歩を遂げようとします。主な解決策は、より多くのコンピューティングリソースを増やすことです。

最終段階は実行であり、トレーニングプロセスを完了するには、多くの人が長い間多くのエネルギーとモチベーションを投資する必要があります。

サム・アルトマン: 私たちの期待と現実のギャップはどのくらいだと思いますか？

アミン・トゥートゥンチアン: システムの面では、当初、私たちは通常、予想される状態とはかけ離れています。私たちは常に、打ち上げを延期して問題が解決されるのを待つか、早期に開始してプロセス中に問題を解決するかの選択に直面しています。これには、プロセスで不合理な遅延を避けるために、常にトレードオフが必要です。

しかし、ほとんど常に予期せぬ問題が発生し、私たちがしなければならないのは、これらのノードをできる限り処理し、未知の要因に対処し、モデルトレーニングの計画を策定することです。

アレックス・パイノ: このプロジェクトでは、私たちの目標はGPT-4.5を作ることです。つまり、その能力はGPT-4よりも10倍賢くする必要があります。これは、約2年前に設定した最初の目標です。

このプロセスでは多くのことが起こりました。予想よりも良くできるか、悪くできるか考えていましたか？これは非常に複雑なプロセスですが、最終的には、投入した有効な計算の面では、GPT-4よりも10倍賢いと思われるモデルが得られました。

アミン・トゥートゥンチアン: 実行の面では、GPT-4.5プロジェクトに費やした時間は、当初予想していた時間とはかけ離れています。

精鋭チームによる革命：最小限のリソースでGPT-4をトレーニング

サム・アルトマン: クラスターが1万枚のカードから10万枚のカードに拡張されたとき、なぜそれほど多くの問題が発生したのですか？

アミン・トゥートゥンチアン: システム開発者が十分に敏感であれば、ほとんどの問題は小規模段階で観察できると思います。

また、大規模なトレーニング段階に固有ではない問題もありますが、元々頻繁に発生していましたが、規模が拡大すると壊滅的な問題になります。特に、チームがこれらの問題が事前にそれほど悪化することを予想していなかった場合です。

サム・アルトマン: 何が悲惨な結果を引き起こしましたか？

アミン・トゥートゥンチアン: インフラストラクチャの問題はよく知られていると思います。故障率、故障の種類、および故障の総量は非常に多いです。10万枚のカードクラスターは大規模なサンプルプールであるため、コンピューティング能力サプライヤーが観察しなかった問題も発見しました。

ネットワークはその一部であり、個々のアクセラレータにも問題がある可能性があります。しかし、これはこのシステムの美しさでもあります。予想される結果を得るには、ほとんどすべてのコンポーネントが期待どおりに機能する必要があります。私たちの仕事は、この問題を可能な限り最小限に抑えることです。

サム・アルトマン: クラスター規模の限界で作業するのは確かに難しいですが、最先端の技術の最前線ではなくなったことを行うのがはるかに簡単になったことにも気づきました。GPT-4.5のトレーニングには数百人が必要で、OpenAIのほぼ全員が関与しています。

しかし今日、OpenAIから最小のチームを選び、私たちが知っているすべての知識とすべてのシステム作業でGPT-4をゼロから再トレーニングさせるとしたら、何人必要ですか？

アレックス・パイノ: 現在、GPT-4レベルのモデルを作成するには約5〜10人必要になる可能性があると思います。GPT-4.5を完了する過程で、技術スタックは大幅に改善されました。

実際、GPT-4.5のトレーニングの過程で同様のことを行いました。GPT-4oをトレーニングしました。これはGPT-4レベルのモデルであり、GPT-4.5研究プロジェクトからの同じコンテンツの多くを使用して再トレーニングしました。そのトレーニングにはより少ない人が使用されました。

データ効率：次世代モデルを解き放つ鍵

サム・アルトマン: あなたの視点から見て、ダン？大規模なモデルのトレーニングが難しいのはなぜですか？

ダニエル・セルサム: 何か新しいことをするのは難しいと思います。誰かが何かをしたことがあることを発見するだけでも、はるかに簡単になると思います。なぜなら、最も難しいのは、最初に何かできると信じることだからです。何かが実行可能であることがわかっているだけでも、スーパーチートコードであり、物事をはるかに簡単にします。

アレックス・パイノ: GPTの事前トレーニング操作を以前の10倍に拡大しており、必ずしも予測できない興味深い新しいことがいくつか見つかります。

サム・アルトマン: 事前トレーニングの規模で次の10倍または100倍の成長を達成するには何が必要ですか？

ダニエル・セルサム: データ効率。Transformerアーキテクチャ（GPT）は、データの使用において非常に効率的です。情報をうまく吸収して圧縮し、一般化を実現できます。その最大の特徴は、コンピューティングリソースで情報を効率的に吸収できることです。

ただし、データから得られる洞察の深さは限られています。コンピューティング能力が急速に成長する一方で、データの成長が比較的遅い場合、データはこの標準モデルのボトルネックになります。これにはアルゴリズムの革新が必要です。同じ量のデータからより多くの知識を学習するために、より多くのコンピューティング能力を使用できる方法を開発します。

サム・アルトマン: これ以外に、拡張を維持するには他に何が必要だと思いますか？

アミン・トゥートゥンチアン: 私の答えはシステムについてです。GPT-4.5に必要な膨大な作業量は、本質的にモデル仕様の必然的な結果だと思います。GPT-4とまったく同じ技術アーキテクチャでGPT-4.5をトレーニングすることはできません。

状態管理の面では、必要なコンピューティングリソースが単一クラスターの処理能力を超えたため、マルチクラスターのトレーニングアーキテクチャに切り替える必要があります。この目標を達成するには、複数の異なるワークフローを短時間で統合する必要があります。

これは段階的なブレークスルーを達成するのに役立ちましたが、次の桁違いのパフォーマンス向上を達成するには、既知の、しかし一時的に棚上げされた技術的な問題をいくつか解決する必要があります。これらの問題は回避できません。最適な実装計画を追求する過程で、常に戦略的なトレードオフを行っています。

システム自体が最終的な目標ではないことを明確にする必要があります。その実際の出力値がコアの考慮事項です。次の10倍のパフォーマンス向上には、フォールトトレランスのブレークスルーが不可欠だと思います。運用とメンテナンスの不安を大幅に軽減するために、ワークロードと深く連携するフォールトトレランスメカニズムを構築する必要があります。現在の超大規模システムの運用とメンテナンスの複雑さは、本質的に以前のシステムとは異なります。

サム・アルトマン: GPT-4.5トレーニング中に、特定のコンポーネントによって引き起こされた故障の割合を知っていますか？

アミン・トゥートゥンチアン: 具体的な数値を共有することはできませんが、一般的に、新世代のハードウェアの最初の展開は、十分に理解されていない多くの技術的な課題に直面することがよくあります。問題を完全に解明する前にプロジェクトを進めることを選択したため、初期の故障率が高くなりました。

しかし、経験から、根本原因が特定されて解決されると、故障率が大幅に低下することがわかっています。この現象は、本質的にインフラストラクチャに対する理解を深めていることを反映しています。インフラストラクチャをクリーンアップしたり、インフラストラクチャの基本的な問題を理解したりする人もいます。

実行の初期段階はほとんど常に非常に苦痛です。プロジェクトを進めながら、新しい故障モードを継続的に発見して解決していますが、最終的には故障率が徐々に低下し、通常の実行時間が長くなります。

これは本質的に優先順位のトレードオフの問題です。インフラストラクチャのライフサイクルの初期段階では、その故障リスクを正確に見積もることが難しいことがよくあります。また、究極の理想状態（元は「City Estate」、理想的な都市国家設計）を過度に追求すると、システムの初期可用性パフォーマンスが極端に低下する可能性があります。

計算を超えて：アルゴリズムの革新とデータの未開拓の可能性

サム・アルトマン: 推論モデルは将来のテクノロジースタックの重要なコンポーネントですが、ここでは従来の事前トレーニングモデルの開発境界に一時的に焦点を当てましょう。無制限のGPUコンピューティング能力、無制限のネットワーク帯域幅、および無制限の電源があるが、システム信頼性の問題、フォールトトレラントトレーニング方法の欠如、および既存のデータセットの制限など、既存の技術的ボトルネックによって依然として制限されていると仮定します。

各主要なGPTバージョン番号で100倍のスケール増加を達成するという私たちの進化ルールに従って、現在の技術的境界に基づいて、事前トレーニングモデルの開発はどのレベルに達することができますか？具体的には、GPTシリーズモデルの場合、既存の知識システムに基づいて、理論的にはどのようなモデルをトレーニングできますか？GPT-5.5を作成できますか？

アレックス・パイノ: 機械学習とアルゴリズム開発の観点から、明確な理論的限界にはまだ達していません。実際、データ効率の高いアルゴリズムや、既存のデータリソースをより有効に活用する方法を模索し始めたばかりです。この状況は非常に興味深いものです。GPT-4のようなモデルでさえ、ほとんどが限られたコンピューティングリソースの条件下で開発されており、それが以前の研究のほとんどの方向性を決定づけています。

しかし、状況は完全に異なっています。GPT-4.5以降、いくつかの重要な側面では、コンピューティングではなくデータが主要な制約になりつつあります。このシフトにより、関連研究は刺激的でなくなります。

サム・アルトマン: しかし、これは確かに素晴らしい進歩であり、世界は私たちが構築できる最高のモデルに対する主なボトルネックがもはや計算リソースではないことを完全に認識していない可能性があります。このシフトは非常に重要です。結局のところ、私たちは計算に制限された環境で長年生活してきました。

サプライズの解明：予測可能性と予期せぬインテリジェンス

サム・アルトマン: GPT-4.5のトレーニング中に学んだ最も興味深い機械学習の経験は何ですか？共有したいことを言ってください。

アミン・トゥートゥンチアン: 一般的に、最も示唆に富むのは、私たちの予測から逸脱することです。特に、実際のパフォーマンスが期待される曲線から逸脱する理由を理解しようとする場合です。

アレックス・パイノ: 私たちにとって最も驚くべき発見の1つは、さまざまな機械学習コンポーネントのスケーラビリティパフォーマンスが大きく異なることです。一部のパーツは非常にうまく拡張できますが、他のパーツは拡張できません。これは、実際のトレーニングプロセス中に私たちが本当に理解したことです。この経験は私たちに多くのインスピレーションを与えてくれました。

ダニエル・セルサム: GPTパラダイムの2つの核となる特徴は、1つはテスト損失（モデルが見えないテストデータでどれだけうまく機能するかを測定する指標）を正確に予測できること、2つはモデルのパフォーマンスがスケールの増加とともに予測可能な改善を示すことだと思います。さらに驚くべきことは、テスト損失の減少が、さまざまな定量化が難しいが驚くべき、そして神秘的な方法で、あらゆる面で強化されたレベルのインテリジェンスに変換されることです。

サム・アルトマン: あなたはこれについて絶対に楽観的ですか？この視点に完全に同意しますか？

ダニエル・セルサム: 実際、私が言いたいのは、GPT-4.5テストで特に興味深い現象を発見したことです。再テスト後、モデルが示す多くの洗練された機能は、誰もが予想していたものを完全に超えました。

事前に定義するのが難しいさまざまな方法でより賢くなることは確かであり、これらの微妙な改善は、実際に展開した後のユーザーの満足度から観察できます。より強力な常識の蓄え、より正確な文脈理解能力、およびより微妙な意味の把握。これらは、それらの追加のテスト損失によってもたらされる魔法です。私の意見では、スケーリング則はこの次元で完全に検証されています。

コラボレーションの力：機械学習チームとシステムチームが調和して働く

サム・アルトマン: トレーニングプロセス全体で最もポジティブな瞬間は何でしたか？お気に入りの思い出は何ですか？明らかに多くの苦痛がありますが、その苦痛が軽減されたことを願っています。

アレックス・パイノ: 確かにそのような瞬間があります。トレーニング中に多くの機械学習作業を行いましたが、プロセス中に加えた変更の一部は、期待以上に良い影響を与えたと思います。それは私たちにとって非常にエキサイティングな瞬間でした。

アミン・トゥートゥンチアン: 私にとって、トレーニングと同時にインフラストラクチャも構築しています。このパフォーマンスの崖を越えられると確信しており、計画があり、誰もがそれを実行していますが、時間がかかります。これは大変な作業であり、私が思っていたよりも間違いなく難しいです。私の予測は間違っており、これらの問題を解決するのにかかる時間を過小評価していました。

チームがついに重要な問題を克服し、パフォーマンスが大幅に向上した瞬間は、今でも鮮明に記憶に残っています。チーム全体のエネルギーシフトを明確に感じることができます。誰もが突然エネルギーに満ち溢れ、新たなモチベーションで最終目標に向かって突進しています。

最も驚くべきことは、ステータストラッカーに表示される推定完了時間が、最初の2年から短縮され続け、最終的に明確なタイムノードに固定されたことです。この目に見える進歩は、チームの士気向上に計り知れないものです。これがその美しさだと思います。

機械学習の作業は決して止まらないことを強調したいと思います。トレーニングが開始された後でも、この機械学習の共同設計プロセスは継続中です。機械学習チームは、「後続処理」としてマークされた問題を積極的にフォローアップしただけでなく、トレーニング時間を真に最適化する改善を提供し続けました。

これは完全に私たちのチームスピリットを体現しています。ここには「自分の家の前の雪を掃く」という仕事の境界はなく、真にシームレスなコラボレーションがあります。この結束力が私たちの最大の強みです。

綿密な計画とGPT-4.5事前トレーニングにおける異常の容赦ない追求

ダニエル・セルサム: 外部の世界は、このトレーニング自体の課題と予測精度について多く議論してきました。しかし実際には、これらすべてが非常に綿密な計画に基づいて構築されています。これについて詳しく話していただけますか？

アレックス・パイノ: これは間違いなく、これまで作成した中で最も綿密な計画です。私が言ったように、トレーニングの正式な開始の1年前からこのプロジェクトの準備を開始しました。この期間中に、複数の大規模なリスク管理テストランを実施しました。

すべての改善を徐々に導入することに特に注意を払っています。信頼性の高い基本構成から開始します。これは、GPT-4に類似した成熟したアーキテクチャとして理解できます。機械学習レベルでこの構成を完全に習得しており、その後、ビルディングブロックのように新しい機能をレイヤー化します。

重要なのは、さまざまなスケールで各改善のスケーラビリティを厳密に検証することです。パフォーマンスの改善だけでなく、モデルサイズが大きくなるにつれて、これらの改善が効果的であり続けることを確認することも重要です。多くの改善は小規模なテストではうまく機能しますが、大規模なアプリケーションでは失敗します。

したがって、私たちはプロセス全体を通して高度な警戒を維持し、スケーリング則の方法論を反復して改善し続けています。このリスク管理プラクティスを通じて、多くの貴重な経験を蓄積しており、それが将来のGPTシリーズモデルの開発を導き続けます。

アミン・トゥートゥンチアン: 特に興味深い瞬間を覚えています。トレーニングタスクを開始するたびに、さまざまなバグにほぼ必ず遭遇しますが、それは日常茶飯事です。しかし、重要なのは、進捗が妨げられないようにすることであり、現在の進捗が実際に正しい軌道に乗っているかどうか、またこれらのバグがトレーニングの健全性に致命的な影響を与えるかどうかを常に確認する必要があります。

当初は重大な欠陥があると確信していましたが、構築した監視システム全体を通して、問題の根本原因を正確に区別することができました。ハードウェアの故障ですか？どのタイプのハードウェアの故障ですか？データの破損ですか？または、機械学習モデル自体のバグですか？または、コードの競合状態ですか？

当時、症状が多岐にわたる複数の問題ディスカッションエリアを同時に開いていました。一連のバグ修正の後、デッドロックに陥りました。複数の未解決の問題が私たちの目の前に積み上げられ、誰もが頭を悩ませていました。これらは異なるバグによって引き起こされたものですか？または、トラブルを引き起こしているバグですか？

その後、投票を行い、チームメンバーに最も可能性の高い根本原因に投票するように依頼しました。その結果、最も楽観的ではないオプションが真実を打ちました。PyTorchの上流にあるtorch.sum関数、つまり単純な合計演算に問題があることが判明しました。

このバグは非常に興味深いものです。主にTritonカーネルを使用しており、重要ではない周辺シナリオでのみtorch操作にフォールバックすることを知っています。特定のコードパスによってトリガーされるtorch.sum関数バグは、データ分散特性のために不法なメモリアクセスを時々引き起こします。メモリオフセットを計算するときにエラーが発生しました。

最も劇的なことは、エンジニアがついに問題を特定して修正を送信したとき、さまざまな症状のすべてのエラーが消えたことです。誰もが興奮してSlackチャネルを「マルチバグ理論」から「シングルバグ理論」に変更し、そのシーンは非常に幸せでした。

このバグはどれくらい潜んでいたのですか？トレーニングの初期段階から存在しており、進捗バーが約40％を通過するまで発見されませんでした。発見プロセスもドラマに満ちていました。当時、複雑なカーネルがシーケンスを継続的に呼び出し、2回目の呼び出しが不法なメモリアクセスをトリガーしました。

このクラッシュ頻度は非常に低く（数百または数千のトレーニングステップごとに1回しか発生しません）、偶発的なエラーとして無視されがちですが、私たちのチームの原則は、異常を見逃さないことです。この物語の最も良い点は、軽く諦めないこの粘り強さにあります。

理想的なシステムを求めて：遠い地平線

サム・アルトマン: GPT-4.5の事前トレーニングを開始した後、他に何をしなければなりませんか？

アレックス・パイノ: 私たち全員が損失曲線を頻繁に観察する必要があります。さらに、トレーニングを開始する前に完了していなかったシステムを継続的に最適化し、共同設計を改善する必要があります。トレーニングプロセス中にさまざまな統計指標を綿密に監視して、予期せぬ異常な傾向がないことを確認します。同時に、機械学習の観点から可能な改善計画を模索します。事前トレーニングの開始後、データレベルの作業は一時的に削減されますが、処理する必要のあるタスクはまだ多数あります。

アミン・トゥートゥンチアン: 機械学習は、判断の正確さに大きく依存していると思います。事前トレーニングの開始後、多数のノイズ信号に直面すると、お茶の葉を解釈する占い師のようになり、システムが健全かどうかを判断する必要があります。これが私たちの責任です。

サム・アルトマン: システムレベルでは、モデルトレーニングの実施を制限するものは何ですか？チップ、プロセッサ、メモリ、ネットワーク、または電源ですか？

アミン・トゥートゥンチアン: システムの美しさは、共同設計を行うときに、ワークロードが構築するインフラストラクチャに適応できることです。ここでは、ネットワークがボトルネックである、またはメモリ帯域幅がボトルネックであるなどという一般的な表現はありません。同じ仕様のモデルでも、リソース要件を転送することを選択でき、よりバランスの取れたシステムを作成することを選択できますが、より多くのメモリ帯域幅があることは常に有益です。制限条件なしでこの質問に答えるのは難しいです。

GPT-4.5を設計するとき、システムに何らかの属性が必要になる場合があります。それは人間の指導の下で生成される必要があります。したがって、共同設計はモデルアーキテクチャとアーキテクチャ要素を形成するために非常に重要であり、システムと機械学習の側面をある程度接続します。システムに私たちが望まない属性がある場合、私の理想的な状況は、すべてが分離されて互いに最大限のスペースを与えることです。

時には物事が一緒につながっており、インフラストラクチャの要件を満たす必要があります。または、物事はこのようにあるべきです。ほとんどの場合、バランスの取れたシステムとバランスの取れたコミュニケーションが必要です。そして、私たちが持っている最良の調整手段は、これらすべての共同設計です。

サム・アルトマン: この理想的なシステムの目標からどれくらい離れていますか？

アミン・トゥートゥンチアン: その目標からはまだ程遠いです。システムを構築するプロセスは常にこのようになります。最初に物事がどのように機能するかについての理想化された見方があり、次に既存のリソースとの違いを調整します。

理論のための理論を行っているのではなく、それを実現し、その理想にできるだけ近づけるために、何を望んでいるのかを議論しているだけだと思います。これは、システム分野の最もエキサイティングな部分かもしれません。人々はかつて、これはエレガントなシステム設計だと言っていましたが、最終的に歴史がこの選択が正しいか間違っているかを教えてくれます。

サム・アルトマン: 次の大規模なトレーニングの前に機械学習の問題に対する答えを得られるとしたら、最も知りたいことは何ですか？

アレックス・パイノ: 限られたデータと特定の分野でどのようなアルゴリズムを使用すべきかを知りたいと思います。これは広範な質問ですが、確かに最も重要な質問です。

サム・アルトマン: 今後、1000万個以上のGPUで同期事前トレーニングを実施しますか？

アレックス・パイノ: あると思いますが、従来の事前トレーニングモデルではないかもしれません。その形式は既存の技術とは大きく異なる可能性がありますが、教師なし学習の中核は維持されます。

アミン・トゥートゥンチアン: 私は半同期モードを好みます。物理法則のため、完全な同期は現実的ではありません。

ダニエル・セルサム: 分散型になる可能性が高いと思います。学習とタスクの実行のためにAIシステムで連携して動作する1000万個のGPUが必ず存在しますが、脳のさまざまな部分のように、互いに通信する必要はないかもしれません。

アルゴリズムの改善とデータ効率の相乗効果

サム・アルトマン: 最先端のアルゴリズムと人間のデータ効率の間のギャップはどれくらいですか？将来追いつくことを期待できますか？

ダニエル・セルサム: 2つを直接比較することは困難です。言語学習のギャップは間違いなく大きいです。重要なのは、人間の視覚神経が受け取る情報量をどのように定義するかです。アルゴリズムは一般的に人間よりもデータ効率がはるかに低いと思います。

数十年にわたり、深層学習はコンピューティング能力の効率に焦点を当ててきました。データとコンピューティング能力の成長に加えて、本当に驚くべきことは、アルゴリズムの改善によって生み出される相乗効果です。アルゴリズムのパフォーマンスが10％または20％向上するたびに、データ効率に重ね合わせると大きな効果があります。これまでのところ、データ効率を中心に動員はありませんでした。なぜなら、データが流通しておらず、コンピューティング能力が限られている場合、このアプローチは価値がないからです。

現在、私たちはAI研究の新しい段階に入っており、データ効率で勝利を積み重ね始めます。乗り越えられない障害に遭遇すると予測するのはややばかげていると思います。人間の脳の働き方は、アルゴリズムの改善とは確かに異なっており、この点については慎重になる必要があります。しかし、アルゴリズムの将来の発展については楽観的であるべきだと思います。

サム・アルトマン: より大規模な事前トレーニングと、モデルのより強力な学習および推論能力との間に相関関係はありますか？

アレックス・パイノ: より優れた事前トレーニングと教師なし学習は、モデルの全体的なインテリジェンスを向上させ、一般化に非常に役立つことを観察しました。これは推論能力を補完するものであり、推論はインテリジェンスの向上においてより緩慢になる可能性があります。それらは補完的だと思います。

サム・アルトマン: 事前トレーニングは多くの点で一般的であるように見えますが、モデルをトレーニングすると1つのタイプのことをうまく実行できるだけになります。それは正しいですか？

アレックス・パイノ: これは非常に興味深いことですが、それらをトレーニングするデータを見ると、この状況に驚かされることはありません。事前トレーニングデータセットの範囲は非常に広く、私たちが追求するのは幅と多様性です。モデルの強化学習と、優れた報酬信号と優れたトレーニング環境を明確に取得させることに関しては、データセットの幅のバランスを取ることが難しいと思います。

ダニエル・セルサム: 同意しますが、もう1つの要因があると思います。事前トレーニングは本質的にデータを圧縮し、それによって異なるものの間の接続を発見します。それはアナロジーであり、より抽象的です。推論は、特定の問題について慎重に考える必要があるスキルであり、多くの種類の問題に対する解決策も得ることができます。ただし、事前トレーニングプロセスでは、異なる分野間でデータを圧縮するときにより抽象的な知識を学習できます。

インテリジェンスの本質：圧縮とロングテール効果

サム・アルトマン: 教師なし学習が効果的なのはなぜですか？

ダニエル・セルサム: 重要なのは圧縮です。インテリジェンスの理想的な形式は、ソロモノフ帰納法です。一般的に、機械学習はすべての可能性を考慮しますが、より単純なプログラムでのテストを開始する傾向があります。

現在の事前トレーニングの本質は圧縮プロセスであり、これまで人間が生成したすべてのデータを説明する最も単純なプログラムを見つけることによって近似表現を実現します。

サム・アルトマン: 次のトークンの予測は、圧縮の達成にどのように役立ちますか？

ダニエル・セルサム: 統計にはパラドックスがあります。深層ネットワークは圧縮できないように見えても、なぜ一般化を達成できるのでしょうか？通常、多くのデータといくつかの小さなモデルがある場合、これらのモデルは何かを学習するために圧縮を行う必要があります。

事前トレーニングでは、データのスケールとモデルは非常に大きいです。このトレーニングは単なるメモリと補間学習であると考える人もいます。実際、彼らは圧縮の別の理解の視点、つまり事前クエンシャル圧縮を無視しています。コンプレッサーのようなものです。データの重みが非常に大きい場合でも、バイナリはこの情報を保存する必要はありません。次のトークンの予測の結果は、有用な情報をすばやく取得し、圧縮効率を向上させることができます。

サム・アルトマン: GPT-4.5のトレーニングプロセスには多くの人的資源、時間、および費用がかかりました。それは実際にはスケーリング則を検証する実験と見なすことができ、その結果はそれが効果的であり、長期間継続することを示しています。なぜスケーリング則は宇宙の法則と呼ばれるのですか？

ダニエル・セルサム: 圧縮度が高いほど、インテリジェンスが強くなります。これには深い哲学的な意味合いがあります。大規模なモデルのトレーニングに時間がかかり、圧縮率が高いのはなぜですか？これには多くの理論が関係しており、その中でもスパース表現が好きです。

現実のキーコンセプトはべき乗則分布に従います。たとえば、100番目に重要なコンセプトは100ドキュメントに1回しか表示されない場合があり、明らかなロングテール効果があります。この分布特性により、すべてのキーコンセプトを効果的にキャプチャするには、大規模なデータとコンピューティング能力が必要になり、スケーリング則が長期間にわたって効果的に存在し続けることが決定されます。

更新日時: 2025-04-15

# GPT # OpenAI # AGI