大規模学習における「壊滅的な問題」の克服
GPT-4.5の開発は、OpenAIにとって過去最大の野心的な試みであり、2年前から開始されました。この大規模なプロジェクトには数百人もの人々が協力し、OpenAIのCEOであるサム・アルトマン氏は、組織全体がほぼ完全に参加する必要があったと述べています。
GPT-4.5の開発までの道のりは、決して平坦ではありませんでした。研究開発段階では、数多くの「壊滅的な問題」に直面しました。10万個のGPUからなるクラスターを利用したことで、これまで見たことのない、発生頻度は低いものの深刻なインフラの故障が明らかになりました。OpenAIのシステムチームは、迅速性と最適なパフォーマンスのバランスを取るために、「修正しながら進む」アプローチを採用せざるを得ませんでした。特に捉えどころのないバグは、クラスターを頻繁にエラーで悩ませ、トレーニングプロセスの約40%が経過するまで検出されませんでした。
これらの課題にもかかわらず、GPT-4.5プロジェクトは、より堅牢なテクノロジースタックの開発を促進しました。現在では、わずか5〜10人の少数精鋭チームで、GPT-4に匹敵する大規模モデルを再現できます。GPT-4からGPT-4.5へのパフォーマンス向上は約10倍であり、「定量化は困難だが、あらゆる面で強化された知能」をもたらし、OpenAIの社員自身さえも驚かせました。
シフトする焦点:計算能力からデータ効率へ
OpenAIは、次の10倍または100倍のパフォーマンス飛躍を達成するには、単なる生の計算能力ではなく、データ効率、つまり同じ量のデータからより多くの知識を抽出しながら、より多くの計算リソースを活用する能力にかかっていることに気づきました。
アーキテクチャも、シングルクラスターからマルチクラスターパラダイムへと進化しています。将来のトレーニングでは、最大1000万個のGPUを使用した共同学習が必要になる可能性があり、より高度なフォールトトレランスが求められます。
サム・アルトマンとGPT-4.5チームの対話
以下は、サム・アルトマン氏とOpenAI GPT-4.5チームとのディスカッションを編集したものです。
サム・アルトマン:GPT-4.5のような大規模モデルを構築するには何が必要ですか?
アレックス・パイノ: このプロジェクトは約2年前に開始しました。当時、OpenAIは新しい大規模コンピューティングクラスターを立ち上げようとしており、私たちのチームはこれを、モデルに必要な機能を決定するための一連の運用を実施する機会と捉え、多数のリスク軽減運用テストを実施しました。
私たちは、システムから機械学習までのテクノロジースタック全体を含む長期的な計画を策定しました。リスクを軽減し、トレーニングの準備をすることは長い実行プロセスであり、トレーニング自体が非常に大きなプロジェクトです。
アミン・トゥーンチアン: このプロセスでは、機械学習チームとシステムチームが最初から密接に協力し、どのモデルをトレーニングしたいかを明確にし、その後トレーニングを開始する必要があると思います。
機械学習とシステムの両方の側面で予測を行い、期待と現実のギャップをできるだけ狭めるように努めています。しかし、私たちの仕事のリズムは速く、最新のコンピューティングリソースを使用する必要があるため、モデルトレーニングは事前に完全に計画することが難しいものになっています。
私たちはほとんど常に、多くの未解決の問題を抱えた状態でトレーニングを開始し、運用中に課題を克服し、進歩を遂げるように努めています。主な解決策は、より多くのコンピューティングリソースを追加することです。
最終段階は実行であり、トレーニングプロセスを完了するには、多くの人々が長い間、多くのエネルギーとモチベーションを投資する必要があります。
サム・アルトマン:私たちの期待と現実のギャップはどのくらいだと思いますか?
アミン・トゥーンチアン: システムに関しては、私たちは通常、最初は期待される状態からかけ離れています。私たちは常に選択に直面しています。開始を延期して問題が解決されるのを待つか、早期に開始してプロセス中に問題を解決するかです。これには常に、プロセスにおける不合理な遅延を回避するためのトレードオフが必要です。
しかし、ほとんど常に予期せぬ問題が発生し、私たちがしなければならないことは、これらのノードを可能な限り処理し、未知の要因に対処し、モデルトレーニングの計画を立てることです。
アレックス・パイノ: このプロジェクトの目標はGPT-4.5を作成することです。つまり、その機能はGPT-4よりも10倍賢くなければなりません。これは、約2年前に私たちが設定した最初の目標です。
このプロセス中に多くのことが起こりました。私たちは、期待よりも良くなるのか悪くなるのかを考えていました。これは非常に複雑なプロセスですが、最終的には、投資した有効な計算量という点で、GPT-4よりも10倍賢いモデルに到達したと考えています。
アミン・トゥーンチアン: 実行という点では、GPT-4.5プロジェクトに費やされた時間は、私たちが最初に予想したよりもはるかに長いです。
サム・アルトマン:クラスターが1万枚のカードから10万枚のカードに拡張されたときに、なぜこれほど多くの問題が発生したのですか?
アミン・トゥーンチアン: システム開発者が十分に敏感であれば、ほとんどの問題は小規模な段階で観察できると思います。
一部の問題は大規模なトレーニング段階に固有のものではなく、以前にも発生していましたが、規模が拡大すると壊滅的な問題になります。特に、チームがこれらの問題がそこまで悪化することを予想していなかった場合です。
サム・アルトマン:何が壊滅的な結果を引き起こしましたか?
アミン・トゥーンチアン: インフラストラクチャの問題はよく知られており、故障率、故障の種類、または故障の総量も非常に高いと思います。10万枚のカードのクラスターは大規模なサンプルプールであるため、コンピューティングパワーサプライヤーが観察しなかった問題も発見しました。
ネットワークはその1つであり、個々のアクセラレーターにも問題が発生する可能性があります。しかし、これはこのシステムの美しさでもあります。期待される結果を生み出すためには、ほぼすべてのコンポーネントが期待どおりに機能する必要があります。私たちの仕事は、この問題を可能な限り最小限に抑えることです。
サム・アルトマン:クラスターサイズの限界で作業するのは確かに難しいですが、最先端のテクノロジーではなくなったことを行うのがはるかに簡単になったことにも気づきました。GPT-4.5のトレーニングには数百人が必要であり、OpenAIはほぼ全員が参加しています。
しかし今日、OpenAIから最小のチームを選び、私たちが知っているすべての知識とシステム作業でGPT-4をゼロから再トレーニングする場合、何人が必要になりますか?
アレックス・パイノ: 現在、GPT-4レベルのモデルを作成するには、約5〜10人が必要になると思います。GPT-4.5を完了する過程で、テクノロジースタックは大幅に改善されました。
実際、GPT-4.5のトレーニングプロセスで同様のことを行いました。GPT-4レベルのモデルであるGPT-4oをトレーニングし、GPT-4.5の研究プロジェクトからの多くの同じコンテンツを使用して再トレーニングしました。そのトレーニングには、より少ない人数が使用されました。
サム・アルトマン:あなたの視点から見て、ダン?大規模モデルのトレーニングが難しいのはなぜですか?
ダニエル・セルサム: 新しいことをするのは難しいと思います。他の誰かが何かをしたことを発見しただけでも、それがはるかに簡単になると思います。なぜなら、最も難しいのは、そもそも何かをするという信念を持つことだからです。何かが実現可能であることを知っているだけでも、物事がはるかに簡単になるスーパーチートコードだと思います。
アレックス・パイノ: GPTの事前トレーニングの実行を以前のサイズの10倍に拡大しており、必ず予測できない興味深い新しいことがいくつか見つかります。
サム・アルトマン:事前トレーニングの規模を次の10倍または100倍に成長させるには何が必要ですか?
ダニエル・セルサム: データ効率です。Transformerアーキテクチャ(つまり、GPT)は、データを非常に効率的に利用します。情報をうまく吸収して圧縮し、一般化を実現できます。その最大の特徴は、コンピューティングリソースを使用して情報を効率的に吸収できることです。
ただし、データから得られる洞察の深さは限られています。コンピューティングパワーが急速に成長し、データの成長が比較的遅い場合、データはこの標準モデルのボトルネックになります。これには、より多くのコンピューティングパワーを使用して同じ量のデータからより多くの知識を学習できる方法を開発するためのアルゴリズムの革新が必要です。
サム・アルトマン:拡張を維持するために他に何が必要だと思いますか?
アミン・トゥーンチアン: 私の答えはシステムについてです。GPT-4.5に必要な膨大な量の作業は、基本的にモデル仕様の必然的な結果だと思います。GPT-4とまったく同じ技術アーキテクチャでGPT-4.5をトレーニングすることはできません。
状態管理の観点から、必要なコンピューティングリソースが単一クラスターの容量を超えているため、マルチクラスターのトレーニングアーキテクチャに移行する必要があります。この目標を達成するには、複数の異なるワークフローを短期間で統合する必要があります。
これは確かに私たちが段階的なブレークスルーを達成するのに役立ちましたが、次の桁違いのパフォーマンス向上を達成するには、既知でありながら一時的に棚上げされている技術的な問題をいくつか解決する必要があります。これらの問題は回避できません。最適な実装計画を追求する過程で、常に戦略的なトレードオフを行っています。
システム自体が最終的な目標ではなく、その実際の出力値が重要な考慮事項であることを明確にする必要があります。次の10倍のパフォーマンス向上には、フォールトトレランスのブレークスルーが不可欠だと思います。ワークロードと深く相乗効果を発揮するフォールトトレランスメカニズムを構築して、運用およびメンテナンスの不安を大幅に軽減する必要があります。現在の超大規模システムの運用およびメンテナンスの複雑さは、以前のシステムとは本質的に異なります。
サム・アルトマン:GPT-4.5のトレーニング中に、特定のコンポーネントが原因で発生した故障の割合を知っていますか?
アミン・トゥーンチアン: 具体的な数値は共有できませんが、一般的に、新世代のハードウェアをデプロイする初期段階では、システム運用は完全に理解されていない多くの技術的な課題に直面することがよくあります。問題が完全に定義される前にプロジェクトを進めることを選択したため、初期の故障率が高くなりました。
しかし、経験によれば、根本原因が特定されて解決されると、故障率は大幅に低下することがわかっています。この現象は、インフラストラクチャに対する私たちの理解を深めていることを本質的に反映しています。インフラストラクチャのクリーンアップ、またはインフラストラクチャの基本的な問題を理解していると呼ぶ人もいます。
実行の初期段階は、ほとんど常に非常に苦痛です。プロジェクトを進めながら、新しい故障モードを継続的に発見して解決していますが、故障率は徐々に低下し、正常な稼働時間が長くなります。
これは本質的に優先順位のトレードオフの問題です。インフラストラクチャのライフサイクルの初期段階では、その故障リスクを正確に見積もることが難しいことがよくあります。そして、究極の理想的な状態(元々は「シティエステート」、理想的な都市国家のデザイン)を過度に追求すると、システムの初期段階での可用性パフォーマンスが非常に悪くなる可能性があります。
サム・アルトマン:推論モデルは私たちの将来のテクノロジースタックの重要なコンポーネントですが、ここでは従来の事前トレーニングモデルの開発境界に一時的に焦点を当てます。無制限のGPUコンピューティングパワー、無制限のネットワーク帯域幅、および無制限の電力供給があると仮定しますが、それでも既存の技術的なボトルネック(システムの信頼性の問題、フォールトトレラントトレーニング方法の欠如、および既存のデータセットの制限を含む)によって制限されています。
各主要なGPTバージョン番号で100倍のスケール増加を達成するという私たちの進化法則によれば、現在の技術的な境界に基づいて、事前トレーニングモデルの開発はどのレベルに到達できますか?具体的にはGPTシリーズモデルに対して、既存の知識システムを使用して、理論的にはどのようなモデルをトレーニングできますか?GPT-5.5を作成できますか?
アレックス・パイノ: 機械学習とアルゴリズム開発の観点から、私たちはまだ明確な理論的な上限に達していません。実際、私たちはより高いデータ効率を持つアルゴリズムと、既存のデータリソースをより完全に活用する方法を模索し始めたばかりです。これは非常に興味深い状況です。GPT-4のようなモデルでさえ、計算リソースの制限の下で開発されており、これは以前の研究のほとんどの方向性を決定づけています。
しかし、状況は完全に異なります。GPT-4.5以降、いくつかの重要な側面では、計算ではなくデータが主な制約になりつつあります。この変化により、関連する研究はあまりエキサイティングではなくなります。
サム・アルトマン:しかし、これは確かに驚くべき進歩であり、世界は私たちが構築できる最高のモデルにおいて、計算リソースがもはや主なボトルネックではないことを完全に認識していないかもしれません。この変化は深刻です。結局のところ、私たちはあまりにも長い間、計算に制約された環境で暮らしてきたのですから。
サム・アルトマン:GPT-4.5のトレーニングプロセスで学んだ最も興味深い機械学習の経験は何ですか?共有したいことについて話してください。
アミン・トゥーンチアン: 一般的に、最も考えさせられるのは、私たちの予測から逸脱する状況です。特に、実際のパフォーマンスが予想される曲線から逸脱する理由を理解しようとするときです。
アレックス・パイノ: 私たちにとって最も驚くべき発見の1つは、異なる機械学習コンポーネントのスケーラビリティのパフォーマンスが大きく異なることです。一部の部品はうまくスケーリングできますが、他の部品はできません。これは、実際のトレーニングプロセスで私たちが本当に実現したことです。この経験は、私たちに多くのインスピレーションを与えてくれました。
ダニエル・セルサム: GPTパラダイムの2つのコア機能は、第1に、テスト損失(モデルが未知のテストデータでどれだけうまく機能するかを測定する指標)を正確に予測できること、第2に、モデルのパフォーマンスが規模の拡大とともに予測可能な改善を示すことです。さらに不思議なことに、テスト損失の減少は、定量化が難しいものの驚くべき、あらゆる面で強化されたレベルの知能に変換されます。
サム・アルトマン:あなたはこれについて絶対に楽観的ですか?この見解に完全に同意しますか?
ダニエル・セルサム: 実際、私が言いたいのは、GPT-4.5テストで特に興味深い現象が見つかったということです。再テスト後、モデルはすべての人の期待を完全に上回る多くの微妙な能力を示しました。
事前に定義できないさまざまな方法でより賢くなることは確信しており、実際にデプロイした後、ユーザー満足度からこれらの微妙なレベルの改善を観察できます。より強力な常識の蓄積、より正確な文脈理解能力、およびより繊細な意味の把握。これこそが、それらの追加のテスト損失によってもたらされる魔法です。私の意見では、スケーリングの法則はこの次元で完全に検証されています。
サム・アルトマン:トレーニングプロセス全体で最もポジティブな瞬間は何でしたか?あなたのお気に入りの記憶は何ですか?明らかに多くの痛みがありますが、それらの痛みが軽減されたことを願っています。
アレックス・パイノ: 私はそのような瞬間を持っています。トレーニング中に多くの機械学習の仕事を行いました。運用中に私たちが加えた変更の一部は、かなり良い影響を与えたと思います。おそらく予想よりも優れており、私たちにとって非常にエキサイティングな瞬間でした。
アミン・トゥーンチアン: 私にとって、トレーニングと同時に、インフラストラクチャも構築しています。私たちはこのパフォーマンスの崖を越えることができると固く信じており、計画があり、誰もがそれを実行していますが、時間がかかります。これは大変な仕事であり、私が考えていたよりもはるかに困難です。私の予測は間違っており、これらの問題を解決するのにかかる時間を過小評価していました。
チームが最終的にそれらの重要な問題を克服し、パフォーマンスが大幅に向上した瞬間は、今でも私の記憶に新しいです。チーム全体のエネルギー変換をはっきりと感じることができます。誰もが突然エネルギーに満ち溢れ、新たなモチベーションを持って最終目標に向かって突進しています。
最も魔法のようなことは、ステータストラッカーに表示される推定完了時間が、最初の2年間から短縮され続け、最終的には明確な時間のノードにロックされたことです。この目に見える進歩は、チームの士気に計り知れないほどのブーストをもたらします。これこそが美しさだと思います。
機械学習の仕事は決して止まらないことを強調したいと思います。トレーニングが開始された後でも、この機械学習の共同設計プロセスは続行されます。機械学習チームは、「後続処理」としてマークされた問題に積極的にフォローアップするだけでなく、トレーニング時間を真に最適化する改善を継続的に提供しています。
これは私たちのチーム精神を完全に反映しています。「誰もが自分のドアの前で雪を掃う」という仕事の境界はなく、真にシームレスなコラボレーションがあり、この結束が私たちの最大の強みです。
サム・アルトマン:外部の世界は、このトレーニング自体の課題と予測の精度について多くを議論してきました。しかし実際には、これらすべては非常に徹底的な計画に基づいています。これについて詳しく話してもらえますか?
アレックス・パイノ: これは間違いなく、これまでで最も徹底的な計画です。前に述べたように、トレーニングの正式な開始の1年前からこのプロジェクトの準備を開始しました。この期間中、複数の大規模なリスク管理テストを実施しました。
すべての改善を徐々に導入することに特に注意を払っています。GPT-4と同様の成熟したアーキテクチャとして理解できる、信頼性の高い基本構成から開始し、機械学習レベルでこの構成を完全に習得し、次に新しい機能を積み木のようにレイヤーごとに加えていきます。
重要なのは、さまざまなスケールで各改善のスケーラビリティを厳密に検証することです。パフォーマンスの向上を見るだけでなく、モデルスケールが拡大しても、これらの改善が引き続き有効であることを確認します。多くの改善は小規模テストではうまく機能しますが、大規模アプリケーションでは失敗します。
したがって、プロセス全体を通して高度な警戒を維持し、拡張の法則の方法論を継続的に反復および改善しています。このリスク管理の実践を通じて、将来のGPTシリーズモデルの開発を継続的に導く貴重な経験を数多く蓄積しました。
アミン・トゥーンチアン: 特に興味深い瞬間を覚えています。ご存知のように、トレーニングタスクを開始するたびに、ほぼ常にさまざまなバグが発生します。これはすでにありふれたことです。しかし、重要なのは、進捗が妨げられないようにし、現在の進捗が確かに正しい方向に進んでいるかどうか、およびこれらのバグがトレーニングの健全性に致命的な影響を与えるかどうかを常に確認することです。
最初は重大な欠陥があることを非常に確信していましたが、構築したシステム全体を監視することで、問題の根本原因を正確に区別することができました。ハードウェアの故障ですか?どのような種類のハードウェアの故障ですか?データの破損ですか?それとも、機械学習モデル自体のバグですか?それとも、コードの競合状態ですか?
当時、さまざまな症状を伴う複数の問題ディスカッションエリアが同時に開かれていました。一連のバグ修正の後、行き詰まりました。目の前に未解決の問題が複数あり、誰もが頭を悩ませていました。これらは異なるバグによって引き起こされたのですか?それとも、職場でのバグですか?
その後、チームメンバーに最も可能性の高い根本原因に投票させるために投票を実施しました。最も有望でないオプションが真実に当たりました。PyTorchの上流にあるtorch.sum関数、つまり単純な合計操作に問題があることがわかりました。
このバグは特に興味深いです。ご存知のように、私たちは主にTritonカーネルを使用しており、重要でないエッジシナリオでのみtorch操作に戻ります。また、特定のコードパスによってトリガーされたtorch.sum関数バグは、データの分布特性により、誤って不正なメモリアクセスを引き起こします。メモリオフセットを計算するときに間違いを犯しました。
最も劇的なのは、エンジニアが最終的に問題を特定して修正を送信したとき、さまざまな症状を伴うすべてのエラーレポートが消えたことです。誰もが興奮してSlackチャネルを「マルチバグ理論」から「シングルバグ理論」に変更し、シーンはとても幸せでした。
このバグはどれくらい潜伏していたのですか?トレーニングの初期段階から存在し、進行状況バーが約40%を通過するまで特定されませんでした。発見プロセスもドラマに満ちていました。当時、複雑なカーネルがシーケンスを順番に呼び出し、2回目の呼び出しが不正なメモリアクセスを引き起こしました。
このクラッシュ頻度は非常に低く(数百または数千のトレーニングステップごとに1回しか発生しません)、時折発生する障害として無視されがちですが、私たちのチームのガイドラインは、決して異常を見逃さないことです。このストーリーの最高の部分は、簡単に諦めないというこの忍耐力にあります。
サム・アルトマン:GPT-4.5の事前トレーニングを開始した後、他に何をする必要がありますか?
アレックス・パイノ: 私たちは皆、損失曲線を頻繁に観察する必要があります。さらに、トレーニングが開始される前に完了しなかったシステムの最適化と共同設計を改善する必要があります。予期せぬ傾向がないことを確認するために、トレーニングプロセス中にさまざまな統計を綿密に監視します。同時に、機械学習の観点から可能な改善計画を検討します。事前トレーニングを開始した後、データレベルの作業は一時的に削減されますが、処理するタスクはまだたくさんあります。
アミン・トゥーンチアン: 機械学習は主に正しさの判断に依存していると思います。事前トレーニングを開始した後、大量のノイズ信号に直面して、お茶のしずくを解釈する占い師のように、システムが健全かどうかを判断する必要があります。これが私たちの責任です。
サム・アルトマン:システムレベルでは、モデルトレーニングの実施を制限するものは何ですか?チップ、プロセッサー、メモリ、ネットワーク、または電源ですか?
アミン・トゥーンチアン: システムの美しさは、共同設計を行うときに、ワークロードが構築するインフラストラクチャに適応できることです。ネットワークがボトルネックであるとか、メモリ帯域幅がボトルネックであるという普遍的な表現はありません。同じ仕様のモデルでも、リソース要件を転送することを選択できます。よりバランスの取れたシステムを作成することを選択できますが、より多くのメモリ帯域幅を持つことは常に有益です。制限条件なしにこの質問に答えることは困難です。
GPT-4.5を設計するときに、システムに特定のアトリビュートを持たせる必要がある場合があります。これは、人間のガイダンスを通じて生成する必要があります。したがって、共同設計はモデルアーキテクチャとアーキテクチャ要素を形成するために非常に重要であり、ある程度システムと機械学習の側面を結び付けます。システムに私たちが望まない属性がある場合。私の理想的な状況は、すべてが分離されて、互いに最大のスペースを与えることです。
時には物事が結びついているため、インフラストラクチャの要件を満たす必要があります。または、物事はこうあるべきです。ほとんどの場合、バランスの取れたシステム、バランスの取れたコミュニケーションが必要です。そして、私たちが持っている最高の規制手段は、これらすべての共同設計です。
サム・アルトマン:そのような理想的なシステム目標からどれくらい離れていますか?
アミン・トゥーンチアン: その目標から大きく離れています。システムを構築するプロセスは常に次のようになります。まず、物事がどのように機能するかについての理想化された見方があり、次にそれらの違いが既存のリソースと調和されます。
理論のために理論を行っているとは思わず、私たちがそれがどうなるのか、それを実現するために、そしてその理想にできるだけ近づくために議論しているだけです。これはシステム分野の最もエキサイティングな部分かもしれません。人々はかつてこれをエレガントなシステム設計と言っていましたが、最終的には歴史がこの選択が正しいか間違っているかを教えてくれます。
サム・アルトマン:次の大規模トレーニングの前に機械学習の質問に対する答えを得ることができたら、最も知りたいことは何ですか?
アレックス・パイノ: 制限されたデータと特定のフィールドでどのアルゴリズムを使用する必要があるかを知りたいです。これは広範な質問ですが、確かに最も重要です。
サム・アルトマン:将来、1000万個以上のGPUで同期事前トレーニングを実施しますか?
アレックス・パイノ: そうなると思いますが、従来の事前トレーニングモデルではないかもしれません。その形式は既存の技術とは大きく異なるかもしれませんが、それでも教師なし学習のコアは保持されます。
アミン・トゥーンチアン: 半同期モデルが好きです。物理法則により、完全な同期はあまり現実的ではありません。
ダニエル・セルサム: 分散型になる可能性が高いと思います。学習とタスクの実行を行うAIシステムでは、1000万個のGPUが連携して動作することは間違いありませんが、脳のさまざまな部分のように、必ずしも互いに通信する必要はありません。
サム・アルトマン:現在の最先端のアルゴリズムと人間のデータ効率にはどれくらいの差がありますか?将来追いつくことは可能ですか?
ダニエル・セルサム: 2つを直接比較することは困難です。言語学習のギャップは間違いなく大きいです。重要なのは、人間の視覚神経が受信する情報量をどのように定義するかです。アルゴリズムの全体的なデータ効率は、人間よりもはるかに低いと思います。
数十年間、深層学習は計算効率に焦点を当ててきました。データと計算能力の増加に加えて、本当に驚くべきことは、アルゴリズムの改善によって生み出される相乗効果です。アルゴリズムのパフォーマンスが10%または20%向上するたびに、データ効率に重ね合わせると大きな効果があります。これまでのところ、データの流れがなく、計算能力が制限されている場合、価値がないため、データ効率を中心としたこのような動員はありませんでした。
現在、私たちはAI研究の新しい段階に入りつつあり、データ効率の勝利を積み重ね始めます。乗り越えられない障害に遭遇すると予測するのは、少し愚かだと思います。人間の脳が動作する方法は、私たちのアルゴリズムの改善とは間違いなく異なり、これについては慎重である必要があります。しかし、アルゴリズムの将来の開発については楽観的であるべきだと思います。
サム・アルトマン:大規模な事前トレーニングと、モデルのより強力な学習および推論能力との間にはどのような相関関係がありますか?
アレックス・パイノ: 私たちが観察したのは、より優れた事前トレーニングと教師なし学習は、モデルの全体的な知能を向上させ、一般化に大いに役立つ傾向があるということです。これは推論能力を補完するものであり、推論は知能の向上には少し鈍いかもしれません。それらは補完的だと思います。
サム・アルトマン:事前トレーニングは多くのことで普遍的であるようですが、モデルをトレーニングすると、ある種類のことでしかうまく機能しない可能性があります。それは正しいですか?
アレックス・パイノ: これは非常に興味深いですが、それらをトレーニングするデータを見ると、この状況に驚くことはありません。事前トレーニングのデータセットの範囲は非常に広く、私たちが追求するのは広さと多様性です。モデルの強化学習や、明確な報酬信号と良好なトレーニング環境を明確に取得させることになると、データセットの幅を考慮に入れることは困難だと思います。
ダニエル・セルサム: 同意しますが、もう1つの要因があると思います。事前トレーニングは本質的にデータを圧縮し、それによって異なるもの間のつながりを発見します。それはアナロジーとより抽象的なものです。推論は、特定の問題について慎重に考える必要のあるスキルであり、多くの種類の問題の解決策を得ることもできます。しかし、事前トレーニングプロセスでは、異なる分野でデータを圧縮するときに、より抽象的な知識を学ぶことができます。
サム・アルトマン:教師なし学習はなぜ効果的なのですか?
ダニエル・セルサム: 重要なのは圧縮です。知能の理想的な形はソロモノフ帰納法です。一般的に、機械学習はすべての可能性を検討しますが、テストのためにより単純なプログラムから開始する傾向があります。
現在の事前トレーニングの本質は圧縮プロセスであり、人間がこれまでに生成したすべてのデータを説明するための最も単純なプログラムを見つけることによって、近似表現を実現します。
サム・アルトマン:次のトークンの予測は、どのように圧縮の実現に役立ちますか?
ダニエル・セルサム: 統計にはパラドックスがあります。なぜ深層ネットワークは圧縮できないように見えるのに、一般化を実現できるのでしょうか?通常、大量のデータといくつかの小さなモデルがある場合、これらのモデルは何かを学習するために圧縮を通過する必要があります。
事前トレーニングでは、データとモデルの両方のスケールが非常に大きいです。このトレーニングは単なる記憶と内挿学習だと考える人もいます。実際、彼らは圧縮を理解する別の視点を無視しています。それは事前シーケンシャル圧縮です。コンプレッサーのようなものです。データの重みが非常に大きくても、バイナリはこの情報を保存する必要はありません。次のトークンの予測の結果は、有用な情報をすばやく取得し、圧縮効率を向上させることができます。
サム・アルトマン:GPT-4.5のトレーニングプロセスには多くの人手、時間、および費用がかかりました。これは実際にはスケーリングの法則を検証するための実験と見なすことができ、その結果はそれが効果的であり、長期間継続することを示しています。なぜスケーリングの法則を宇宙の法則と呼ぶことができるのですか?
ダニエル・セルサム: 圧縮度が高いほど、知能は強力になり、それは深い哲学的な意味合いを持っています。より大きなモデルをトレーニングするのに時間がかかり、圧縮率が高くなるのはなぜですか?これには多くの理論が関係しており、その中で私はスパース表現が好きです。
現実の主要な概念は、べき乗則分布に従います。たとえば、100番目に重要な概念は、100ドキュメントごとに1回しか表示されない場合があり、明らかなロングテール効果があります。この分布特性は、すべての主要な概念を効果的にキャプチャするには、大規模なデータと計算能力が必要であることを意味し、スケーリングの法則が長期間有効であることも決定します。