GPT-4.5の規模と範囲
GPT-4.5は、OpenAIのこれまでの取り組みの中でも、純粋な規模の点で最も野心的なものです。そのアーキテクチャとトレーニングデータに関する正確な詳細はほとんど明らかにされていませんが、トレーニングプロセスは非常に計算集約的であり、複数のデータセンターに分散する必要があったことが知られています。これだけでも、その開発に注ぎ込まれた膨大なリソースがうかがえます。
モデルの価格設定は、プレミアム製品としての位置づけをさらに強調しています。コストは以前のモデルよりも大幅に高く、GPT-4oの15〜30倍、o1の3〜5倍、Claude 3.7 Sonnetの10〜25倍を超えています。アクセスは現在、ChatGPT Proの加入者(月額200ドルという高額)と、トークン単位で支払う意思のあるAPIクライアントに制限されています。
しかし、少なくともいくつかの分野では、パフォーマンスの向上は価格に見合っていません。初期のベンチマークでは、GPT-4oをわずかに上回る程度の改善しか見られず、推論タスクにおいてはo1やo3-miniなどのモデルに遅れをとっていることさえ示されました。
GPT-4.5の意図された目的を理解する
OpenAIがGPT-4.5を主力となる汎用モデルとして明確に宣伝したことがないことを認識することが重要です。実際、ブログ投稿の初期バージョンでは、能力の絶対的な限界を押し上げる「フロンティアモデル」であることを意図していないことが明確にされていました。さらに、主に推論モデルとして設計されていないため、(o3やDeepSeek-R1のような)その目的に最適化されたモデルとの直接比較は、やや誤解を招く可能性があります。
OpenAIは、GPT-4.5が最後の非Chain-of-Thoughtモデルになることを示唆しています。これは、トレーニングが複雑な推論能力の開発ではなく、膨大な量の世界の知識を埋め込み、ユーザーの好みに合わせることに重点を置いていることを意味します。
GPT-4.5が輝く可能性のある分野:知識とニュアンス
より大きなモデルの主な利点は、多くの場合、知識獲得能力の拡大にあります。GPT-4.5は、この原則に沿って、より小さなモデルと比較して幻覚を生み出す傾向が減少していることを示しています。これにより、事実と文脈情報への厳密な準拠が最も重要なシナリオで、潜在的に価値のあるものになります。
さらに、GPT-4.5は、ユーザーの指示と好みに従う能力が向上しています。これは、OpenAIによるさまざまなデモンストレーションで紹介され、オンラインで共有されたユーザーエクスペリエンスによって裏付けられています。モデルは、ユーザーの意図のニュアンスをより効果的に把握しているようで、より適切で関連性の高い出力につながります。
文章の質に関する議論:主観性と可能性
GPT-4.5が優れた文章を生成する能力に関して、活発な議論が起こっています。一部のOpenAI幹部は、モデルの出力品質を称賛しており、CEOのSam Altmanは、モデルとの対話が一部の洞察力のあるテスターに「AGI」(汎用人工知能)を垣間見せたことさえ示唆しています。
しかし、より広範な反応は明らかに মিশ্রざっています。OpenAIの共同創設者であるAndrej Karpathyは、純粋な推論にあまり依存しないタスク、例えば「EQ」(感情的知性)、創造性、類推、ユーモアなど、世界の知識と一般的な理解によってボトルネックになることが多い分野での改善を予想していました。
興味深いことに、Karpathyがその後実施した調査では、文章の質に関して、GPT-4.5よりもGPT-4oの応答を好む一般的なユーザーの傾向が明らかになりました。これは、文章を評価する際の固有の主観性を強調しており、熟練したプロンプトエンジニアリングが、より小さく、より効率的なモデルから同等の品質を引き出す可能性があることを示唆しています。
Karpathy自身も結果の曖昧さを認め、さまざまな可能性のある説明を示唆しました。「高いセンス」を持つテスターは、他の人が見逃した微妙な構造的改善を知覚しているかもしれない、テストされた例が理想的ではなかったかもしれない、または違いが小さすぎて少数のサンプルでは識別できないかもしれない、などです。
スケーリングの限界とLLMの未来
GPT-4.5のリリースは、ある意味で、大規模なデータセットでトレーニングされたモデルを単純にスケールアップすることの潜在的な限界を浮き彫りにしています。OpenAIのもう一人の共同創設者であり、元チーフサイエンティストであるIlya Sutskeverは、NeurIPS 2024で、「私たちが知っている事前学習は間違いなく終わるでしょう…私たちはピークデータに到達し、それ以上はありません。私たちは持っているデータを扱う必要があります。インターネットは一つしかありません。」と述べました。
GPT-4.5で観察された収穫逓減は、主にインターネットデータでトレーニングされ、人間のフィードバックからの強化学習(RLHF)を通じて調整のために微調整された汎用モデルをスケーリングすることの課題を証明しています。
大規模言語モデルの次のフロンティアは、テスト時スケーリング(または推論時スケーリング)であるように思われます。これは、Chain-of-Thought(CoT)トークンを生成することにより、モデルがより長い時間「考える」ようにトレーニングすることを含みます。テスト時スケーリングは、モデルが複雑な推論問題に取り組む能力を高め、o1やR1などのモデルの成功の重要な要因となっています。
失敗ではなく、基盤
GPT-4.5はすべてのタスクに最適な選択肢ではないかもしれませんが、将来の進歩のための基礎的な要素としての潜在的な役割を認識することが重要です。堅牢な知識ベースは、より洗練された推論モデルの開発に不可欠です。
GPT-4.5自体がほとんどのアプリケーションで頼りになるモデルにならなくても、後続の推論モデルの重要な構成要素として機能することができます。o3のようなモデル内で既に利用されている可能性さえあります。
OpenAIのチーフリサーチオフィサーであるMark Chenが説明したように、「推論を構築するためには知識が必要です。モデルは盲目的に進んで、ゼロから推論を学ぶことはできません。したがって、私たちはこれらの2つのパラダイムがかなり相補的であると考えており、それらはお互いにフィードバックループを持っていると考えています。」
したがって、GPT-4.5の開発は、行き詰まりではなく、大規模言語モデルの継続的な進化における戦略的なステップを表しています。これはAI研究の反復的な性質を証明するものであり、各ステップは、たとえ単独では目立たなくても、より有能で汎用性の高いAIシステムに向けたより広範な進歩に貢献します。焦点は現在、この強力な知識基盤を活用して、情報を想起するだけでなく、前例のない効果で推論し、問題を解決できるモデルを構築することに移っています。真にインテリジェントなAIへの道のりは続いており、GPT-4.5は、その評価が分かれているにもかかわらず、その道のりにおいて重要な役割を果たしています。
焦点は、モデルがどれだけ知っているかだけでなく、その知識をどれだけうまく使えるかにあります。これは、AIコミュニティが取り組んでいる中心的な課題であり、GPT-4.5は、完璧な解決策ではありませんが、将来のブレークスルーのための貴重な洞察と強固な基盤を提供します。今後の道は、既存の技術の改良、新しいアーキテクチャの探求、そしてトレーニングと評価のためのより洗練された方法の開発など、さまざまなアプローチの組み合わせを含みます。最終的な目標は変わりません。それは、人間の言語を理解し生成するだけでなく、かつては人間の知性の独占的な領域と考えられていた方法で推論し、学習し、適応できるAIシステムを作成することです。