LLM分野におけるGoogleの躍進:勢力図の変化

LLM(大規模言語モデル)の領域では、大きな変革が見られています。Googleが有力なプレーヤーとして台頭し、MetaとOpenAIは目立った課題に直面しています。当初、OpenAIは画期的なGPTモデルでこの分野を席巻し、LLMのパフォーマンスの新たな基準を打ち立てました。Metaも、印象的な性能を誇り、公開されているコードの自由な使用、変更、展開を可能にするオープンウェイトモデルを提供することで、確固たる地位を築きました。

しかし、この初期の優位性により、Googleを含む他のテクノロジー大手は追いつく立場に置かれました。LLMの基盤となるTransformerアーキテクチャに関するGoogleの2017年の重要な研究論文にもかかわらず、同社の初期の取り組みは、2023年のBardの発表に対する広範な批判によって影が薄れていました。

最近、Googleからの強力な新しいLLMの登場と、MetaとOpenAIが経験した失速により、潮目が変わりました。この変化は、LLMの状況の力学を大きく変えました。

MetaのLlama 4:失策か?

4月5日(土)にMetaがLlama 4を予想外にリリースしたことは、業界全体で驚きをもって受け止められました。

主要なモデルを週末に発表するという決定は型破りであると見なされ、発表が鈍い反応を招き、その後の週のニュースの流れの中で埋もれてしまいました。

Llama 4には、マルチモーダル機能(画像、音声、その他のモダリティを処理する機能)や、サイズと強度の異なる3つのバージョン(Llama 4 Behemoth、Maverick、Scout)で利用できることなど、いくつかの強みがありますが、その展開は批判にさらされました。特にLlama 4 Scoutバージョンは、最大1,000万トークンという大規模なコンテキストウィンドウを備えており、モデルは1回のセッションで膨大な量のテキストを処理および生成できます。

しかし、ユーザーの投票に基づいてLLMをランク付けするプラットフォームであるLMArenaでのMetaのランキングアプローチに関して食い違いが明らかになると、モデルの評判は悪化しました。ランキングに使用された特定のLlama 4モデルが、一般に公開されているものとは異なることが判明しました。LMArenaは、Metaが「人間の好みに合わせて最適化されたカスタマイズされたモデル」を提供したと述べています。

さらに、Llama 4 Scoutの1,000万トークンのコンテキストウィンドウに関するMetaの主張は、懐疑的に受け止められました。この数値の技術的な正確さにもかかわらず、ベンチマークでは、Llama 4は長文コンテキストのパフォーマンスで競合モデルに後れを取っていることが明らかになりました。

懸念をさらに増すのは、MetaがLlama 4の「推論」または「思考」モデルをリリースせず、より小さなバリアントを差し控えたことです。ただし、同社は推論モデルが間もなく登場することを示唆しています。

AIコンサルティング会社Gradient Flowの創設者であるBen Lorica氏は、Metaが、すべてのコンポーネントが完全に準備された、より体系的なリリースという標準的な慣行から逸脱したと指摘しました。これは、Metaが、推論モデルやより小さなバージョンなどの重要な要素が不足している場合でも、新しいモデルを披露することに熱心だった可能性があることを示唆しています。

OpenAIのGPT-4.5:時期尚早な撤退

OpenAIもここ数か月で課題に直面しています。

2月27日に研究プレビューとして発表されたGPT-4.5は、同社の「チャットに最適な最大かつ最高のモデル」として宣伝されました。OpenAIのベンチマークは、GPT-4.5が一般的に前モデルのGPT-4oよりも優れていることを示していました。

しかし、モデルの価格設定体系は批判を浴びました。OpenAIは、APIアクセス価格を100万出力トークンあたり150米ドルに設定しました。これは、GPT-4oの100万トークンあたり10米ドルの価格と比較して、15倍という驚異的な増加です。APIを使用すると、開発者はOpenAIモデルをアプリケーションやサービスに統合できます。

ライフアーキテクトのAIコンサルタント兼アナリストであるAlan D. Thompson氏は、GPT-4.5は、2025年の第1四半期にリリースされた最大の従来のLLMである可能性が高く、約5兆4,000億のパラメーターを備えていると推定しました。彼は、このような巨大な規模は、現在のハードウェアの制限を考えると正当化するのが難しく、大規模なユーザーベースに対応する上で大きな課題を提起すると主張しました。

4月14日、OpenAIはAPI経由でのGPT-4.5へのアクセスを3か月足らずで中止することを発表しました。GPT-4.5は引き続きアクセスできますが、ChatGPTインターフェイスを通じてChatGPTユーザーに限定されます。

この発表は、100万トークンあたり8ドルという、より経済的なモデルであるGPT-4.1の導入と一致しました。OpenAIのベンチマークは、GPT-4.1は全体的にGPT-4.5ほど有能ではありませんが、特定のコーディングベンチマークでは優れたパフォーマンスを発揮することを示しています。

OpenAIは最近、新しい推論モデルであるo3とo4-miniもリリースしました。o3モデルは特に強力なベンチマークパフォーマンスを示しています。ただし、o3へのAPIアクセスは100万出力トークンあたり40ドルで価格設定されているため、コストは依然として懸念事項です。

Googleの台頭:機会の獲得

Llama 4とChatGPT-4.5に対する賛否両論の反応は、競合他社が利用する機会を生み出し、彼らはその機会を捉えました。

MetaのLlama 4のトラブルの多いローンチは、開発者がDeepSeek-V3、GoogleのGemma、AlibabaのQwen2.5などの代替案を採用することを思いとどまらせる可能性は低いでしょう。これらのLLMは、2024年後半に導入され、LMArenaおよびHuggingFaceのリーダーボードで好ましいオープンウェイトモデルになっています。それらは一般的なベンチマークでLlama 4に匹敵するか、上回り、手頃な価格のAPIアクセスを提供し、場合によっては、消費者向けのハードウェアでのダウンロードと使用が可能です。

しかし、真に注目を集めたのは、Googleの最先端のLLMであるGemini 2.5 Proです。

3月25日に発売されたGoogle Gemini 2.5 Proは、GPT-o1やDeepSeek-R1と同様の「思考モデル」であり、自己プロンプトを使用してタスクを推論します。Gemini 2.5 Proはマルチモーダルで、100万トークンのコンテキストウィンドウを備え、詳細な調査をサポートします。

Gemini 2.5は急速にベンチマークで勝利を収めており、SimpleBench(ただし4月16日にOpenAIのo3にその地位を譲りました)およびArtificial Analysisの複合AIインテリジェンスインデックスで首位を獲得しました。Gemini 2.5 Proは現在、LMArenaで首位を保持しています。4月14日の時点で、Googleモデルは、Gemini 2.5 Pro、Gemini 2.0の3つのバリアント、Gemma 3-27Bを含め、LMArenaの上位10スロットのうち5つを占めていました。

その印象的なパフォーマンスに加えて、Googleは価格リーダーでもあります。Google Gemini 2.5は現在、GoogleのGeminiアプリとGoogleのAI Studio Webサイトを通じて無料で利用できます。GoogleのAPI価格も競争力があり、Gemini 2.5 Proは100万出力トークンあたり10ドル、Gemini 2.0 Flashはわずか40セントで価格設定されています。

Lorica氏は、大量の推論タスクの場合、DeepSeek-R1またはGoogle Geminiを選択することが多く、OpenAIモデルを使用する場合は価格を慎重に検討する必要があると指摘しています。

MetaとOpenAIが必ずしも崩壊の危機に瀕しているわけではありませんが、OpenAIはChatGPTの人気から恩恵を受けており、ChatGPTは10億人のユーザーを誇っていると報告されています。それにもかかわらず、Geminiの強力なランキングとベンチマークパフォーマンスは、LLMの状況の変化を示しており、現在はGoogleに有利になっています。