MetaのLlama:最先端から企業向け定番へ?

MetaのLlama大規模言語モデル(LLM)の軌跡は、人工知能コミュニティ内で激しい精査と議論の対象となっています。 Llama 3とLlama 4のリリース間隔は約1年でしたが、これは急速に進化するAIの状況においては永遠にも等しい時間です。 当初はOpenAIの製品のようなプロプライエタリモデルに対する画期的なオープンソースの代替手段として歓迎されましたが、最近の開発により、LlamaがAIイノベーションの最先端における関連性を疑問視する声も出てきており、認識の変化が示唆されています。

LlamaConの失望と変化する期待

MetaのオープンソースLLMに特化した初のカンファレンスであるLlamaConでは、期待外れ感が漂っていました。 参加した複数の開発者は、高度な推論モデル、または少なくともDeepSeekのV3やAlibabaのクラウドコンピューティング部門が開発した一連のモデルであるQwenなどの競合他社を上回る従来のモデルの発表を期待していたと打ち明けました。

そのような発表がなかったため、LlamaがAIの覇権争いで地位を失っているのではないかという懸念が高まりました。 カンファレンスのわずか1か月前に、MetaはオープンウェイトモデルのLlama 4 ScoutとLlama 4 Maverickを含む、第4世代のLlamaファミリーを発表していました。 Scoutは単一のGPUで効率的なパフォーマンスを実現するように設計され、Maverickは他の基盤モデルに匹敵するより大きなモデルとして設計されました。

ScoutとMaverickに加えて、Metaはまだトレーニング中の大幅に大きな「ティーチャーモデル」であるLlama 4 Behemothのプレビューを提供しました。 Behemothの目的は、蒸留を促進することです。これは、より大きく、より一般的なモデルから、より小さく、特殊化されたモデルを作成するための技術です。

しかし、Behemothのリリースが遅れ、Llama 4スイートで競争力のあるパフォーマンスを達成するのが困難であるという報告が浮上しました。 Metaが最先端の機能を主張しているにもかかわらず、一部の開発者の間では、Llamaがもはや最前線をリードしていないという認識がありました。

競合他社の台頭:QwenとDeepSeek

LlamaConとLlama 4モデルをめぐる失望は、MetaのオープンソースLLMが技術的なパフォーマンスと開発者の熱意の両方で勢いを失っているという広範な感情を反映しています。 Metaはオープンソースの原則、エコシステム構築、イノベーションへの取り組みを強調していますが、DeepSeek、Qwen、OpenAIなどの競合他社は、推論、ツール使用、実世界への展開などの重要な分野で急速に進歩しています。

開発者のVineeth Sai Varikuntla氏は、Llamaが一般的なユースケースと推論においてQwenとDeepSeekを上回ることを期待していたが、Qwenが大幅に進んでいることに気づき、失望を表明しました。

この感情は、Metaが主要なオープンソースLLMとしてのLlamaの地位を維持する上で直面している課題を浮き彫りにしています。 Llamaの最初のリリースは大きな注目と称賛を集めましたが、ますます高性能な代替手段の出現により、競争環境が激化しています。

前途有望なスタート:Llama 2の影響

Llamaをめぐる現在の物語を完全に理解するには、その起源とそれが生み出した最初の興奮を思い出すことが不可欠です。 2023年、NvidiaのCEOであるJensen Huang氏は、Llama 2の発売をその年の「おそらくAIにおける最大の出来事」と賞賛しました。 2024年7月までに、Llama 3のリリースは、OpenAIの優位性に挑戦できる最初のオープンLLMを表す画期的なものと見なされました。

SemiAnalysisのチーフアナリストであるDylan Patel氏によると、Llama 3の登場はコンピューティングパワーの需要の急増を引き起こし、GPUのレンタル価格の上昇につながりました。 この期間中に「Meta」と「Llama」のGoogle検索もピークに達し、新しいモデルへの広範な関心が示されました。

Llama 3は、アメリカ製のオープンでトップクラスのLLMとして称賛されました。 一貫して業界ベンチマークでトップになったわけではありませんが、AIコミュニティ内でかなりの影響力と関連性を行使しました。 しかし、このダイナミクスは徐々に変化してきました。

アーキテクチャの変化と批判

Llama 4モデルは、DeepSeekによって普及した設計である「エキスパートの混合」アーキテクチャを導入しました。 このアーキテクチャにより、モデルは特定のタスクに最も関連性の高い専門知識のみをアクティブにできるため、効率が向上します。

しかし、Llama 4のリリースは、パブリックベンチマークに使用されたバージョンがダウンロードおよび展開できるバージョンと異なると開発者が発見した際に批判を受けました。 この矛盾は「リーダーボードのゲーム化」の告発につながり、Metaは異議を唱え、問題のバリアントは実験的なものであり、モデルの複数のバージョンを評価することは標準的な慣行であると述べました。

Metaの説明にもかかわらず、この論争はLlamaが競争力を維持するのに苦労しているという認識に貢献しました。 競合モデルが進歩し続けるにつれて、Metaは明確な方向性を欠いているように見えました。

開発者の採用状況の測定:複雑なタスク

どのLLMファミリーが開発者の間で最も人気があるかを判断するのは困難なタスクです。 ただし、利用可能なデータは、 Llamaの最新モデルがトップクラスではないことを示唆しています。

特に、Qwenはインターネット上のさまざまなリーダーボードで一貫して上位にランク付けされています。 パフォーマンスに基づいてモデルをランク付けするサイトであるArtificial Analysisによると、Llama 4 MaverickとScoutは、OpenAIのGPT-4モデル(前年末にリリース)の真上に位置し、xAIのGrokとAnthropicのClaudeよりもインテリジェンスの点で下位に位置しています。

さまざまなモデルへのアクセスを開発者に提供し、APIの使用状況に基づいてリーダーボードを公開するプラットフォームであるOpenRouterは、5月上旬の時点で上位20モデルの中にLlama 3.3が存在するものの、Llama 4は存在しないことを示しています。

これらのデータポイントは決定的ではありませんが、 Llamaの最新のイテレーションが以前のモデルほど開発者の共感を呼んでいないことを示唆しています。

ベンチマークを超えて:ツール使用と推論

Llama 4の標準的な評価は期待外れだったかもしれませんが、専門家は、意気消沈した熱意は、生パフォーマンスのメトリクス以外の要因に起因すると主張しています。

SemiAnalysisのアナリストであるAJ Kourabi氏は、「ツール呼び出し」と、単純なチャットボット機能を超えて拡張するモデルの能力の重要性を強調しています。 ツール呼び出しとは、モデルがインターネット上またはユーザーのデバイス上の他のアプリケーションにアクセスして指示する能力を指し、旅行の予約や経費の管理などのタスクを自動化することを約束するエージェントAIにとって重要な機能です。

Metaは、LlamaモデルがAPIを介してツール呼び出しをサポートしていると述べています。 しかし、開発者でYouTuberのTheo Browne氏は、エージェントツールが注目を集めているため、ツール呼び出しは最先端の関連性にとって不可欠になっていると主張しています。

Anthropicはツール使用の早期リーダーとして台頭し、OpenAIのようなプロプライエタリモデルも急速に追いついています。 適切な応答を生成するために適切なツールを確実に呼び出す能力は非常に価値があり、OpenAIはこの能力を優先することに焦点を移しています。

Kourabi氏は、強力な推論モデルの欠如は、Metaが後れを取っていることを示す重要な指標であると主張しています。 推論は、エージェントAI方程式の基本的な要素と見なされており、モデルがタスクを分析し、適切な行動方針を決定できるようにします。

Llamaのニッチ:実用的なアプリケーションと企業の採用

AI研究の最前線における地位に関する懸念にもかかわらず、Llamaは多くの開発者や組織にとって依然として貴重なツールです。

RockerBoxのプロダクト責任者であるNate Jones氏は、Llamaに関する知識は将来求められる可能性が高いため、Llamaを履歴書に含めるように開発者にアドバイスしています。

GAI InsightsのCEO兼プリンシパルアナリストであるPaul Baier氏は、特にテクノロジー業界以外の企業にとって、Llamaは多くの企業のAI戦略の重要な要素であり続けると考えています。

企業は、複雑さの低いタスクの処理とコストの制御のために、オープンソースモデルの重要性を認識しており、Llamaはその顕著な例です。 多くの組織は、多様なニーズを満たすために、クローズドモデルとオープンモデルの組み合わせを好みます。

SnowflakeのAI責任者であるBaris Gultekin氏は、顧客はベンチマークだけに頼るのではなく、特定のユースケースに基づいてモデルを評価することが多いと指摘しています。 低コストを考えると、多くのアプリケーションにとってLlamaは十分であることがよくあります。

Snowflakeでは、Llamaは、販売電話のトランスクリプトの要約や、顧客レビューからの構造化された情報の抽出などのタスクに使用されています。 Dremioでは、LlamaはSQLコードを生成し、マーケティングメールを作成します。

Dremioの共同創設者兼チーフプロダクトオフィサーであるTomer Shiran氏は、ほとんどのモデルは基本的なニーズを満たすのに「十分に優れている」ため、特定のモデルがアプリケーションの80%にとって重要ではない可能性があると示唆しています。

多様化する状況:Llamaの役割の固定化

Llamaがある分野でプロプライエタリモデルとの直接的な競争から移行しているかもしれませんが、全体的なAIの状況は多様化しており、Llamaの役割は特定のニッチに固定化されつつあります。

Shiran氏は、ベンチマークはモデルの選択の主な推進力ではなく、ユーザーは独自のユースケースでモデルをテストすることを優先すると強調しています。 顧客のデータに対するモデルのパフォーマンスが最も重要であり、このパフォーマンスは時間とともに変化する可能性があります。

Gultekin氏は、モデルの選択は多くの場合、1回限りのイベントではなく、ユースケース固有の決定であると付け加えています。

Llamaは常に最新の進歩を求める開発者を失う可能性がありますが、実用的なAI搭載ツールの構築に焦点を当てている多くの開発者のサポートを維持しています。

このダイナミクスは、2013年のReactのローンチと2016年のPyTorchの作成に代表されるMetaのより広範なオープンソース戦略と一致しています。 成功したエコシステムを育成することにより、Metaはオープンソース communityの貢献から恩恵を受けています。

Nate Jones氏が観察するように、Zuckerberg氏はMetaのオープンソースイニシアチブから大きな追い風を受けています。