MetaのLlamaは、当初LLaMA (Large Language Model Meta AI)として知られており、2023年2月に登場し、大規模言語モデル (LLM) の競争の激しい世界へのMetaの参入を示しました。2023年7月のLlama 2のリリースは、Metaがオープンな寛容ライセンスを採用し、アクセスを民主化し、広範な採用を促進したため、画期的な出来事でした。継続的な改良と複数のイテレーションを通じて、Llamaは着実にその機能を強化し、OpenAI、Anthropic、Googleなどの業界の巨人の中でその地位を確立しました。
Llamaファミリーは、2025年4月5日に、Llama 4 herdとも呼ばれるLlama 4モデルファミリーの導入によりさらに拡大し、多modal LLMの新しい時代を告げました。
Meta Llama 4とは?
Meta Llama 4は、LLMテクノロジーの大きな飛躍を表しており、テキスト、画像、ビデオデータを処理および解釈できる多modal機能を誇っています。この第4世代モデルは、世界中の多数の言語をサポートすることにより、言語の壁を超越します。
Llama 4モデルの主要な革新は、Llamaファミリー初のmixture-of-expertsアーキテクチャの採用です。このアーキテクチャは、入力トークンごとに総パラメーターのサブセットのみを動的にアクティブ化し、パワーと効率の調和のとれたバランスを実現します。
Llama 4コミュニティライセンスは、オープンソースイニシアチブが承認したライセンスとして公式に認められていませんが、MetaはそのLlama 4モデルをオープンソースとして特徴付けています。このライセンスは、特定の制限に従い、Llama 4モデルへの無料の使用および変更の権利を付与します。2025年4月の時点で、制限は月間7億人のユーザーに制限されており、それを超えると商用ライセンスが必要になります。
Llama 4ラインナップは、Scout、Maverick、Behemothの3つの主要バージョンで構成されています。ScoutとMaverickは同時に発売されましたが、Behemothはまだ開発中です。これらのモデルは、その仕様において大きく異なります。
- Llama 4 Scout: 170億のアクティブパラメーター、16人のエキスパート、1090億の総パラメーター、1000万トークンのコンテキストウィンドウ、および2024年8月の知識カットオフを備えています。
- Llama 4 Maverick: 170億のアクティブパラメーターも備えていますが、128人のエキスパート、4000億の総パラメーター、100万トークンのコンテキストウィンドウ、およびScoutと同じ知識カットオフを誇っています。
- Llama 4 Behemoth: 3つのうちで最も強力で、2880億のアクティブパラメーター、16人のエキスパート、2兆の総パラメーター、および指定されていないコンテキストウィンドウと知識カットオフを備えています。
Meta Llama 4の機能
Meta Llama 4モデルは、次のような多様なアプリケーションのスペクトルをアンロックします。
- ネイティブ多modal: テキスト、画像、ビデオを同時に理解する能力。これにより、モデルは多様な情報源からコンテキストと意味を引き出すことができます。
- コンテンツ要約: Llama 4モデルは、さまざまなコンテンツタイプから情報を効率的に凝縮できます。これは、多modal理解の重要な側面です。たとえば、モデルはビデオを分析し、主要なシーンを抽出し、コンテンツの簡潔な要約を生成できます。
- ロングコンテキスト処理: Llama 4 Scoutは、その広大な1000万トークンのコンテキストウィンドウによって促進され、大量の情報を処理するように特別に設計されています。この機能は、広範な研究論文の分析や長いドキュメントの処理などのタスクに非常に役立ちます。
- 多言語modal: すべてのLlama 4モデルは多言語能力を示し、テキスト処理のために幅広い言語をサポートしています。アラビア語、英語、フランス語、ドイツ語、ヒンディー語、インドネシア語、イタリア語、ポルトガル語、スペイン語、タガログ語、タイ語、ベトナム語。ただし、画像の理解は現在英語に限定されています。
- テキスト生成: Llama 4モデルは、創造的な文章の取り組みを含む、一貫性があり、文脈に関連するテキストの生成に優れています。モデルはさまざまな書き方スタイルに適応し、人間品質のテキストを生成できます。
- 高度な推論: これらのモデルは、複雑な科学的および数学的問題を通じて推論する能力を備えています。それらは複雑なロジックを解読し、正確な結論に到達することができます。
- コード生成: Llama 4は、アプリケーションコードを理解および生成することができ、開発者がワークフローを合理化するのを支援します。モデルは、コードスニペットを生成し、関数を完了し、アプリケーション全体を開発することもできます。
- ベースモデル機能: オープンモデルとして、Llama 4は派生モデルの開発の基礎要素として機能します。研究者と開発者は、特定のタスクのためにLlama 4を微調整し、既存の機能を活用して特別なアプリケーションを構築できます。
Meta Llama 4のトレーニング方法
Metaは、第4世代のLlamaファミリーLLMをトレーニングするために、一連の高度な技術を採用し、以前のバージョンと比較して精度とパフォーマンスを向上させることを目指しました。これらのテクニックには、以下が含まれます。
- トレーニングデータ: LLMの基礎となるのはそのトレーニングデータであり、Metaは、より多くのデータがより良いパフォーマンスにつながることを認識していました。この目的のために、Llama 4は30兆以上のトークンでトレーニングされました。これは、Llama 3のトレーニングに使用されたデータの量の2倍です。
- 初期融合多modal: Llama 4シリーズは、テキストとビジョントークンを統合されたモデルに統合する「初期融合」アプローチを採用しました。Metaによると、このアプローチは、視覚情報とテキスト情報の間のより自然な理解を促進し、個別のエンコーダーとデコーダーの必要性を排除します。
- ハイパーパラメータ最適化: この手法には、レイヤーごとの学習率などの重要なモデルハイパーパラメータを微調整して、より信頼性が高く一貫性のあるトレーニング結果を実現することが含まれます。これらのパラメータを最適化することにより、MetaはLlama 4の全体的な安定性とパフォーマンスを向上させることができました。
- iRoPEアーキテクチャ: ポジショナルエンベディングのないインターリーブアテンションレイヤーアーキテクチャ、またはiRoPEアーキテクチャは、トレーニング中の長いシーケンスの処理を強化し、Llama 4 Scoutで1000万トークンのコンテキストウィンドウを容易にします。このアーキテクチャにより、モデルは入力シーケンスの離れた部分から情報を保持できるため、より長く複雑なドキュメントを処理できます。
- MetaCLIP Vision Encoder: 新しいMeta vision encoderは、画像をトークン表現に変換し、多modal理解を向上させます。このエンコーダーにより、Llama 4は視覚情報を効果的に処理および解釈できます。
- GOAT安全性トレーニング: Metaは、トレーニング全体でGenerative Offensive Agent Tester (GOAT) を実装し、LLMの脆弱性を特定し、モデルの安全性を向上させました。この手法は、モデルが有害または偏ったコンテンツを生成するリスクを軽減するのに役立ちます。
Llamaモデルの進化
2022年11月のChatGPTの画期的なローンチに続いて、業界全体の企業がLLM市場での足場を確立するために競争しました。Metaは初期の対応者の1つであり、2023年初めに最初のLlamaモデルを導入しましたが、アクセスは制限されていました。2023年半ばのLlama 2のリリース以降、後続のすべてのモデルはオープンライセンスで利用可能になりました。
- Llama 1: 2023年2月にローンチされたオリジナルのLlamaモデルで、アクセスは制限されていました。
- Llama 2: 2023年7月にオープンライセンスの最初のLlamaモデルとしてリリースされたLlama 2は、無料のアクセスと使用を提供しました。このイテレーションには、多様な計算ニーズに対応する7B、13B、70Bパラメーターバージョンが含まれていました。
- Llama 3: Llama 3モデルは2024年4月にデビューし、最初は8Bおよび70Bパラメーターバージョンがありました。
- Llama 3.1: 2024年7月にローンチされたLlama 3.1は、405Bパラメーターモデルを追加し、LLM機能の境界を押し広げました。
- Llama 3.2: Metaの最初の完全に多modal LLMであるこのモデルは、2024年10月にリリースされ、Llamaファミリーの進化における重要なマイルストーンとなりました。
- Llama 3.3: Metaは2024年12月のリリースで、Llama 3.3の70Bバリアントは3.1の405Bバリアントと同じパフォーマンスを提供すると主張しましたが、必要な計算リソースは少なく、継続的な最適化の取り組みを示しています。
Llama 4と他のモデルの比較
生成AIの状況はますます競争が激しくなっており、OpenAIのGPT-4o、Google Gemini 2.0、DeepSeekなどのさまざまなオープンソースプロジェクトなどの著名なプレーヤーが登場しています。
Llama 4のパフォーマンスは、以下を含むいくつかのベンチマークを使用して評価できます。
- MMMU (Massive Multi-discipline Multimodal Understanding): 画像推論機能を評価します。
- LiveCodeBench: コーディングの熟練度を評価します。
- GPQA Diamond (Graduate-Level Google-Proof Q&A Diamond): 推論と知識を測定します。
これらのベンチマークのスコアが高いほど、パフォーマンスが向上していることを示します。
Llama 4 Maverick | Gemini 2.0 Flash | GPT-4o | |
---|---|---|---|
MMMU画像推論 | 73.4 | 71.7 | 69.1 |
LiveCodeBench | 43.4 | 34.05 | 32.3 |
GPQA Diamond | 69.8 | 60.1 | 53.6 |
これらのベンチマークは、Llama 4 Maverickの画像推論、コーディング、および一般的な知識における強みを強調し、LLMアリーナの強力な競争相手として位置付けています。
Llama 4へのアクセス
Meta Llama 4 MaverickとScoutは、さまざまなチャネルを通じて簡単に利用できます。
- Llama.com: Metaが運営するllama.com Webサイトから、ScoutとMaverickを無料で直接ダウンロードします。
- Meta.ai: Meta.ai Webインターフェイスは、Llama 4へのブラウザーベースのアクセスを提供し、ローカルインストールを必要とせずに、ユーザーがモデルと対話できるようにします。
- Hugging Face: Llama 4は、機械学習モデルの共有と発見のための人気のあるプラットフォームであるhttps://huggingface.co/meta-llamaでもアクセスできます。
- Meta AI App: Llama 4は、MetaのAI仮想アシスタントを搭載しており、さまざまなプラットフォームで音声またはテキストを介してアクセスできます。ユーザーはアシスタントを活用して、テキストの要約、コンテンツの生成、質問への回答などのタスクを実行できます。