Meta的Llama,最初名为LLaMA (Large Language Model Meta AI),于2023年2月首次亮相,标志着Meta进军竞争激烈的大型语言模型 (LLMs) 领域。2023年7月发布的Llama 2是一个改变游戏规则的产品,因为Meta采用了开放许可授权,普及了访问并促进了广泛采用。通过持续的改进和多次迭代,Llama稳步增强了其能力,巩固了其在OpenAI、Anthropic和Google等行业巨头中的地位。
Llama家族于2025年4月5日进一步扩展,推出了Llama 4模型系列,也被称为Llama 4集群,预示着多模态LLM的新纪元。
什么是Meta Llama 4?
Meta Llama 4代表了LLM技术的重大飞跃,拥有多模态能力,使其能够处理和解释文本、图像和视频数据。这款第四代模型通过支持来自世界各地的众多语言,超越了语言障碍。
Llama 4模型的一个关键创新是采用了混合专家架构,这在Llama家族中尚属首次。这种架构为每个输入token动态激活总参数的一个子集,从而在功率和效率之间实现和谐的平衡。
虽然Llama 4社区许可证未被正式认可为开放源代码倡议批准的许可证,但Meta将其Llama 4模型描述为开源。该许可证授予Llama 4模型的免费使用和修改权,但受某些限制。截至2025年4月,该限制上限为每月7亿用户,超过该限制则需要商业许可证。
Llama 4系列包括三个主要版本:Scout、Maverick和Behemoth。Scout和Maverick同时发布,而Behemoth仍在开发中。这些模型在规格上差异很大:
- Llama 4 Scout: 具有170亿个活动参数、16个专家、1090亿个总参数、1000万token的上下文窗口以及2024年8月的知识截止日期。
- Llama 4 Maverick: 也具有170亿个活动参数,但拥有128个专家、4000亿个总参数、100万token的上下文窗口以及与Scout相同的知识截止日期。
- Llama 4 Behemoth: 三者中最强大的,具有2880亿个活动参数、16个专家、2万亿个总参数以及未指定的上下文窗口和知识截止日期。
Meta Llama 4的功能
Meta Llama 4模型解锁了各种各样的应用程序,包括:
- 原生多模态: 同时理解文本、图像和视频的能力。这使模型能够从不同的信息来源中获得上下文和意义。
- 内容摘要: Llama 4模型可以有效地浓缩来自各种内容类型的信息,这是多模态理解的关键方面。例如,该模型可以分析视频,提取关键场景,并生成内容的简洁摘要。
- 长上下文处理: Llama 4 Scout经过专门设计,可以处理大量信息,这得益于其1000万token的广阔上下文窗口。此功能对于分析广泛的研究论文或处理冗长的文档等任务非常宝贵。
- 多语言模态: 所有Llama 4模型都表现出多语言能力,支持多种语言进行文本处理:阿拉伯语、英语、法语、德语、印地语、印度尼西亚语、意大利语、葡萄牙语、西班牙语、塔加路语、泰语和越南语。但是,图像理解目前仅限于英语。
- 文本生成: Llama 4模型擅长生成连贯且上下文相关的文本,包括创意写作。该模型可以适应各种写作风格并生成人类质量的文本。
- 高级推理: 这些模型具有推理复杂的科学和数学问题的能力。他们可以破译复杂的逻辑并得出准确的结论。
- 代码生成: Llama 4能够理解和生成应用程序代码,从而帮助开发人员简化其工作流程。该模型可以生成代码片段、完成函数,甚至开发整个应用程序。
- 基础模型功能: 作为开放模型,Llama 4是开发衍生模型的基础元素。研究人员和开发人员可以针对特定任务微调Llama 4,从而利用其现有功能来构建专门的应用程序。
Meta Llama 4的训练方法
Meta采用了一套先进的技术来训练其第四代Llama家族LLM,旨在提高与早期版本相比的准确性和性能。这些技术包括:
- 训练数据: 任何LLM的基石都是其训练数据,Meta认识到更多的数据转化为更好的性能。为此,Llama 4在超过30万亿个token上进行了训练,是用于训练Llama 3的数据量的两倍。
- 早期融合多模态: Llama 4系列采用了"早期融合"方法,该方法将文本和视觉token集成到统一的模型中。Meta认为,这种方法可以促进视觉和文本信息之间更自然的理解,从而消除了对单独的编码器和解码器的需求。
- 超参数优化: 该技术涉及微调关键模型超参数,例如每层学习率,以实现更可靠和一致的训练结果。通过优化这些参数,Meta能够提高Llama 4的整体稳定性和性能。
- iRoPE架构: 交叉注意层没有位置嵌入架构,即iRoPE架构,可增强训练期间对长序列的处理,并有助于Llama 4 Scout中1000万token的上下文窗口。该架构允许模型保留来自输入序列远端的信息,从而使其能够处理更长和更复杂的文档。
- MetaCLIP视觉编码器: 新的Meta视觉编码器将图像转换为token表示形式,从而改善了多模态理解。该编码器使Llama 4能够有效地处理和解释视觉信息。
- GOAT安全训练: Meta在整个训练过程中实施了生成式攻击代理测试仪 (GOAT),以识别LLM漏洞并提高模型安全性。此技术有助于降低模型生成有害或有偏见内容的风险。
Llama模型的演变
继ChatGPT于2022年11月突破性发布之后,整个行业的公司竞相在LLM市场上站稳脚跟。Meta是最早做出回应的公司之一,于2023年初推出了其最初的Llama模型,尽管访问受到限制。从2023年中期发布Llama 2开始,所有后续模型均已在开放许可下提供。
- Llama 1: 最初的Llama模型,于2023年2月发布,访问权限有限。
- Llama 2: Llama 2于2023年7月发布,是第一个具有开放许可的Llama模型,Llama 2提供免费访问和使用。此迭代包括7B、13B和70B参数版本,可满足各种计算需求。
- Llama 3: Llama 3模型于2024年4月首次亮相,最初具有8B和70B参数版本。
- Llama 3.1: Llama 3.1于2024年7月发布,增加了一个405B参数模型,从而突破了LLM功能的界限。
- Llama 3.2: 该模型是Meta的第一个完全多模态LLM,于2024年10月发布,标志着Llama系列发展中的一个重要里程碑。
- Llama 3.3: Meta在其2024年12月发布时声称,Llama 3.3的70B变体提供了与3.1的405B变体相同的性能,同时需要更少的计算资源,这展示了持续的优化工作。
Llama 4与其他模型的比较
生成式AI的格局正变得越来越有竞争力,其中包括OpenAI的GPT-4o、Google Gemini 2.0以及包括DeepSeek在内的各种开源项目等知名参与者。
可以使用多个基准评估Llama 4的性能,包括:
- MMMU (Massive Multi-discipline Multimodal Understanding): 评估图像推理能力。
- LiveCodeBench: 评估编码能力。
- GPQA Diamond (Graduate-Level Google-Proof Q&A Diamond): 衡量推理和知识。
在这些基准测试中获得更高的分数表明性能更好。
Llama 4 Maverick | Gemini 2.0 Flash | GPT-4o | |
---|---|---|---|
MMMU 图像推理 | 73.4 | 71.7 | 69.1 |
LiveCodeBench | 43.4 | 34.05 | 32.3 |
GPQA Diamond | 69.8 | 60.1 | 53.6 |
这些基准测试突出了Llama 4 Maverick在图像推理、编码和通用知识方面的优势,使其成为LLM领域中的强大竞争者。
访问Llama 4
Meta Llama 4 Maverick和Scout可以通过多种渠道轻松获得:
- Llama.com: 直接从Meta运营的llama.com网站免费下载Scout和Maverick。
- Meta.ai: Meta.ai Web界面提供基于浏览器的Llama 4访问权限,允许用户与模型进行交互,而无需任何本地安装。
- Hugging Face: Llama 4也可以在https://huggingface.co/meta-llama上访问,这是一个用于共享和发现机器学习模型的流行平台。
- Meta AI App: Llama 4为Meta的AI虚拟助手提供支持,可以通过语音或文本在各种平台上访问。用户可以利用该助手执行诸如总结文本、生成内容和回答问题之类的任务。