拥有 Facebook、Instagram 和 WhatsApp 的科技巨头 Meta Platforms 通过推出其 Llama 4 系列,显著提升了其在人工智能领域的地位。此次发布标志着该公司颇具影响力的 Llama 开放模型家族的下一次迭代,表明其持续致力于在 AI 发展前沿竞争,并可能重塑行业内的竞争格局。此次发布推出了三款独特的模型,每款都设计有特定的功能和计算架构,旨在满足从通用聊天功能到复杂数据处理任务的广泛应用需求。
Llama 4 家族介绍:Scout、Maverick 和 Behemoth
Llama 4 世代的首批发布包括三个特别命名的模型:Llama 4 Scout、Llama 4 Maverick 以及仍在开发中的 Llama 4 Behemoth。Meta 表示,这些模型的基础是包含大量未标记文本、图像和视频内容的广泛训练数据集。这种多模态训练方法旨在赋予模型复杂且’广泛的视觉理解’能力,将其能力扩展到纯文本交互之外。
Llama 4 的发展轨迹似乎受到了快速发展的 AI 领域内竞争压力的影响。有报道称,国际 AI 实验室(特别提到中国的 DeepSeek 实验室)开放模型的出现及其显著效率,促使 Meta 加速了自身的开发工作。据了解,Meta 投入了大量资源,可能成立了专门的团队或’作战室’,以分析和理解像 DeepSeek 这样的竞争对手所采用的方法论,特别关注那些成功降低运行和部署先进 AI 模型计算成本的技术。这种竞争暗流凸显了主要科技公司和研究机构之间在实现 AI 性能和运营效率突破方面的激烈竞赛。
新的 Llama 4 系列的可访问性各不相同。Scout 和 Maverick 正通过既定渠道向开发者社区和公众开放,包括 Meta 自己的 Llama.com 门户网站和合作伙伴平台,如广泛使用的 AI 开发中心 Hugging Face。这种开放性凸显了 Meta 围绕其 Llama 模型构建更广泛生态系统的战略。然而,被定位为当前系列中最强大模型的 Behemoth 仍在开发中,尚未发布供普遍使用。与此同时,Meta 正在将这些新功能集成到其面向用户的产品中。该公司宣布,其专有的 AI 助手 Meta AI(在其 WhatsApp、Messenger 和 Instagram 等应用套件中运行)已升级,以利用 Llama 4 的强大功能。这项集成正在四十个国家推广,尽管先进的多模态功能(结合文本、图像和其他可能的数据类型)最初仅限于美国的英语用户。
驾驭许可环境
尽管强调了部分模型的开放性,但 Llama 4 的部署和使用受到特定许可条款的约束,这可能给某些开发者和组织带来障碍。一个显著的限制明确禁止总部设在或主要营业地点位于欧盟的用户和公司使用或分发 Llama 4 模型。这一地域限制很可能是欧盟全面的 AI Act 和现有的 GDPR 等数据隐私法规所强制要求的严格治理要求的直接后果。应对这些复杂的监管框架似乎是影响 Meta 在该地区部署策略的一个重要考虑因素。
此外,与之前 Llama 迭代的许可结构相呼应,Meta 对大型企业施加了一个条件。用户基数超过 7 亿月活跃用户的公司必须直接向 Meta 正式申请特殊许可。关键在于,授予或拒绝此许可的决定完全由 Meta ‘自行决定’。这一条款有效地让 Meta 控制了其最先进的模型如何被潜在的竞争性大型科技公司利用,尽管 Llama 生态系统的部分内容具有’开放’性质,但仍保持了一定程度的战略监督。这些许可细微之处突显了在高风险的 AI 领域,促进开放创新与保留战略控制之间复杂的相互作用。
在伴随发布的官方通讯中,Meta 将 Llama 4 的发布定位为一个关键时刻。’这些 Llama 4 模型标志着 Llama 生态系统新纪元的开始,’该公司在一篇博客文章中表示,并补充道,’这仅仅是 Llama 4 系列的开端。’这一前瞻性的声明暗示了 Llama 4 世代持续发展和扩展的路线图,将此次发布定位为 AI 持续进步征程中的一个重要里程碑,而非终点。
架构创新:专家混合 (MoE) 方法
区分 Llama 4 系列的一个关键技术特征是其采用了专家混合 (Mixture of Experts, MoE) 架构。Meta 强调这是 Llama 家族中首个利用这种特定设计范式的模型系列。MoE 方法代表了大型语言模型结构和训练方式的重大转变,在计算效率方面提供了显著优势,无论是在资源密集型的训练阶段,还是在响应用户查询的操作阶段。
在其核心,MoE 架构通过将复杂的数据处理任务分解为更小、更易于管理的子任务来运作。然后,这些子任务被智能地路由或委托给一组更小的、专门化的神经网络组件,称为’专家’。每个专家通常被训练成擅长处理特定类型的数据或任务。架构中的门控机制决定哪个专家或专家组合最适合处理输入数据或查询的特定部分。这与传统的密集模型架构形成对比,后者是整个模型处理输入的每个部分。
效率的提升源于这样一个事实:对于任何给定的任务,只有模型总参数的一个子集(属于所选专家的’活动’参数)被调用。与激活整个庞大密集模型的全部参数相比,这种选择性激活显著降低了计算负载。
Meta 提供了具体的细节来说明这种架构的实际应用:
- Maverick:该模型拥有高达 4000 亿的总参数量。然而,得益于包含 128 个不同’专家’的 MoE 设计,在处理过程中任何给定时间只有 170 亿参数处于活动状态。参数通常被视为模型学习能力和解决问题复杂性的粗略代表。
- Scout:结构类似,Scout 拥有 1090 亿总参数,分布在 16 个’专家’中,导致与 Maverick 相同的 170 亿活动参数。
这种架构选择使 Meta 能够构建具有巨大整体容量(高总参数量)的模型,同时保持推理(查询处理)的可管理计算需求,使它们在规模化部署和运营方面可能更具实用性。
性能基准和模型专业化
Meta 将其新模型定位在具有竞争力的水平,发布了内部基准测试结果,将 Llama 4 与来自 OpenAI、Google 和 Anthropic 等竞争对手的著名模型进行了比较。
Maverick 被 Meta 指定为最适合’通用助手和聊天’应用的模型,包括创意写作和代码生成等任务,据报道在特定基准测试中表现优于 OpenAI 的 GPT-4o 和 Google 的 Gemini 2.0 等模型。这些基准涵盖了编码能力、逻辑推理、多语言能力、处理长序列文本(长上下文)和图像理解等领域。然而,Meta 自己的数据表明,Maverick 并非在所有方面都持续超越目前可用的最新、最强大的模型,例如 Google 的 Gemini 2.5 Pro、Anthropic 的 Claude 3.7 Sonnet 或 OpenAI 预期的 GPT-4.5。这表明 Maverick 的目标是在高性能层级中占据强势地位,但可能无法在所有指标上与竞争对手最新的旗舰模型相比,宣称绝对领先。
另一方面,Scout 则针对不同的优势进行了定制。其能力在涉及总结大量文档和对大型复杂代码库进行推理的任务中得到突出体现。Scout 一个特别独特且决定性的特点是其异常庞大的上下文窗口,能够处理多达 1000 万个 token。Token 是语言模型处理文本或代码的基本单位(例如,一个单词可能被分解为几个 token,如’理-解’)。1000 万 token 的上下文窗口实际上意味着能够同时吸收和处理海量信息——可能相当于数百万字或整个代码库。这使得 Scout 能够在极长的文档或复杂的编程项目中保持连贯性和理解力,这对上下文窗口较小的模型来说是一项挑战。它还可以在处理这庞大的文本输入的同时处理图像。
运行这些模型的硬件要求反映了它们的规模和架构。根据 Meta 的估计:
- Scout 相对高效,能够在单块高端 Nvidia H100 GPU 上运行。
- Maverick 尽管具有 MoE 带来的效率,但其总参数量更大,需要更强大的资源,需要一个 Nvidia H100 DGX 系统(通常包含多个 H100 GPU)或同等的计算能力。
即将推出的 Behemoth 模型预计将需要更强大的硬件基础设施。Meta 透露,Behemoth 设计有 2880 亿活动参数(总参数接近两万亿,分布在 16 个专家中)。初步的内部基准测试显示,Behemoth 在多项侧重于 STEM(科学、技术、工程和数学)技能的评估中,表现优于 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Pro 等模型(但值得注意的是,并未超越更先进的 Gemini 2.5 Pro),特别是在复杂的数学问题解决等领域。
然而,值得注意的是,目前已宣布的 Llama 4 模型中没有一款是明确设计成像 OpenAI 正在开发的 o1 和 o3-mini 概念那样的’推理’模型。这些专门的推理模型通常包含内部事实核查和对其答案进行迭代优化的机制,从而可能产生更可靠和准确的响应,尤其对于事实性查询。其代价通常是延迟增加,意味着它们生成响应所需的时间比 Llama 4 系列中更传统的大型语言模型要长,后者优先考虑更快的生成速度。
调整对话边界:争议性话题
Llama 4 发布中一个有趣的方面涉及 Meta 对模型响应行为的刻意调整,特别是在敏感或有争议的主题方面。该公司明确表示,与 Llama 3 系列的前辈相比,它已调整 Llama 4 模型,使其更不容易拒绝回答’有争议的’问题。
根据 Meta 的说法,Llama 4 现在更倾向于参与讨论’有争议的’政治和社会话题,而之前的版本可能会回避或提供通用的拒绝。此外,该公司声称 Llama 4 在其完全拒绝参与的提示类型方面表现出’显著更平衡’的方式。其宣称的目标是提供有帮助且基于事实的回答,而不强加判断。
一位 Meta 发言人向 TechCrunch 详细阐述了这一转变,表示:’你可以指望 [Llama 4] 提供有帮助的、基于事实的回应,而无需评判……我们正在继续让 Llama 反应更灵敏,以便它能回答更多问题,能够回应各种不同的观点 […] 并且不偏袒某些观点。’
这一调整发生在公众和政治界持续辩论人工智能系统中感知到的偏见的背景下。某些政治派别和评论员,包括与 Trump 政府有关的知名人士如 Elon Musk 和风险投资家 David Sacks,曾指责流行的人工智能聊天机器人表现出政治偏见,通常被描述为’woke’(觉醒),据称审查保守派观点或以偏向自由派的角度呈现信息。例如,Sacks 过去曾特别批评 OpenAI 的 ChatGPT,声称它被’编程为 woke’,在政治问题上不可靠。
然而,在技术社区内,实现真正的中立性和消除 AI 偏见的挑战被广泛认为是一个极其复杂且持久的问题(’棘手问题’)。AI 模型从它们训练所用的海量数据集中学习模式和关联,而这些数据集不可避免地反映了其中包含的人类生成的文本和图像中存在的偏见。即使是明确以此为目标的公司,创造完全无偏见或政治中立的 AI 的努力也已被证明是困难的。据报道,Elon Musk 自己的 AI 企业 xAI 在开发避免认可某些政治立场而非其他立场的聊天机器人方面也面临挑战。
尽管存在固有的技术困难,但包括 Meta 和 OpenAI 在内的主要 AI 开发商的趋势似乎正朝着调整模型以减少对争议性话题的回避方向发展。这涉及到仔细校准安全过滤器和响应指南,以允许与比以前允许的更广泛的问题进行互动,同时仍试图减轻有害或明显带有偏见内容的生成。这种微调反映了 AI 公司必须在促进开放讨论、确保用户安全以及应对围绕其强大技术的复杂社会政治期望之间进行的微妙平衡。Llama 4 的发布,及其明确声明的在处理争议性查询方面的调整,代表了 Meta 在驾驭这一复杂格局中的最新一步。