Meta的Llama大型语言模型 (LLM) 的发展轨迹一直是人工智能界激烈审视和争论的主题。Llama 3 和 Llama 4 的发布大约相隔一年,这在快速发展的人工智能领域中简直是一个世纪。虽然最初 Llama 被誉为 OpenAI 等专有模型的突破性开源替代方案,但最近的发展表明,人们的看法发生了转变,一些人质疑 Llama 在人工智能创新前沿的持续相关性。
LlamaCon 的失望和转变的期望
在 Meta 专门针对其开源 LLM 举办的首届会议 LlamaCon 上,一种未满足期望的情绪弥漫在整个会场。几位与会开发人员坦言,他们预计会推出一种复杂的推理模型,或者至少是一种能够超越 DeepSeek 的 V3 和 Qwen 等竞争对手的传统模型,后者是阿里巴巴云计算部门开发的一套模型。
缺乏此类公告加剧了人们的担忧,即 Llama 在人工智能霸主地位的竞争中正在失去阵地。就在会议前一个月,Meta 推出了第四代 Llama 系列,包括开放权重模型 Llama 4 Scout 和 Llama 4 Maverick。Scout 专为在单个 GPU 上的高效性能而设计,而 Maverick 设计为更大的模型,可与其它基础模型相媲美。
除了 Scout 和 Maverick 之外,Meta 还展示了 Llama 4 Behemoth 的“先睹为快”,这是一个仍在接受训练的更大的“教师模型”。Behemoth 的目的是促进知识提炼,这是一种从更大、更通用的模型创建更小、更专业的模型的技术。
然而,有报告表明 Behemoth 的发布有所延迟,并且在 Llama 4 套件实现的竞争性能方面存在挑战。尽管 Meta 声称拥有最先进的功能,但一些开发人员的看法是,Llama 不再领先。
竞争对手的崛起:Qwen 和 DeepSeek
围绕 LlamaCon 和 Llama 4 模型的失望反映了一种更广泛的观点,即 Meta 的开源 LLM 在技术性能和开发人员热情方面都在失去动力。尽管 Meta 强调其对开源原则、生态系统建设和创新的承诺,但DeepSeek、Qwen 和 OpenAI 等竞争对手正在推理、工具使用和实际部署等关键领域迅速发展。
一位开发者 Vineeth Sai Varikuntla 表示了他的失望之情,他说他曾希望 Llama 在一般用例和推理方面超越 Qwen 和 DeepSeek,但发现 Qwen 明显领先。
这种情绪突显了 Meta 在保持 Llama 作为领先开源 LLM 地位方面面临的挑战。虽然 Llama 的最初版本引起了广泛关注和赞扬,但功能日益强大的替代品的出现加剧了竞争格局。
一个有希望的开端:Llama 2 的影响
要充分理解当前围绕 Llama 的叙述,必须记住它的起源以及它最初激发的兴奋之情。2023 年,Nvidia 首席执行官 Jensen Huang 称赞 Llama 2 的发布是当年“人工智能领域可能发生的最大的事件”。到 2024 年 7 月,Llama 3 的发布被认为是突破性的,代表了第一个能够挑战 OpenAI 统治地位的开放 LLM。
SemiAnalysis 首席分析师 Dylan Patel 称,Llama 3 的到来立即引发了对计算能力的巨大需求,导致 GPU 租赁价格上涨。在此期间,Google 搜索“Meta”和“Llama”的次数也达到了顶峰,表明人们对新模型普遍感兴趣。
Llama 3 被誉为美国制造的、开放的、顶级的 LLM。虽然它并没有始终占据行业基准的榜首,但它在人工智能界产生了相当大的影响和关联性。然而,这种动态已经逐渐转变。
架构转变和批评
Llama 4 模型引入了一种 “混合专家 “架构,这种设计是由 DeepSeek 推广的。这种架构使模型能够仅激活特定任务最相关的专业知识,从而提高效率。
然而,当开发人员发现用于公共基准测试的版本与可供下载和部署的版本不同时,Llama 4 的发布受到了批评。这种差异导致了“游戏排行榜”的指控,Meta 否认了这一指控,称相关变体是实验性的,并且评估模型的多个版本是标准做法。
尽管 Meta 给出了解释,但这场争议导致人们认为 Llama 正在努力保持其竞争优势。随着竞争模型的不断发展,Meta 似乎缺乏明确的方向。
衡量开发者采用率:一项复杂的任务
确定哪个 LLM 系列在开发者中最受欢迎是一项具有挑战性的任务。然而,现有数据表明,Llama 的最新模型并未名列前茅。
特别是 Qwen,在互联网上的各种排行榜上始终名列前茅。根据 Artificial Analysis(一个根据性能对模型进行排名的网站)的数据,Llama 4 Maverick 和 Scout 的智能水平略高于 OpenAI 的 GPT-4 模型(在前一年年底发布),低于 xAI 的 Grok 和 Anthropic 的 Claude。
OpenRouter 是一个为开发者提供各种模型访问权限并根据 API 使用情况发布排行榜的平台,该平台显示截至 5 月初,Llama 3.3 跻身前 20 名模型之列,但 Llama 4 未入选。
这些数据点虽然不是决定性的,但表明 Llama 的最新迭代并没有像之前的迭代那样在开发者中引起强烈的共鸣。
超越基准:工具使用和推理
虽然对 Llama 4 的标准评估可能令人失望,但专家认为,这种低调的热情源于原始性能指标之外的因素。
SemiAnalysis 的分析师 AJ Kourabi 强调了 “工具调用 “的重要性以及模型扩展到简单聊天机器人功能之外的能力。工具调用是指模型访问和指示互联网或用户设备上的其他应用程序的能力,这是代理 AI 的关键功能,代理 AI 有望自动化诸如预订旅行和管理费用等任务。
Meta 已经表示,Llama 模型通过其 API 支持工具调用。然而,开发者和 YouTuber Theo Browne 认为,随着代理工具越来越受欢迎,工具调用已成为保持前沿相关性的必要条件。
Anthropic 已成为工具使用的早期领导者,OpenAI 等专有模型也在迅速赶上。可靠地调用正确的工具以生成正确的响应非常有价值,OpenAI 已将其重点转移到优先考虑此功能。
Kourabi 认为,缺乏强大的推理模型是 Meta 已经落后的重要指标。推理被认为是代理 AI 方程中的一个基本要素,使模型能够分析任务并确定适当的行动方案。
Llama 的利基:实际应用和企业采用
尽管人们对其在人工智能研究前沿的地位表示担忧,但 Llama 对许多开发者和组织来说仍然是一个有价值的工具。
RockerBox 的产品主管 Nate Jones 建议开发者在他们的简历中包含 Llama,因为将来很可能需要熟悉该模型。
GAI Insights 的首席执行官兼首席分析师 Paul Baier 认为,Llama 将继续成为许多公司(尤其是科技行业以外的公司)人工智能战略的关键组成部分。
企业认识到开源模型的重要性,Llama 就是一个突出的例子,它适用于处理不太复杂的任务和控制成本。许多组织更喜欢封闭和开放模型的组合,以满足他们多样化的需求。
Snowflake 的人工智能主管 Baris Gultekin 指出,客户通常会根据其特定用例评估模型,而不是仅仅依赖基准。鉴于其低成本,Llama 通常足以满足许多应用的需求。
在 Snowflake,Llama 用于执行诸如总结销售电话记录和从客户评论中提取结构化信息等任务。在 Dremio,Llama 生成 SQL 代码并撰写营销电子邮件。
Dremio 的联合创始人兼首席产品官 Tomer Shiran 认为,对于 80% 的应用来说,特定模型可能并不重要,因为现在大多数模型都 “足够好 “以满足基本需求。
一个多样化的格局:Llama 巩固作用
虽然 Llama 可能正在从某些领域与专有模型的直接竞争中转移,但总体人工智能格局正变得更加多样化,Llama 的作用正在特定细分市场中得到巩固。
Shiran 强调,基准不是模型选择的主要驱动因素,因为用户优先考虑在其自己的用例中测试模型。模型在客户数据上的性能至关重要,并且此性能可能会随着时间的推移而变化。
Gultekin 补充说,模型选择通常是一个特定于用例的决策,而不是一次性事件。
Llama 可能会失去那些不断寻求最新进展的开发者,但它保留了许多专注于构建实用的人工智能驱动工具的开发者的支持。
这种动态符合 Meta 更广泛的开源战略,2013 年推出的 React 和 2016 年创建的 PyTorch 就是例证。通过培养成功的生态系统,Meta 可以从开源社区的贡献中受益。
正如 Nate Jones 所观察到的,Zuckerberg 从 Meta 的开源计划中获得了重要的推动力。