Meta 近期发布了其 Llama 人工智能 (AI) 模型的最新版本,标志着该公司在 AI 创新方面持续投入的重要一步。此次发布的新产品包括 Llama 4 Scout 和 Llama 4 Maverick,Meta 将它们称为“多模态模型”,强调了它们处理和交互各种媒体形式的能力,而不仅仅是文本。
此外,Meta 还预告了 Llama 4 Behemoth,定位为全球最智能的 LLM 之一,旨在作为新发布模型的老师。
这一公告突显了 Meta 在过去两年中对 AI 的巨额投资。CEO Mark Zuckerberg 公开表示,他计划在2025年投入高达 650 亿美元,以进一步增强公司的 AI 能力。Meta 的雄心壮志不仅限于其社交媒体领域,还在探索 Meta AI 的潜在高级订阅服务,以处理预订和视频创作等任务。
OpenAI 的开源尝试
在并行发展中,OpenAI 据报道正在考虑发布其 LLM 的开源版本,这与它最近的做法背道而驰。此举将赋予用户自由使用、修改和分发模型的权利,而无需支付许可费。OpenAI 正在寻求来自开发人员、研究人员和更广泛公众的社区意见,以优化模型的效用。
该开源模型预计将在几个月内推出。OpenAI 上一次拥抱开源原则是在 2019 年发布的 GPT-2 LLM。他们最新的 LLM 是 GPT-4.5。在获得 Microsoft 10 亿美元的投资后,OpenAI 转向了专有模型,与 Microsoft 建立了紧密的联盟以推进 AI 模型开发。此后,Microsoft 已向 OpenAI 投资超过 130 亿美元,OpenAI 的模型专门提供给 Microsoft 的 Azure 云服务客户。
Meta 的 Llama、Mistral 的 LLM 和 DeepSeek 是近期越来越受欢迎的一些开源模型。Zuckerberg 在 Threads 上提到,Llama 已被下载 10 亿次。Llama 于 2023 年发布。
Meta 的 “Behemoth” AI 模型面临延期
然而,据报道,Meta 正在推迟发布 “Behemoth”,原定于夏季发布,现在最早的发布时间预计为秋季。消息人士称,该模型的进展还不够“显著”,无法证明 6 月份的发布是合理的,并且自从 Meta 的开发者大会以来,这一直在被延期。
此次延期给 Meta 发布的 Llama 旗舰大型语言模型系列蒙上了一层阴影。《华尔街日报》称,它们因发布速度而受到赞扬。Llama 在赋能小型公司、非营利组织和学术机构的开发人员方面发挥了重要作用。它是 OpenAI、Google 和 Amazon 等公司提供的封闭、专有模型的替代方案。
Behemoth 延迟对大型公司的影响较小,因为他们通常依赖于基于云的专有模型。即使较小的公司可以自定义开源 Llama 模型,它们也需要 Meta 不提供的其他部署服务。Meta 对 Llama 的使用旨在增强其自身的社交媒体工具,使 Zuckerberg 能够保持对其 AI 轨迹的控制。
延迟背后的一个重要因素是该模型是否展示了足够大的改进来保证公开发布。
创新的必要性
在快节奏的科技行业中,新版本必须展示切实的进步才能证明其引入的合理性。在 LlamaCon 上,Meta 展示了两个较小的 Llama 4 模型,每个模型都具有令人印象深刻的功能:
- Maverick 拥有 4000 亿个总参数和 100 万个 token 的上下文窗口(75 万个单词)。
- Scout 具有 1090 亿个参数和 1000 万个 token 的上下文窗口(750 万个单词)。
Behemoth 最初计划同时发布,包含 2 万亿个参数。
据《华尔街日报》报道,由于 Meta 对 AI 的持续投资,该公司对 Llama 4 团队越来越不耐烦。2024 年,该公司已拨出高达 720 亿美元的资本支出,主要用于 AI 开发。
日益增长的担忧
Zuckerberg 和其他高级管理人员尚未宣布 Behemoth 的最终发布日期。内部人士担心其性能可能无法达到 Meta 公开声明设定的预期。
消息人士表明,Meta 的领导层对开发 Llama 4 模型的团队所取得的进展越来越不满意。这导致了关于其 AI 产品组内部可能进行领导层变动的讨论。
Meta 吹捧 Behemoth 为一个功能强大的系统,在特定基准测试中优于 OpenAI、Google 和 Anthropic 等竞争对手。据熟悉其开发的人士称,内部挑战阻碍了其效率。
OpenAI 也遇到了延误。他们的下一个主要模型 GPT-5 最初计划于 2024 年年中发布。《华尔街日报》在 12 月报道称,开发进度落后于计划。
2 月,OpenAI CEO Sam Altman 表示,过渡模型将是 GPT-4.5,而 GPT-5 仍需数月才能发布。
可能导致进展停滞的原因
有几个因素可能导致 AI 模型开发的速度减慢,包括:
高质量数据日益减少
大型语言模型需要海量数据进行训练,这反映了互联网的广阔范围。它们可能正在耗尽公开可用的数据源,同时面临与版权相关的法律责任。
这导致 OpenAI、Google 和 Microsoft 倡导维护他们对受版权保护的材料进行训练的权利。
OpenAI 提到,政府可以确保美国人从 AI 学习的自由,并通过保留美国 AI 模型从受版权保护的材料中学习的能力,避免将 AI 领导地位拱手让给 PRC [中华人民共和国]。
算法障碍
增加模型大小、使用更多计算和在更多数据上进行训练将产生显著进展的观点已被证明是错误的。彭博社表示,收益递减导致一些人说缩放定律正在放缓。