Meta 近期發表了最新版本的 Llama 人工智慧 (AI) 模型,標誌著該公司在 AI 創新方面持續投入的重要一步。其中,Llama 4 Scout 和 Llama 4 Maverick 是 Meta 所稱的「多模態模型」,突顯了它們處理和與文本以外的各種媒體形式互動的能力。
此外,Meta 還預告了 Llama 4 Behemoth,它被定位為全球最智慧的 LLM 之一,旨在充當新發布模型的教師。
此聲明突顯了 Meta 在過去兩年中對 AI 的大量投資。CEO Mark Zuckerberg 公開表示,他計劃在 2025 年撥款高達 650 億美元,以進一步提升公司的 AI 能力。Meta 的雄心壯志不僅僅限於其社交媒體領域,還探索了其 AI 助理 Meta AI 的潛在高級訂閱服務,以處理預訂和影片創作等任務。
OpenAI 的開放原始碼嘗試
與此同時,OpenAI 據報導正在考慮發布其 LLM 的開放原始碼版本,這與其最近的做法背道而馳。此舉將賦予使用者自由使用、修改和分發該模型,而無需支付許可費。OpenAI 尋求開發人員、研究人員和廣大公眾的社群意見,以優化模型的實用性。
開放原始碼模型預計將在幾個月內推出。OpenAI 上一次擁抱開放原始碼原則是在 2019 年,推出了 GPT-2 LLM。其最新的 LLM 是 GPT-4.5。OpenAI 在獲得 Microsoft 的 10 億美元投資後,轉向了專有模型,建立了緊密的聯盟以推進 AI 模型開發。Microsoft 隨後向 OpenAI 投資了超過 130 億美元,OpenAI 的模型專供 Microsoft 的 Azure 雲端服務客戶使用。
Meta 的 Llama、Mistral 的 LLM 和 DeepSeek 是近來日益流行的開放原始碼模型。Zuckerberg 在 Threads 上提到,Llama 的下載次數已達 10 億次。Llama 於 2023 年推出。
Meta 的 "Behemoth" AI 模型面臨延遲
然而,據報導,Meta 正在延遲發布 "Behemoth",該模型原定於夏季推出,現在最早的發布時間預計為秋季。消息來源指出,該模型的進展還不夠「顯著」,無法證明 6 月發布的合理性,並且這代表自 Meta 開發者大會以來的一次延遲。
此次延遲為 Meta 發布 Llama 旗艦系列大型語言模型蒙上了一層陰影。《華爾街日報》表示,它們因發布速度而受到讚揚。Llama 在賦予小型公司、非營利組織和學術機構的開發人員權力方面發揮了重要作用。它是 OpenAI、Google 和 Amazon 等公司提供的封閉、專有模型的替代方案。
Behemoth 的延遲對大型公司的影響較小,因為它們通常依賴基於雲端的專有模型。即使小型公司可以自訂開放原始碼 Llama 模型,它們也需要 Meta 不提供的額外部署服務。Meta 使用 Llama 旨在增強其自身的社交媒體工具,使 Zuckerberg 能夠保持對其 AI 軌跡的控制。
延遲的一個重要因素在於該模型是否展現出足夠顯著的改進,以保證公開發布。
創新的必要性
在快速發展的科技產業中,新版本必須展現出切實的進步,才能證明其推出的合理性。在 LlamaCon 上,Meta 展示了兩個較小的 Llama 4 模型,每個模型都具有令人印象深刻的功能:
- Maverick 擁有 4000 億個總參數,具有 100 萬個 token 的上下文視窗(75 萬個單詞)。
- Scout 具有 1090 億個參數和 1000 萬個 token 的上下文視窗(750 萬個單詞)。
Behemoth 最初計劃同時發布,包含 2 兆個參數。
根據《華爾街日報》的報導,Meta 對其 Llama 4 團隊越來越不耐煩,因為該團隊持續投入 AI 投資。2024 年,該公司已撥款高達 720 億美元的資本支出,主要用於 AI 開發。
日益增長的擔憂
Zuckerberg 和其他高階主管尚未宣布 Behemoth 的明確發布日期。內部人士擔心其性能可能無法達到 Meta 公開聲明的預期。
消息來源指出,Meta 領導層對開發 Llama 4 模型團隊的進展越來越不滿意。這引發了關於其 AI 產品 group 內部可能進行領導層變更的討論。
Meta 將 Behemoth 吹捧為一個功能強大的系統,在特定基準測試中優於 OpenAI、Google 和 Anthropic 等競爭對手。熟悉其開發的人士聲稱,內部挑戰阻礙了其效率。
OpenAI 也遇到了延遲。他們的下一个主要模型 GPT-5 最初计划于 2024 年年中发布。《华尔街日报》12 月份报道称,开发工作已经落后于计划。
2 月,OpenAI CEO Sam Altman 表示,过渡模型将是 GPT-4.5,而 GPT-5 仍需数月才能推出。
可能導致進展停滯的原因
可能有多個因素導致 AI 模型開發的放緩,包括:
優質數據減少
大型語言模型需要大量的數據來進行訓練,如同廣闊的互聯網一樣。它們可能正在耗盡公開可用的數據來源,同時面臨與版權相關的法律責任。
這使得 OpenAI、Google 和 Microsoft 提倡保留其訓練使用受版權保護材料的權利。
OpenAI 提到,政府可以確保美國人從 AI 學習的自由,並通過保留美國 AI 模型從受版權保護的材料中學習的能力,避免將 AI 領導地位拱手讓給 PRC [中華人民共和國]。
演算法障礙
越來越大的模型規模、使用更多計算和更多數據訓練就能產生顯著進展的信念已被證明是錯誤的。Bloomberg 報導說,存在收益遞減的情況,導致一些人說擴展定律正在放緩。换句话说,单纯的扩大规模已经无法带来以往那样显著的性能提升,AI 模型的进步现在面临着更为复杂的挑战。
此外,模型复杂性的增加也带来了新的问题,例如难以理解和调试模型,以及模型中的偏见和不公平性。这些问题都需要新的方法和技术来解决。总而言之,AI 模型开发面临的挑战正在变得越来越复杂和多样化,我们需要寻找新的方法来推动 AI 技术的进步。这需要跨学科的合作,包括计算机科学、数学、统计学、认知科学等等。只有通过全面的努力,我们才能克服这些挑战,并充分发挥 AI 技术的潜力。