人工智慧領域,曾一度看似由 OpenAI、Google、Meta 和 Microsoft 等少數 Silicon Valley 巨頭主導,如今正經歷一場引人入勝的轉變。儘管這些老牌玩家持續進行高風險的開發競賽,常將其最先進的功能置於訂閱付費牆之後,一股強大的逆流正 набирает силу。一股新的競爭者浪潮,特別是來自中國的創新中心,正在證明尖端 AI 未必需要高昂的成本或專有的保密性。諸如 DeepSeek、Alibaba 和 Baidu 等公司正步入全球聚光燈下,推出強大的模型,這些模型通常以開源或低成本替代方案的形式提供,從根本上挑戰了現行的商業模式,並為全球開發者和用戶擴展了可能性。
這種新興的動態不僅僅代表新競爭者加入戰局;它標誌著支撐 AI 開發和可及性理念的潛在轉變。這些新興參與者決定在寬鬆許可下發布複雜模型,將底層程式碼在 GitHub 和 Hugging Face 等平台上公開提供,這與一些西方巨頭偏好的不透明、封閉花園式方法形成鮮明對比。這種開放性不僅使強大工具的獲取民主化,還培養了一個充滿活力的生態系統,開發者可以在其中自由實驗、客製化並在這些基礎模型之上進行建構,可能以前所未有的速度加速創新。讓我們深入探討引領這股潮流的三個突出範例,探索它們的起源、能力及其開放策略的影響。
DeepSeek:撼動體制的敏捷新秀
杭州深度求索人工智能基礎技術研究有限公司,以更簡潔的名稱 DeepSeek 運營,以驚人的速度和影響力闖入了國際 AI 舞台。儘管是一個相對年輕的實體,於 2023 年 4 月正式成立,作為量化交易公司 High-Flyer Quant 的分支機構,DeepSeek 迅速因開發出能與開發週期長得多、預算龐大得多的行業巨頭模型相媲美,甚至在某些基準測試中據報超越對手的 AI 模型而受到關注。這種以看似更高的效率實現競爭性表現的能力,在該領域引起了漣漪。
該公司快速的迭代週期值得注意。從最初的 DeepSeek-LLM 開始,它迅速推出了像 DeepSeek-Math 這樣的專用模型。2024 年底宣布的 DeepSeek V2 及隨後的 DeepSeek V3 已經預示了該公司雄心勃勃的發展軌跡。然而,真正抓住行業想像力並可以說標誌著一個轉捩點的,是其在 2025 年 1 月推出的推理模型 DeepSeek-R1 和 DeepSeek-R1-Zero。這些模型直接且常常有利地與 OpenAI 先進的 GPT-4 系列及其預期的 ‘o1’ 模型進行比較,引發了關於 AI 推理技術現狀的重大討論。這次發布不僅僅是學術性的;據報導,它影響了競爭對手的股價,促使老牌 AI 實驗室進行戰略重新評估,甚至在政府機構中引發了關於來自新興全球參與者的如此強大、可及的 AI 所帶來的影響的討論。
DeepSeek 對其許多模型採用了其所謂的「開放權重 (open weight)」策略,在寬鬆的 MIT License 下發布它們。雖然這在最嚴格的定義下可能不等於 100% 開源(因為訓練數據或方法的某些方面可能仍然是專有的),但它代表了顯著的開放程度。關鍵的是,模型權重——封裝了模型學習知識的參數——是公開的。這允許開發者從 GitHub 和 Hugging Face 等儲存庫下載模型,使他們能夠在本地運行模型、針對特定任務進行微調、將它們整合到獨特的應用程式中,或者僅僅研究它們的架構。這種訪問級別與僅通過受限 API 或封閉的 Web 界面進行交互相去甚遠。
從用戶角度來看,DeepSeek 主要表現為一個聊天機器人風格的 AI 工具,可通過 Web 界面以及適用於 iOS 和 Android 平台的專用移動應用程式訪問。其日益增長的影響力進一步體現在不斷增加的合作夥伴名單上。據報導,DeepSeek 的技術正在被包括 Lenovo、Tencent、Alibaba 和 Baidu 在內的主要技術參與者整合或探索,展示了其在不同硬體和軟體生態系統中的潛在適用性。DeepSeek 的崛起突顯了一個關鍵主題:重大的 AI 突破不再是歷史悠久的研究實驗室的專屬領域,高效的開發加上戰略性的開放可以迅速重塑競爭格局。
Alibaba 的 Qwen:來自電商巨頭的大規模開放
如果說 DeepSeek 代表了挑戰現狀的靈活新創公司,那麼 Alibaba Qwen (通義千問) 則標誌著中國乃至全球最大的科技集團之一對開放性的戰略擁抱。以其龐大的電子商務帝國、雲端計算服務和多元化技術投資而聞名的 Alibaba,挾帶著可觀的資源和雄心進入了生成式 AI 競賽。Qwen 系列大型語言模型迅速在全球領先的開源產品中站穩了腳跟。
這段旅程始於 2023 年 4 月的 Beta 版發布,隨著 Alibaba 在該年內逐步在開源許可下發布各種模型,迅速在 AI 社群中獲得了關注。這種對開放性的承諾在隨後的迭代中基本上得以延續。雖然一些高度專業化或商業敏感的版本可能有不同的許可,但 Qwen 系列中的核心模型,包括 Qwen 2、多模態的 Qwen-VL 系列(處理文本和圖像)、Qwen-Audio 以及偏重數學的 Qwen2-Math,通常都在像 Apache 2.0 License 這樣的寬鬆許可下提供。這允許廣泛的商業和研究用途,進一步推動了採用。與 DeepSeek 一樣,這些模型可以通過 GitHub 和 Hugging Face 等平台輕鬆被全球開發者社群訪問。
Alibaba 並不迴避將其模型直接定位於行業頂尖水平。2025 年 1 月宣布的 Qwen 2.5-Max 和 2025 年 3 月宣布的多模態 Qwen2.5-VL 伴隨著大膽的聲明,宣稱其能力超越或媲美 OpenAI 的 GPT-4o、DeepSeek 的 V3 以及 Meta 強大的 Llama-3.1-405B 等著名模型。雖然基準測試結果可能受解釋和特定任務評估的影響,但持續的開發和競爭姿態突顯了 Alibaba 在 AI 領域的認真意圖。
有趣的是,最初的 Qwen 模型承認了其傳承,部分基於 Meta 的基礎 Llama LLM——後者本身就是一個里程碑式的開源發布,催化了該領域的大量活動。然而,Alibaba 在此基礎上進行了顯著修改和建構,為後續的 Qwen 世代開發了自己獨特的架構和訓練方法。這種演變突顯了開源世界中的一個常見模式:在現有工作的基礎上創建新穎和增強的功能。
Qwen 開放策略的影響或許可以通過引用的驚人統計數據得到最好的說明:據報導,已有超過 90,000 個獨立模型 基於 Qwen 的開源程式碼開發。這個數字充分說明了開放傳播的力量。它標誌著一個蓬勃發展的生態系統,研究人員、新創公司和個人開發者正在利用 Alibaba 的基礎工作來創建專業工具、進行新穎實驗,並在不同方向上推動 AI 的邊界。對於終端用戶而言,Qwen 通常通過熟悉的聊天機器人界面訪問,可在 Web 上以及通過 iOS 和 Android 上的移動應用程式使用。Alibaba 的方法表明,即使是科技巨頭也可以戰略性地利用開源來促進創新、建立社群,並在全球 AI 舞台上有效競爭。
Baidu 的 Ernie:來自搜索巨頭的戰略轉變
Baidu,因其在搜索引擎市場的主導地位而常被稱為中國的 Google,為 AI 競賽帶來了不同類型的傳承。與 DeepSeek 甚至 Alibaba 相對較新的 LLM 推動不同,Baidu 多年來一直深入參與 AI 研究,特別是在自然語言處理方面。其 ERNIE (Enhanced Representation through Knowledge Integration) 模型譜系可以追溯到 2019 年,早於 ChatGPT 引發的公開發布熱潮。
面向公眾的生成式 AI 推動始於 2023 年 3 月發布的 Ernie 3.0 LLM,隨後是 2023 年 6 月的 Ernie 3.5。最初,Baidu 採用了更傳統的分層方法,類似於一些西方同行。更先進的 Ernie 4.0 於 2023 年 10 月發布,主要保留給 Baidu 基於訂閱的產品,而功能強大的 Ernie 3.5 則為其免費版的聊天機器人(稱為 Ernie Bot)提供支持。
然而,AI 行業內的競爭動態,以來自競爭對手(國內外)的快速進步和開源策略日益增長的可行性為特徵,再加上模型生產成本可能下降,似乎促使了一次重大的戰略轉向。Baidu 發出了向更大開放性決定性轉變的信號。雖然目前為其主要服務提供支持的 Ernie 模型最初並非開源,但該公司宣布計劃徹底改變這一軌跡。
2025 年 3 月中旬發布的 Ernie 4.5 LLM 和專用推理模型 Ernie X1,立即引發了與 OpenAI 的 GPT-4.5 和 DeepSeek 的 R1 的比較,將 Baidu 牢牢置於 AI 模型提供商的頂級梯隊。關鍵的是,在這些性能聲明的同時,Baidu 宣布了明確的開放路線圖。該公司宣布打算從 6 月 30 日起將其核心模型開源。此外,它宣布其 Ernie Bot 聊天機器人將從 4 月 1 日起對所有用戶免費,取消了先前訪問其最强大對話式 AI 的訂閱障礙。展望未來,Baidu 還表示,其下一個主要迭代版本 Ernie 5,預計在 2025 年下半年推出,也將同樣擁抱開源和免費使用的理念。
像 Baidu 這樣體量的參與者進行這種戰略重新定位意義重大。這表明人們認識到開放性可能正在成為競爭的必需品,而不僅僅是另一條路徑。通過免費提供其最先進的模型,Baidu 有望培養一個開發者社群,圍繞其平台刺激創新,並可能在尋求強大、不受限制的 AI 工具的用戶中佔據重要的心智份額。
與其競爭對手一樣,Ernie 的主要用戶界面是一個聊天機器人,可通過 Web 和移動應用程式(iOS 和 Android)訪問。Ernie 的能力也已進入實體消費產品中,特別是整合到 Samsung Galaxy S24 智能手機系列國際版的 AI 功能中。這種整合提供了一個具體範例,說明這些先進的語言模型如何從研究實驗室和 Web 界面走向數百萬人日常使用的設備。Baidu 不斷演變的策略突顯了 AI 領域的流動性,即使是老牌巨頭也在根據技術進步和不斷變化的市場預期調整其方法。
駕馭不斷擴展的 AI 宇宙
來自 DeepSeek、Alibaba 和 Baidu 的強大、可及的 AI 模型的出現,不僅僅意味著對 OpenAI 和 Google 等老牌玩家的競爭加劇。它代表了為各種用戶和開發者提供的選擇和機會的根本性擴展。這些模型的可用性,通常在寬鬆的開源或「開放權重」許可下提供,顯著降低了創新的進入門檻。小型企業、個人開發者、研究人員和學生現在可以訪問和利用以前僅限於大型公司或昂貴訂閱層級的 AI 能力。
這種擴散推動了幾個積極的趨勢:
- 客製化: 開發者可以在特定數據集上微調這些開放模型,以創建針對利基行業或獨特任務的高度專業化的 AI 工具,超越通用的、一刀切的解決方案。
- 實驗: 下載和修改模型權重的能力允許對 AI 架構和能力進行更深入的探索,促進學術研究和草根創新。
- 成本降低: 對於厭倦了經常性訂閱費用的用戶和組織來說,這些免費或低成本的替代方案提供了強大的功能,而沒有相關的財務負擔,有可能使提高生產力的 AI 工具民主化。
- 生態系統增長: 通過 GitHub 和 Hugging Face 等平台的可及性,圍繞這些模型培養了充滿活力的社群,提供共享資源、支持和協作開發機會。
然而,駕馭這個擴展的宇宙需要仔細考慮。選擇 AI 模型不僅僅是比較性能基準。諸如文檔的質量和可用性、開發者社群的響應能力、模型的特定優缺點(例如,編碼能力 vs. 創意寫作 vs. 多模態理解)以及有效運行或微調模型所需的計算資源等因素,都是決策過程中的關鍵要素。雖然雲端平台提供可擴展的資源,但在功能強大的硬體上本地運行強大模型的潛力是一些開放版本所帶來的誘人前景。
此外,這些強大替代方案的崛起不可避免地給現有參與者帶來了戰略問題。來自高質量開源模型的壓力是否會迫使西方 AI 巨頭採取更開放的策略,例如發布舊模型或提供更慷慨的免費層級?或者他們會加倍投入專有功能、生態系統鎖定和以企業為中心的解決方案來維持其優勢?競爭的相互作用是動態且不斷演變的。
地緣政治維度也增加了複雜性,因為在傳統西方樞紐之外開發尖端 AI 能力對技術領導地位和全球標準具有重要的長期影響。隨著這些強大工具變得更加廣泛分佈,圍繞負責任的 AI 開發、道德準則和潛在濫用的討論,對於所有參與者,無論其來源或許可模式如何,都變得越來越重要。AI 競賽無疑已經擴大,提供了一個比以往任何時候都更豐富、更複雜,最終也更易於訪問的格局。現在的挑戰和機遇在於負責任且有效地利用這種擴展的潛力。