新競爭者登場:DeepSeek V3撼動AI排行榜

在快速變遷、競爭激烈的人工智慧領域,’最佳’模型的寶座很少能長久穩固。像OpenAI、Google和Anthropic這樣的巨頭不斷透過令人驚豔的更新互相超越,各自宣稱擁有更優越的性能。然而,AI基準測試組織Artificial Analysis最近的一份報告帶來了令人驚訝的轉折,指出在一個特定但至關重要的類別中,出現了新的領導者:DeepSeek V3。根據他們的情報指數,這個來自中國公司的模型,在不需要複雜推理 (complex reasoning) 的任務上,現在的表現優於GPT-4.5、Grok 3和Gemini 2.0等知名對手。這一發展不僅僅是排名的又一次微小變動;它具有重大意義,因為DeepSeek V3是以open-weights(開源權重)的方式運作,這與其主要競爭對手的專有性質形成鮮明對比。

理解基準測試與’Non-Reasoning’的區別

要理解DeepSeek V3所報導成就的重要性,必須先了解其特定背景。Artificial Analysis評估AI模型涵蓋一系列能力,通常包括推理 (reasoning)、一般知識、數學能力和程式設計熟練度。這裡的關鍵細節是,根據這個特定的指數,DeepSeek V3據報特別在non-reasoning(非推理)AI模型中取得了領先地位。

在這種情況下,’non-reasoning’究竟意味著什麼?可以把它想像成一個高度專業化的計算機和一位哲學家之間的區別。Non-reasoning任務通常涉及速度、效率和模式識別,而非複雜、多步驟的邏輯推導或創造性問題解決。這些模型擅長於:

  • 快速資訊檢索: 迅速存取並呈現事實知識。
  • 文本生成與摘要: 根據提示創建連貫的文本,或高效地摘要現有文件。
  • 翻譯: 以高速和合理的準確性在語言之間轉換文本。
  • 程式碼補全與生成: 根據既定模式建議或編寫程式碼片段,輔助程式設計師。
  • 數學計算: 執行定義好的數學運算。

雖然這些能力可能不如AI演示中經常強調的’reasoning’(推理)能力那樣引人注目(例如解決複雜的邏輯謎題或發展新穎的科學假說),但它們構成了目前部署的無數實用AI應用的支柱。許多聊天機器人、內容創建工具、客戶服務介面和數據分析功能都嚴重依賴non-reasoning模型提供的速度和成本效益。

DeepSeek V3在這一領域據報的領先地位表明,它在這些常見任務上達到了性能和效率的卓越平衡。根據這個特定的基準測試,這意味著該模型在知識回憶和程式碼輔助等領域,能夠比其閉源競爭對手更快或更具成本效益地提供高質量的輸出。它不一定在包羅萬象、類人智慧的意義上’更聰明’,但它似乎特別擅長處理驅動當前大部分AI經濟的主力任務。這個區別至關重要;V3並非定位為人工通用智慧(AGI)的競爭者,而是針對速度和預算至關重要的特定、高流量應用而高度優化的工具。

Open-Weights革命:根本性的分歧

也許DeepSeek V3崛起最引人注目的方面是其open-weights(開源權重)的性質。這個術語標誌著與AI領域主導者在理念和可及性上的根本差異。

  • 什麼是Open Weights? 當一個模型被描述為擁有’open weights’時,意味著訓練好的模型的核心組件——決定其行為的大量數值參數(權重)——是公開可用的。這通常伴隨著將模型的架構(設計藍圖)甚至有時訓練程式碼也開源。基本上,創建者將AI的’大腦’公開,允許任何具備必要技術技能和計算資源的人下載、檢查、修改並在其基礎上進行建構。想像一下,就像收到一份美食佳餚的完整食譜和所有秘方,讓您可以在自己的廚房裡複製甚至調整它。

  • 對比:封閉、專有模型: 這與OpenAI(儘管其名稱暗示開放)、Google和Anthropic等公司採取的做法形成鮮明對比。這些組織通常將其最先進的模型嚴密保護起來。雖然他們可能透過API(應用程式介面)或面向用戶的產品(如ChatGPT或Gemini)提供存取權限,但底層的權重、架構細節以及通常其訓練數據和方法的具體細節仍然是嚴格保密的商業機密。這就好比一家餐廳賣給你美味的餐點,卻從不透露食譜,也不讓你參觀廚房。

這種分歧的影響是深遠的:

  1. 可及性與創新: Open-weights模型使尖端AI技術的獲取民主化。研究人員、新創公司、個人開發者甚至業餘愛好者都可以實驗、微調和部署這些強大的工具,而無需獲得原始創建者的許可或支付高昂的授權費用(儘管運行模型的計算成本仍然存在)。這可以培養一個更多元化、快速發展的生態系統,隨著更廣泛的社群貢獻改進並發現新的應用,可能加速創新。
  2. 透明度與審查: 開放性允許更嚴格的審查。研究人員可以直接檢查模型的權重和架構,以更好地理解其能力、局限性和潛在偏見。這種透明度對於建立信任和解決圍繞AI的倫理問題至關重要。封閉模型通常被描述為’黑盒子’,使得這種獨立驗證變得更加困難。
  3. 客製化與控制: 用戶可以針對特定任務或領域調整open-weights模型(微調),這通常是基於API的封閉模型無法做到的。企業可以在自己的基礎設施上運行這些模型,與將敏感資訊發送給第三方提供商相比,能更好地控制數據隱私和安全。
  4. 商業模式: 開放與封閉之間的選擇通常反映了不同的商業策略。閉源公司通常透過訂閱、API使用費和企業授權來獲利,利用其專有技術作為競爭優勢。Open-weights的支持者可能會專注於圍繞核心開放模型建立服務、支援或特殊版本,類似於開源軟體世界中看到的商業模式(例如,Red Hat與Linux)。

DeepSeek決定在發布V3時採用open weights,同時在基準測試中取得頂尖分數,這傳達了一個強烈的訊息:高性能和開放性並非相互排斥。它挑戰了只有嚴格控制的專有開發才能在AI競賽中產生最先進成果的說法。

DeepSeek的軌跡:不僅是曇花一現

DeepSeek在AI領域並非完全陌生,儘管它可能不像OpenAI或Google那樣家喻戶曉。該公司在今年早些時候因發布其DeepSeek R1模型而引起了廣泛關注。R1的特別之處在於,它被呈現為一個免費提供的高級reasoning(推理)模型。

如前所述,Reasoning模型代表了不同類型的AI。它們旨在解決需要多步驟思考、邏輯推斷、規劃甚至自我修正的更複雜問題。將R1描述為在輸出前遞迴檢查其答案,暗示了比典型non-reasoning模型更複雜的認知過程。免費廣泛提供這種能力是一個顯著的舉措,讓以前僅限於資金雄厚的實驗室或昂貴商業產品的技術得以普及。

此外,DeepSeek R1不僅以其能力,還以其據報的效率給觀察者留下了深刻印象。它證明了先進的reasoning不一定伴隨著高昂的計算成本,暗示了DeepSeek在優化模型架構或訓練過程方面取得了創新。

隨後DeepSeek V3在non-reasoning類別的發布和據報的成功,建立在此基礎之上。它展示了一家公司有能力在不同類型的AI模型上前沿競爭,同時保持對效率的關注,並且重要的是,在V3上採用了開放的途徑。這一軌跡表明了一種深思熟慮的策略:在複雜reasoning(R1)方面展示能力,然後為更常見、高流量的任務(V3)提供一個高度優化、開放且領先的模型。這將DeepSeek定位為全球AI版圖中一個多才多藝且強大的參與者。

Non-Reasoning模型在今日AI中的關鍵作用

儘管對人工通用智慧(AGI)的追求常常佔據頭條,側重於複雜reasoning和類人理解,但今日AI的實際影響在很大程度上是由non-reasoning模型驅動的。它們的價值主張在於速度、可擴展性和成本效益

考慮一下那些對近乎即時的回應和高效處理至關重要的龐大任務量:

  • 即時翻譯: 實現跨越語言障礙的無縫溝通。
  • 內容審核: 掃描大量用戶生成的內容以查找違反政策的行為。
  • 個性化推薦: 分析用戶行為以即時建議相關產品或內容。
  • 客戶支援聊天機器人: 全天候快速有效地處理常見查詢。
  • 程式碼輔助: 在開發人員的編碼環境中提供即時建議和自動完成。
  • 數據摘要: 從大型文件或數據集中快速提取關鍵資訊。

對於這些應用來說,一個需要幾秒鐘或幾分鐘來’推理’問題的模型,無論多麼準確,通常都是不切實際的。大規模運行複雜reasoning模型相關的計算成本對於許多企業來說也可能是 prohibitive(令人望而卻步)的。為速度和效率而優化的non-reasoning模型填補了這個關鍵的空白。它們是驅動我們日常互動的大部分AI服務的主力軍。

因此,根據Artificial Analysis指數,DeepSeek V3在這一領域據報的領先地位,從商業和實踐角度來看具有高度相關性。如果它真的為這些廣泛的任務提供了卓越的性能或更高的效率,並且是透過一個公司可能可以更便宜地運行或更自由地客製化的open-weights模型來實現,那麼它可能會顯著擾亂現有的市場動態。對於這些基礎AI能力,它提供了一個潛在強大、易於獲取的替代方案,而不必完全依賴主要閉源參與者的API產品。

地緣政治漣漪與競爭格局

像DeepSeek這樣來自中國公司的頂級性能、open-weights AI模型的出現,不可避免地在地緣政治的技術版圖中掀起漣漪。先進AI的發展被廣泛視為國家間戰略競爭的關鍵前沿,特別是美國和中國之間。

多年來,大部分的敘事都集中在美國公司的主導地位上,如OpenAI、Google、Microsoft(透過其與OpenAI的合作夥伴關係)和Meta(後者也透過Llama等模型倡導開源AI)。DeepSeek V3的性能,加上其開放性,在幾個方面挑戰了這種敘事:

  1. 技術對等/進步: 它表明中國公司有能力開發出能夠與美國頂尖實驗室的AI模型競爭,甚至在特定基準測試中可能超越它們的AI模型。這反駁了任何關於美國永久技術領先的假設。
  2. 開源策略: 透過將領先模型設為open-weights,DeepSeek可能加速全球AI的採用和發展,包括在中國和其他國家。這與一些主要美國參與者偏好的更受控制的專有方法形成對比,引發了關於哪種策略最終在促進創新和普及能力方面更有效的疑問。這可能被視為圍繞DeepSeek技術建立全球生態系統的戰略舉措。
  3. 加劇的競爭壓力: 美國AI公司現在面臨的競爭不僅來自彼此,還來自日益強大的國際參與者,後者可能提供更易於獲取的技術。這種壓力可能影響從定價策略到創新步伐以及關於模型開放性的決策等各個方面。

在原始報導的背景下,這種競爭壓力明確地與美國國內的遊說活動聯繫在一起。提及OpenAI據稱正在敦促美國政府,可能包括與Trump政府相關的人物,放寬在AI訓練中使用受版權保護材料的限制,突顯了所感知的利害關係。提出的論點是,版權法可能施加的對訪問龐大數據集的限制(’fair use’限制),可能會阻礙美國公司跟上國際競爭對手的步伐,特別是來自中國的競爭對手,後者可能在不同的監管制度下運作或有權訪問不同的數據池。

這觸及了一個極具爭議的問題:在網路上可用的大量人類創造力(其中大部分受版權保護)上訓練強大AI模型的合法性和倫理問題。AI公司認為,獲取這些數據對於建立有能力的模型至關重要,可能將其視為國家競爭力的問題。相反,創作者和版權持有者則認為,未經授權使用其作品進行訓練構成侵權,並貶低了他們的知識產權。DeepSeek的成功為這場辯論增添了另一層色彩,可能助長了這樣一種觀點:無論來源如何,積極利用數據是在全球AI競賽中保持領先的關鍵。

DeepSeek V3的崛起強調了AI競賽確實是全球性的,並且日益複雜。它不僅涉及技術實力,還涉及關於開放性、商業模式以及駕馭複雜法律和倫理領域的戰略選擇,所有這些都設定在國際競爭的背景下。一個關鍵類別的領先模型現在是open-weights且源自傳統美國科技巨頭之外,這標誌著人工智慧演進中一個潛在的重大轉變。