解碼 DeepSeek:中國 AI 強權的崛起

DeepSeek 這個名字迅速從相對默默無聞崛起,成為全球 AI 對話的焦點,在科技和金融領域引發了激烈的辯論和猜測。 這家中國 AI 實驗室在這股新興力量的背後,顛覆了既有的秩序,促使分析師質疑美國在 AI 競賽中的主導地位,以及當前 AI 晶片需求的長期可行性。 但究竟是什麼關鍵因素促使 DeepSeek 達到目前的卓越地位?

DeepSeek 的起源:從避險基金到 AI 實驗室

DeepSeek 的起源與量化金融世界密不可分。 它由 High-Flyer Capital Management 支援,這是一家以在數據驅動的交易決策中利用 AI 而聞名的中國避險基金。

梁文峰是一位 AI 愛好者,在浙江大學就讀期間擁有交易背景,於 2015 年共同創立了 High-Flyer。2019 年,他推出了 High-Flyer Capital Management 作為一家避險基金,專注於開發和實施用於金融應用的 AI 算法。

2023 年,High-Flyer 孵化了 DeepSeek 作為一個專門的 AI 研究實驗室,獨立於其核心金融業務運營。 隨後,在 High-Flyer 作為主要投資者的情況下,該實驗室被分拆成一個獨立的實體,保留了 DeepSeek 的名稱。

從成立之初,DeepSeek 就優先建立自己的數據中心集群,以促進模型訓練。 然而,與其他在中國運營的 AI 公司類似,DeepSeek 由於美國對先進硬體的出口限制而遇到了挑戰。 因此,為了訓練其更新的模型,該公司不得不求助於 Nvidia H800 晶片,這是 H100 晶片的一個較弱版本,美國公司可以輕鬆獲得這些晶片。

DeepSeek 的技術團隊以其年輕和活力而聞名。 該公司積極從中國頂尖大學招聘 AI 博士研究人員。 此外,《紐約時報》報導稱,DeepSeek 聘用來自不同背景的人員,甚至包括那些沒有計算機科學專業知識的人員,以確保其技術能夠有效地理解和滿足廣泛的學科。

DeepSeek 的 AI 模型:挑戰現狀

DeepSeek 於 2023 年 11 月推出了其最初的型號套件——DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。 然而,真正引起 AI 行業關注的是今年春天發布的下一代 DeepSeek-V2 系列模型。

DeepSeek-V2 是一個多功能的系統,能夠分析文本和圖像,在各種 AI 基準測試中表現出令人印象深刻的性能。 值得注意的是,與當時可用的競爭模型相比,它以顯著降低的成本實現了這一性能。 這促使 DeepSeek 的國內競爭對手,包括字節跳動和阿里巴巴,降低了其某些模型的價格,並完全免費提供其他模型。

DeepSeek V3 的表現優於 Meta 的 Llama 等可下載的開源模型,以及只能通過 API 訪問的「封閉」模型,例如 OpenAI 的 GPT-4o。

同樣值得注意的是 DeepSeek 的 R1「推理」模型。 DeepSeek 於 1 月推出,聲稱 R1 在關鍵基準測試中實現了與 OpenAI 的 o1 模型相當的性能。

作為一個推理模型,R1 納入了自我檢查機制,減輕了與標準模型相關的一些常見缺陷。 雖然推理模型可能需要稍長的處理時間才能得出解決方案(從幾秒到幾分鐘不等),但它們在物理、科學和數學等領域往往表現出更高的可靠性。

然而,DeepSeek 的模型,包括 R1 和 DeepSeek V3,受到中國互聯網監管機構的監督,該機構確保它們的回應符合「社會主義核心價值觀」。 例如,在 DeepSeek 的聊天機器人應用程式中,R1 不會回答有關天安門廣場或台灣自治的問題。

3 月,DeepSeek 的網站流量超過 1650 萬次訪問。 根據 Similarweb 的編輯 David Carr 的說法,儘管與 2 月相比流量減少了 25%,但 DeepSeek 在每日訪問量方面排名第二。 然而,這個數字與 ChatGPT 相比仍然相形見絀,ChatGPT 在 3 月份的每週活躍用戶超過 5 億。

對 AI 格局的顛覆性方法

DeepSeek 的商業模式仍然有些神秘。 該公司以遠低於市場價值的價格為其產品和服務定價,甚至免費提供一些產品和服務。 此外,儘管風險投資公司對其有濃厚的興趣,但它拒絕了外部融資。

DeepSeek 將其極高的成本競爭力歸功於效率方面的突破。 然而,一些專家質疑該公司提供的數字的準確性。

無論如何,開發人員已經接受了 DeepSeek 的模型,雖然它們在傳統意義上不是開源的,但在允許商業使用的寬鬆許可證下可用。 根據 Hugging Face 的 CEO Clem Delangue 的說法,平台上的開發人員已經創建了超過 500 個 R1 的衍生模型,總下載量達到 250 萬次。

DeepSeek 對抗更大、更成熟的競爭對手的成功被描述為「顛覆 AI」和「過度炒作」。 該公司的成就部分導致 Nvidia 的股價在 1 月份下跌了 18%,並促使 OpenAI CEO Sam Altman 做出了公開回應。 據路透社報導,3 月份,美國商務部據稱禁止在政府設備上使用 DeepSeek。

Microsoft 已將 DeepSeek 整合到其 Azure AI Foundry 服務中,該平台整合了企業的 AI 服務。 在 Meta 的第一季度財報電話會議上,CEO Mark Zuckerberg 表示,對 AI 基礎設施的投資將繼續成為該公司的「戰略優勢」,當被問及 DeepSeek 對 Meta 的 AI 支出的潛在影響時。 3 月,OpenAI 將 DeepSeek 標記為「國家補貼」和「國家控制」,建議美國政府考慮禁止其模型。

在 Nvidia 的第四季度財報電話會議上,CEO Jensen Huang 強調了 DeepSeek 的「卓越創新」,並指出其推理模型需要更多的計算能力,這對 Nvidia 有利。

相反,包括韓國和紐約州在內的一些公司、國家和政府已經禁止在政府設備上使用 DeepSeek。

5 月,Microsoft 副董事長兼總裁 Brad Smith 在參議院作證說,由於擔心數據安全和潛在的宣傳,Microsoft 員工被禁止使用 DeepSeek。

DeepSeek 的不確定未來

DeepSeek 未來的發展軌跡仍然不確定。 雖然預計模型會進一步改進,但美國政府似乎越來越警惕人們認為的有害外國影響。 3 月,《華爾街日報》報導稱,美國可能會禁止在政府設備上使用 DeepSeek。

DeepSeek 的迅速崛起無可否認地動搖了 AI 行業的基礎,促使人們重新評估競爭動態和顛覆性創新的潛力。 在日益嚴格的審查和監管挑戰面前,它能否維持目前的勢頭還有待觀察。 未來幾年將是決定 DeepSeek 對全球 AI 格局的長期影響的關鍵。 它駕馭技術進步、地緣政治考量和倫理問題之間複雜互動的能力,最終將決定其遺產。 AI 世界將密切關注。

DeepSeek 的故事提醒我們,在快速發展的人工智能世界中,新的參與者可以迅速湧現並挑戰既定的秩序。 該公司的成功,得益於創新技術和顛覆傳統商業模式的意願,迫使該行業注意到它。 隨著 DeepSeek 不斷發展和擴大其影響力,它無疑將在塑造 AI 的未來中發揮重要作用。