DeepSeek的第二天:邁向企業AI應用之路

DeepSeek的第二天:邁向企業AI應用之路

DeepSeek,一家正在崛起的中國AI新創公司,正以其大幅折扣的基礎模型在業界掀起波瀾。此舉有潛力透過解決AI應用最顯著的障礙之一:成本,來徹底改變企業對AI的採用。

AI應用的高成本

根據美國銀行全球研究 (BofA Global Research) 的分析師 Brad Sills 和 Carly Liu 的說法,與AI應用相關的費用是阻礙其廣泛實施的主要障礙。他們於 1 月 28 日星期二發布的報告表明,成本降低方面的突破可能會進一步降低價格,從而提高採用率。

DeepSeek 於 1 月 27 日星期一發布的公告震驚了AI產業,導致多家AI公司的股價下跌。該公司透露,它能夠使用 2,048 個 Nvidia H800 晶片,以僅 558 萬美元的價格訓練一個基礎模型。這個數字與 OpenAI 和 Anthropic 的估計成本形成鮮明對比,後者範圍從 1 億美元到 10 億美元不等,並且涉及使用數千個 Nvidia 的AI晶片。

eSIMple 的 CTO Roy Benesh 強調了 DeepSeek 成就的轉型潛力,他表示,這使小型公司、個別開發人員,甚至研究人員都能夠利用AI的力量,而無需承擔高昂的成本。這種更高的可及性可以促進創新想法和技術的發展,從而提高該領域的競爭力。因此,客戶可以從新的選擇中受益,而既有的AI公司可能會降低價格並加速技術進步。

美國銀行的分析師提供了與現有AI應用相關的成本範例。Microsoft 的 365 Copilot Chat 每次提示收費 1 美分到 30 美分不等,具體取決於請求的複雜程度。Salesforce 的 Agentforce for Service Cloud 每次轉換收取 2 美元的統一費率。

雖然美國銀行承認 DeepSeek 提出的 558 萬美元的數字在某種程度上具有誤導性,因為它排除了與研究、實驗、架構、演算法和數據相關的成本,但分析師強調了該新創公司在證明成本較低的訓練方法的可行性方面的創新意義。

預訓練與推論:了解成本

基礎AI模型,例如 OpenAI 的 GPT-4o 和 Google 的 Gemini,會經歷一個稱為預訓練的過程,在這個過程中,它們會接觸到大量的數據,例如整個互聯網,以發展通用知識。然而,為了使這些模型與特定公司和行業更相關、更有用,企業需要使用自己的數據進一步訓練或微調它們。

一旦AI模型經過微調,它就可以處理用戶提示並生成相關的回應。然而,提示模型並獲得回應的過程會產生推論成本,這些成本是與使用新數據來理解和分析模型相關的費用。

重要的是要注意,大多數公司不承擔訓練基礎模型的成本。此責任由這些模型的開發人員承擔,包括 OpenAI、Google、Meta、Amazon、Microsoft、Anthropic、Cohere、Hugging Face、Mistral AI、Stability AI、xAI、IBM、Nvidia、某些研究實驗室以及中國科技巨頭,如百度和阿里巴巴。

企業主要承擔處理AI工作負載的推論成本,這構成了AI相關費用的絕大部分。

中國的連結:DeepSeek的推論成本和隱私疑慮

與矽谷公司相比,DeepSeek 以顯著較低的成本提供自己的推論服務。然而,在使用這些服務時,有一些注意事項需要牢記。

根據 DeepSeek 的隱私政策,用戶資訊儲存在位於中國的伺服器上。該公司還聲明,它將遵守法律義務,並出於公共利益或保護其用戶和其他人的重要利益而執行任務。

中國的國家情報法,特別是第 7 條,規定所有組織和公民都應依照法律支持、協助和配合國家情報工作,並保護他們所了解的國家情報工作秘密。

Appvance 的 CEO Kevin Surace 提出了對隱私的擔憂,他表示,從用戶那裡收集數據是中國的常見做法。他建議用戶謹慎行事。

在 PYMNTS 進行的一項實驗中,DeepSeek 的聊天機器人被要求解釋 1989 年的天安門事件如何影響中國政治。聊天機器人回應說:「抱歉,我還不確定如何處理這種類型的問題。」

Presearch 的 CEO Tim Enneking 指出,DeepSeek 是一家 100% 中國擁有的公司,位於中國。他指出,聊天機器人無法提供有關天安門事件或中國高級政府官員的信息,這表明該技術的客觀性存在限制。雖然 Enneking 承認該技術令人興奮的潛力,但他對其控制表示擔憂。

然而,Enneking 也強調了 DeepSeek 模型的開源性質,這允許修改以消除政府和企業的控制。他認為,該公司的工程創造力為較小的公司和國家創造了參與並在生成式AI領域取得成功的機會。

DeepSeek降低所有推論成本的潛力

DeepSeek 以較低的成本訓練基礎模型的創新方法對 Microsoft 等公司產生了積極的影響,這些公司可以繼續降低AI運算的成本並推動規模。根據 Sills 和 Liu 的說法,較低的運算成本可以提高AI賦能產品的利潤率。

在另一份研究報告中,美國銀行的分析師 Alkesh Shah、Andrew Moss 和 Brad Sills 認為,較低的AI運算成本可以使更廣泛的AI服務應用於各個領域,從汽車到智能手機。

雖然像 OpenAI 這樣的基礎模型開發商不太可能立即實現與 DeepSeek 一樣低的訓練成本,但分析師認為,DeepSeek 的創新訓練和後訓練技術將被競爭的前沿模型開發商採用,以提高效率。然而,他們強調,目前的模型仍然需要大量投資,因為它們構成了AI代理的基礎。

從長遠來看,分析師預計,隨著聊天機器人、副駕駛和代理變得更智能、更便宜,企業對AI的採用將會加速,這種現象被稱為傑文斯悖論 (Jevons paradox)。

Microsoft CEO Satya Nadella 在 X 上呼應了這種觀點,他表示,隨著AI變得更有效率和更容易取得,傑文斯悖論正在發揮作用。他認為,這將導致AI使用的激增,將其轉變為我們無法獲得足夠的商品。

深入探討基礎模型及其影響

基礎模型是現代AI的骨幹,正在徹底改變企業的營運方式以及與技術的互動方式。這些模型經過大量數據集的訓練,具有執行各種任務的能力,從自然語言處理到圖像識別。然而,這些模型的開發和部署涉及複雜的因素,包括訓練成本、推論成本、數據隱私和道德考量。

了解基礎模型

從本質上講,基礎模型是在大量數據集上訓練的大型神經網路。這種訓練過程使它們能夠學習數據中的模式和關係,使它們能夠以卓越的準確性執行各種任務。一些基礎模型的範例包括:

  • GPT-4o: 由 OpenAI 開發的強大語言模型,能夠生成人類品質的文本、翻譯語言並以全面的方式回答問題。
  • Google 的 Gemini: 一個多模態AI模型,可以處理和理解各種類型的數據,包括文本、圖像和音訊。

這些模型不限於特定任務,而是可以適應廣泛的應用,使其成為企業的多功能工具。

預訓練與微調的作用

基礎模型的開發通常涉及兩個關鍵階段:預訓練和微調。

  • 預訓練: 在這個階段,模型在一個龐大的數據集上進行訓練,例如整個互聯網,以學習通用知識和語言技能。這個過程使模型具備了理解和生成文本、翻譯語言以及執行其他基本任務的能力。
  • 微調: 在這個階段,預訓練模型在與特定任務或行業相關的較小、更具體的數據集上進一步訓練。這個過程使模型能夠根據應用的特定需求調整其知識和技能。

例如,可以基於客戶服務互動的數據集對預訓練語言模型進行微調,以創建一個可以有效回應客戶詢問的聊天機器人。

訓練與推論的成本

與基礎模型相關的成本可分為兩大類:訓練成本和推論成本。

  • 訓練成本: 這些成本涉及訓練基礎模型所需的運算資源、數據和專業知識。訓練大型基礎模型可能非常昂貴,通常需要數百萬美元的投資。
  • 推論成本: 這些成本涉及使用經過訓練的模型來進行預測或生成輸出所需的運算資源。推論成本可能會因模型的大小和複雜性、正在處理的數據量以及正在使用的基礎設施而異。

DeepSeek 的創新在於它能夠顯著降低與基礎模型相關的訓練成本,使其更容易被更廣泛的企業和組織所接受。

解決隱私和道德問題

基礎模型的使用引發了關於數據隱私和道德考量的重