生成式AI十字路口:天價估值遇上突破性低成本模型

人工智能的世界目前正上演著一齣充滿鮮明對比的戲劇。在一邊的舞台上,驚人的資金正湧入科技巨頭,助長著對前所未有認知能力的渴望,並引發了關於即將到來的投資泡沫的辯論。數十億美元的估值變得司空見慣,甚至傳聞有融資輪次達到天文數字。然而,在另一個更安靜、平行的舞台上,一場革命正在學術界和開源社群中醞釀。在這裡,研究人員展現出非凡的創造力,他們打造出功能強大的生成式AI模型,憑藉的不是數十億美元,有時僅僅是零用錢,從根本上挑戰了在人工智能霸權競賽中「越大越好」的普遍觀念。

這種分歧正變得日益明顯。以 ChatGPT 背後的巨頭 OpenAI 為例,據報導其正在尋求進一步投資,可能將其估值推向令人瞠目的 3000 億美元。這樣的數字,加上營收快速增長的預測,描繪出一幅無限樂觀和指數級增長的景象。然而,與此同時,謹慎的震顫也正動搖著這股 AI 狂熱的根基。長期以來主要因其 AI 潛力而備受市場青睞的所謂「Magnificent 7」科技股,經歷了顯著的表現不佳時期,暗示投資者的焦慮正在蔓延。這種不安被資深行業人士的警告所放大,例如阿里巴巴聯合創始人蔡崇信 (Joe Tsai) 最近指出,尤其在 US 市場,存在潛在 AI 泡沫形成的令人擔憂的跡象。所需的投資規模之大,特別是用於驅動這些複雜模型的大型數據中心的投資,正受到嚴格審視。目前的支出水平是否可持續?或者它們是否預示著一種脫離近期現實的非理性繁榮?

AI 泡沫的幽靈若隱若現

對 AI 泡沫的擔憂不僅僅是抽象的金融焦慮;它們反映了對 AI 發展本身的速度和方向的更深層次的質疑。主流論述一直由少數幾家投入數十億美元構建越來越大的大型語言模型 (LLMs) 的主要參與者所主導。這創造了一種環境,市場領導地位似乎取決於擁有最雄厚的財力和最廣泛的計算基礎設施。

  • 估值眩暈: OpenAI 可能達到的 3000 億美元估值,雖然反映了某些投資者的巨大信心,但也令人側目。這個數字是否能被當前的能力和收入流所證明,或者它在很大程度上是基於未來、或許不確定的突破?與先前科技繁榮與蕭條(如互聯網泡沫時代)的歷史相似之處不可避免地浮現,促使人們保持謹慎。
  • 基礎設施投資審查: 投入 AI 專用數據中心和專業硬件(如高端 GPU)的數十億美元代表著巨大的資本支出。Joe Tsai 的警告突顯了與如此大規模前期投資相關的風險,特別是如果變現路徑比預期更長或更複雜。這些投資的效率和回報正成為關鍵的討論點。
  • 市場信號: 大量投資於 AI 的科技巨頭股價的波動表明市場存在一定程度的懷疑。雖然長期潛力仍然是一個強大的吸引力,但短期波動表明投資者正在積極重新評估風險,並質疑當前增長軌跡的可持續性。AI 領域即將進行的 IPO(首次公開募股)的命運,例如備受期待的 AI 晶片專家 CoreWeave 的發行,正被密切關注,作為市場情緒的晴雨表。它會重新點燃熱情還是證實潛在的不安?
  • 地緣政治維度: AI 競賽也具有顯著的地緣政治色彩,特別是在 US 和 China 之間。US 的巨額支出部分是由於維持競爭優勢的願望所驅動。這導致了複雜的政策辯論,包括呼籲對先進半導體技術實施更嚴格的出口管制,以可能減緩 China 的進展。反過來,風險投資繼續流向 China 的 AI 初創公司,表明這是一場技術實力與經濟戰略緊密交織的全球競爭。

這種高風險、高支出的環境為挑戰既定秩序的顛覆性創新奠定了基礎。顯著更便宜的替代方案的出現,迫使人們重新評估蠻力計算和巨大規模是否是前進的唯一途徑。

DeepSeek 的顛覆性主張及其漣漪效應

就在這個充滿巨額支出和日益增長焦慮的背景下,一家位於 China 的實體 DeepSeek 橫空出世,提出了一個驚人的聲明:它僅用 600 萬美元就開發出了其 R1 生成式 AI 大型語言模型。這個數字比西方同行的數十億美元投資低了幾個數量級,立即在行業內引起了軒然大波。

儘管對於這 600 萬美元計算方式的懷疑依然存在——質疑哪些成本被包含在內,哪些被排除在外——但該聲明的影響是不可否認的。它成為一個強有力的催化劑,迫使人們對市場領導者採用的成本結構和開發方法進行批判性審視。如果一個相當有能力的模型確實可以用數百萬而不是數十億美元來構建,那這對當前方法的效率意味著什麼?

  • 挑戰主流論述: DeepSeek 的聲明,無論準確與否,都刺破了尖端 AI 開發僅屬於擁有無限資源的萬億美元級公司的普遍說法。它引入了更民主化開發格局的可能性。
  • 加劇審查: 它加劇了對像 Microsoft 支持的 OpenAI 這樣公司的巨額支出的審查。投資者、分析師和競爭對手開始就這些資本密集型項目的資源分配和投資回報提出更尖銳的問題。
  • 地緣政治共鳴: 這一聲明也在 US-China 科技競爭的背景下產生了共鳴。它表明可能存在通往 AI 能力的替代性、可能更具資源效率的路徑,為關於技術領導力和戰略競爭的討論增添了另一層複雜性。這進一步激發了關於晶片禁運等政策的辯論,同時也鼓勵風險投資家密切關注 China 可能擁有更精簡開發模式的新興參與者。

儘管存在懷疑,DeepSeek R1 的發布,特別是其附帶的開放研究組件,提供了關鍵的見解,激勵了其他人。不僅僅是聲稱的成本,更是其暗示的潛在方法論,激發了其他地方的好奇心和創新,特別是在財務約束截然不同的學術實驗室中。

超精簡 AI 的崛起:一場大學革命

當企業巨頭在數十億美元的預算和市場壓力下掙扎時,另一種 AI 革命正在學術殿堂中悄然形成。研究人員沒有迫在眉睫的商業化需求,但受到資金的嚴重限制,開始探索如何在資源極少的情況下複製先進 AI 背後的原則,即使無法達到其規模。一個典型的例子來自加州大學伯克利分校 (University of California, Berkeley)。

Berkeley 的一個團隊對近期的進展很感興趣,但缺乏行業實驗室的巨額資金,他們啟動了一個名為 TinyZero 的項目。他們的目標很大膽:他們能否用一個極度縮減的模型和預算來展示複雜的 AI 行為,特別是那種讓模型在回答前先「思考」的推理能力?答案被證明是響亮的肯定。他們成功地以驚人的低成本——大約 30 美元——複製了 OpenAI 和 DeepSeek 都探索過的推理範式的核心方面。

這並非通過構建一個 GPT-4 的直接競爭對手來實現,而是通過巧妙地降低模型和任務的複雜性。

  • 30 美元的實驗: 這個數字主要代表了在公共雲平台上租用兩塊 Nvidia H200 GPU 進行必要訓練時間的成本。它展示了利用現有雲基礎設施進行前沿研究的潛力,而無需 massive 的前期硬件投資。
  • 模型縮放: TinyZero 項目使用了一個「3B」模型,指的是大約三十億個參數。這比最大的 LLMs 要小得多,後者可能擁有數千億甚至數萬億個參數。關鍵的見解是,如果任務設計得當,即使在較小的模型中也可能出現複雜的行為。
  • 來自巨頭和挑戰者的啟發: TinyZero 項目負責人潘佳熠 (Jiayi Pan) 指出,來自 OpenAI 的突破,特別是關於模型在響應前花費更多時間處理的概念,是一個主要的靈感來源。然而,是 DeepSeek R1 的開放研究提供了一個潛在的藍圖,說明如何實現這種改進的推理能力,儘管 DeepSeek 報導的 600 萬美元訓練成本仍然遠遠超出了該大學團隊的能力範圍。

Berkeley 團隊假設,通過同時減小模型大小和它需要解決的問題的複雜性,他們仍然可以觀察到期望的「湧現推理行為」。這種簡化方法是大幅降低成本同時仍能進行有價值的科學觀察的關鍵。

解碼「頓悟時刻」:低成本推理

TinyZero 項目以及類似低成本計劃的核心成就,在於展示了研究人員常說的「頓悟時刻」(Aha moment)——即 AI 模型開始展現真正的推理和解決問題能力,而不僅僅是模式匹配或檢索存儲信息的時刻。這種湧現行為是即使是最大模型的開發者的關鍵目標。

為了驗證他們的假設並在小規模上引發這種行為,Berkeley 團隊採用了一個特定的、受限的任務:一個名為「Countdown」的數學遊戲。

  • Countdown 遊戲: 這個遊戲要求 AI 使用一組給定的起始數字和基本的算術運算(加、減、乘、除)來達到一個目標數字。關鍵的是,在 Countdown 中取得成功更多地依賴於戰略推理和規劃——探索不同的運算組合和順序——而不是回憶大量的預先存在的數學知識。
  • 通過遊戲學習: 最初,TinyZero 模型隨機地處理遊戲,幾乎是隨意地嘗試組合。然而,通過強化學習(從試錯和獎勵中學習)的過程,它開始辨別模式和策略。它學會了調整方法,放棄低效路徑,並更快地收斂到正確的解決方案。它基本上學會了在遊戲的既定規則內如何進行推理。
  • 自我驗證的出現: 值得注意的是,訓練後的模型開始顯示出自我驗證的跡象——評估自己的中間步驟和潛在解決方案,以確定它們是否正導向目標數字。這種內部評估和糾正路線的能力是更高級推理的標誌。

正如潘佳熠 (Jiayi Pan) 解釋的那樣,「我們證明了,即使模型小到 3B,它也能學會對簡單問題進行推理,並開始學會自我驗證和尋找更好的解決方案。」這表明,先前主要與龐大、昂貴模型相關的推理和「頓悟時刻」背後的基本機制,可以在資源高度受限的環境中被複製和研究。TinyZero 的成功證明了前沿 AI 概念不僅僅是科技巨頭的專屬領域,也可以被預算有限的研究人員、工程師甚至業餘愛好者所接觸,從而培育了一個更具包容性的 AI 探索生態系統。該團隊決定公開分享他們的發現,特別是通過像 GitHub 這樣的平台,讓其他人能夠複製實驗,並以不到幾份披薩的成本親身體驗這個「頓悟時刻」。

Stanford 加入戰局:驗證低成本學習

TinyZero 掀起的漣漪迅速在學術 AI 社群中擴散開來。斯坦福大學 (Stanford University) 的研究人員已經在探索類似的概念,甚至之前就引入了 Countdown 遊戲作為研究任務,他們發現 Berkeley 團隊的工作具有高度相關性和驗證價值。

由 Kanishk Gandhi 領導的 Stanford 團隊正在深入研究一個相關的基礎性問題:為什麼有些 LLMs 在訓練過程中會表現出戲劇性的、幾乎是突然的能力提升,而另一些似乎停滯不前?理解驅動這些能力飛躍的潛在機制對於構建更有效、更可靠的 AI 至關重要。

  • 建立在共同基礎上: Gandhi 承認 TinyZero 的價值,稱其「很棒」,部分原因在於它成功利用了他自己團隊正在研究的 Countdown 任務。這種趨同使得不同研究小組之間能夠更快地驗證和迭代想法。
  • 克服工程障礙: Stanford 的研究人員也強調了他們的進展先前如何受到工程挑戰的阻礙。開源工具的可用性在克服這些障礙方面發揮了重要作用。
  • 開源工具的力量: 具體來說,Gandhi 稱讚了 Volcano Engine Reinforcement Learning system (VERL)——一個由 ByteDance(TikTok 的母公司)開發的開源項目——稱其「對於運行我們的實驗至關重要」。VERL 的能力與 Stanford 團隊的實驗需求之間的契合,顯著加快了他們的研究週期。

這種對開源組件的依賴突顯了低成本 AI 運動的一個關鍵方面。進展通常是協作建立的,利用社群內自由共享的工具和見解。Gandhi 進一步認為,理解 LLM 推理和智能的重大科學突破,可能不再必然僅僅源於那些資金雄厚的大型工業實驗室。他認為,「即使在大型實驗室內部,也缺乏對當前 LLMs 的科學理解」,這為「DIY AI、開源和學術界」的貢獻留下了巨大的空間。這些規模較小、更靈活的項目可以深入探索特定現象,產生惠及整個領域的見解。

默默無聞的英雄:開源基礎

像 TinyZero 這樣以數十美元成本展示複雜 AI 行為的項目的非凡成就,在很大程度上依賴於一個關鍵但常被低估的元素:龐大的開源和開放權重 (open-weight) AI 模型及工具生態系統。雖然某個特定實驗的邊際成本可能很低,但它建立在通常代表著數百萬甚至數十億美元先前投資的基礎之上。

AI 諮詢公司 OneSix 的資深首席機器學習科學家 Nina Singer 提供了重要的背景信息。她指出,TinyZero 的 30 美元訓練成本,雖然對於 Berkeley 團隊執行的特定任務來說是準確的,但並未計入其所利用的基礎模型的初始開發成本。

  • 站在巨人的肩膀上: TinyZero 的訓練不僅利用了 ByteDance 的 VERL 系統,還利用了阿里巴巴雲 (Alibaba Cloud) 的 Qwen,一個開源的 LLM。Alibaba 在向公眾發布其「權重」(定義模型能力的學習參數)之前,投入了大量資源——可能達數百萬美元——來開發 Qwen。
  • 開放權重的價值: Singer 強調,這並非對 TinyZero 的批評,而是突顯了開放權重模型的巨大價值和重要性。通過發布模型參數,即使完整的數據集和訓練架構仍然是專有的,像 Alibaba 這樣的公司也使得研究人員和小型實體能夠在其工作基礎上進行構建、實驗和創新,而無需從頭開始複製昂貴的初始訓練過程。
  • 民主化微調: 這種開放的方法促進了一個蓬勃發展的「微調」(fine-tuning) 領域,即較小的 AI 模型被調整或專門化以適應特定任務。正如 Singer 指出的,這些微調模型通常可以在其指定目的上「以更小的尺寸和成本匹敵大得多的模型」。例子比比皆是,例如 Sky-T1,讓用戶能夠以大約 450 美元的成本訓練自己版本的高級模型,或者 Alibaba 的 Qwen 本身,使得微調成本低至 6 美元。

這種對開放基礎的依賴創造了一個動態的生態系統,創新可以在多個層面上發生。大型組織投入巨資創建強大的基礎模型,而更廣泛的社群則利用這些資產來探索新的應用、進行研究,並以更經濟的方式開發專門的解決方案。這種共生關係正在推動該領域的快速進步和民主化。

挑戰「越大越好」的範式

從 TinyZero 等項目以及有效、低成本微調的更廣泛趨勢中湧現的成功故事,正在對長期以來行業內認為 AI 進步完全取決於規模——更多數據、更多參數、更多計算能力——的信念構成重大挑戰。

正如 Nina Singer 所強調的,其中一個最深遠的啟示是,數據質量和針對特定任務的訓練,其重要性往往可能超過模型的絕對大小。 TinyZero 實驗表明,即使是一個相對較小的模型(30 億參數),如果在定義明確的任務上進行有效訓練,也能學會像自我糾正和迭代改進這樣的複雜行為。

  • 規模的邊際效益遞減?: 這一發現直接質疑了只有像 OpenAI 的 GPT 系列或 Anthropic 的 Claude 這樣擁有數千億或數萬億參數的大規模模型才能進行如此複雜學習的假設。Singer 提出,「這個項目表明,我們可能已經跨過了那個額外參數提供邊際效益遞減的門檻——至少對於某些任務而言。」雖然較大的模型可能在通用性和知識廣度方面保持優勢,但對於特定應用,超大規模模型可能代表著過度投入,無論是在成本還是計算需求方面。
  • 轉向效率和特異性: AI 格局可能正在經歷一個微妙但重要的轉變。與其專注於構建越來越大的基礎模型,人們越來越關注效率、可及性和針對性智能。為特定領域或任務創建更小、高度優化的模型,正被證明是一種可行且具有經濟吸引力的替代方案。
  • 對封閉模型的壓力: 開放權重模型和低成本微調技術日益增強的能力和可用性,給主要通過受限 API (Application Programming Interfaces) 提供其 AI 能力的公司帶來了競爭壓力。正如 Singer 指出的,像 OpenAI 和 Anthropic 這樣的公司可能需要越來越多地證明其封閉生態系統的價值主張,特別是「當開放替代方案開始在特定領域達到或超過它們的能力時」。

這並不一定意味著大型基礎模型的終結,它們很可能繼續作為關鍵的起點。然而,它確實預示著一個未來,AI 生態系統將更加多樣化,包含大型通用模型和大量由社群微調的、針對特定需求的更小、專業化且高效模型的混合體。

民主化浪潮:AI 惠及更多人?

可訪問的雲計算、強大的開源工具,以及更小、經過微調的模型的有效性得到證明,這些因素的匯合正在推動整個 AI 領域的民主化浪潮。曾經是擁有數十億美元預算的精英研究實驗室和科技公司的專屬領域,正變得越來越容易被更廣泛的參與者所接觸。

個人、學術研究人員、初創公司和小型企業發現,他們可以有意義地參與先進的 AI 概念和開發,而無需進行令人望而卻步的基礎設施投資。

  • 降低准入門檻: 以數百甚至數十美元的成本,在開放權重基礎上微調一個有能力的模型,極大地降低了實驗和應用開發的准入門檻。
  • 促進創新: 這種可及性鼓勵了更廣泛的人才庫為該領域做出貢獻。研究人員可以更方便地測試新穎的想法,企業家可以更經濟地開發利基 AI 解決方案,業餘愛好者可以親身體驗尖端技術。
  • 社群驅動的改進: 社群驅動的努力在改進和專門化開放權重模型方面的成功,證明了協作開發的力量。對於特定任務,這種集體智慧有時可以超越更封閉的企業環境中的迭代週期。
  • 混合的未來?: 可能的發展軌跡指向一個混合生態系統。巨型基礎模型將繼續推動 AI 能力的絕對邊界,充當平台。與此同時,一個由多元化社群微調的、充滿活力的專業化模型生態系統,將推動特定應用和行業的創新。

這種民主化並不能消除對重大投資的需求,特別是在創建下一代基礎模型方面。然而,它從根本上改變了創新和競爭的動態。以 TinyZero 項目和更廣泛的微調運動為例,以有限預算取得顯著成果的能力,標誌著人工智能發展正朝著一個更易於訪問、更高效、且可能更多樣化的未來轉變。推理的「頓悟時刻」不再僅僅局限於矽谷堡壘;它正成為一種只需不到一頓晚餐成本即可獲得的體驗,從底層激發創造力,並推動可能性的邊界。