駕馭AI算力變局:螞蟻集團的國產晶片策略

全球AI硬體競賽的高風險賭注

人工智能發展的格局,日益不僅由算法突破定義,更取決於能否獲得訓練和運行大型模型所需的精密硬體。此硬體等式的核心是圖形處理單元(GPU),這一部件最初為渲染圖像而設計,如今卻因其平行處理能力而成為AI需求的基石。多年來,Nvidia Corporation一直是此領域無可爭議的巨擘,其先進的GPU成為黃金標準,驅動著Silicon Valley及全球的創新。然而,這種主導地位也使該公司及其客戶直接處於地緣政治緊張的風口浪尖。

Washington實施嚴格的出口管制,旨在限制中國獲取尖端半導體技術,這已從根本上重塑了市場。這些限制特別針對Nvidia等公司生產的高性能GPU,這些GPU被認為對先進AI應用至關重要,包括那些具有潛在軍事用途的應用。直接影響是中國蓬勃發展的科技行業內部出現了爭奪。從老牌巨頭到雄心勃勃的初創公司,凡是大量投資AI的企業,都突然面臨被切斷推動下一波技術進步的關鍵工具的風險。這產生了一種迫切的需求:尋找可行的替代方案,否則就有在全球競爭激烈的領域中落後的風險。挑戰不僅僅是用一種晶片替換另一種;它涉及應對性能差異、軟件兼容性問題以及訓練擁有數千億甚至數萬億參數模型所需的龐大規模等複雜網絡。

螞蟻集團規劃算力獨立之路

在供應鏈不確定性和技術競爭不斷升級的背景下,與Alibaba Group Holding關聯的金融科技巨頭螞蟻集團,已顯示出朝向更大計算自給自足邁出重要一步的跡象。該公司負責大型語言模型(LLM)計劃的Ling團隊在一篇研究論文中披露的最新發現表明,他們成功地偏離了以Nvidia為中心的道路。此成就的核心在於他們能夠有效地使用國產GPU訓練一個複雜的AI模型。

該模型名為Ling-Plus-Base,絕非輕量級。它採用Mixture-of-Experts(MoE)架構設計,這是一種因其在擴展LLM方面的效率而日益受到關注的技術。Ling-Plus-Base擁有高達3000億個參數,其規模可與全球其他著名模型相媲美。然而,關鍵的區別在於支撐其訓練的硬體。根據研究結果,這個強大的模型可以在團隊所稱的「較低性能設備」上培育成熟。這個精心挑選的措辭直接指向了使用那些不在美國出口限制範圍內的處理單元,強烈暗示使用了在中國設計和製造的晶片。

這一發展不僅僅是一個技術上的變通辦法;它代表了一個潛在的戰略轉向。通過展示在不完全依賴頂級、受限外國硬體的情況下訓練最先進模型的能力,螞蟻集團不僅降低了供應鏈風險,還可能釋放顯著的成本效益。

經濟方程式:削減訓練成本

Ling團隊研究中出現的最引人注目的數字之一是,在Ling-Plus-Base模型的關鍵預訓練階段,據報計算成本降低了20%。預訓練是出了名的資源密集型過程,涉及向模型輸入海量數據集以學習語言模式、上下文和知識。它構成了開發基礎LLM相關總費用的主要部分。因此,在此階段實現五分之一的成本削減,意味著節省了大量資金,可能將資本釋放出來用於進一步的研究、開發或規模化部署。

這種成本節約是如何實現的?雖然論文沒有詳細說明確切的成本構成,但可能有幾個因素促成:

  1. 硬體採購: 國產GPU,即使單個性能不如Nvidia的頂級產品,在中國市場內可能具有較低的購買價格或提供更有利的批量折扣,特別是考慮到高端Nvidia晶片供應受限的情況。
  2. 能源效率: 雖然沒有明確說明,但針對可能功耗較低(儘管單位性能可能較差)的國產晶片優化訓練,可能有助於降低運營能源成本,這是運行大型數據中心的一個重要因素。
  3. 算法與架構優化: MoE架構本身的使用是關鍵。MoE模型僅為給定輸入激活特定的「專家」子網絡,而不是像密集架構那樣動用整個模型。這種固有的稀疏性可以顯著減少訓練和推理期間的計算負載,使得即使每個晶片的原始處理能力較低,也能實現良好的結果。螞蟻的成功表明,通過複雜的軟件和算法調整,最大限度地提高了可用國產硬體的效率。

這種成本降低不僅僅是會計上的好處;它降低了開發大規模模型的門檻,如果這些方法被證明是可複製的,可能會加速公司內部乃至更廣泛的中國科技生態系統內的AI創新步伐。

性能對等:彌合硬體差距?

成本節約固然吸引人,但如果由此產生的AI模型性能顯著下降,則意義不大。螞蟻的Ling團隊直接回應了這一點,聲稱Ling-Plus-Base達到了與該領域其他備受推崇的模型相當的性能。具體來說,他們將自己的創作與Qwen2.5-72B-Instruct(由母公司Alibaba開發)和DeepSeek-V2.5-1210-Chat(另一個著名的中國LLM)等模型進行了基準測試。

儘管使用了「較低性能設備」,但聲稱「性能相當」這一點值得注意。這表明螞蟻可能已經找到了有效的方法,通過以下方式彌補任何原始計算能力的不足:

  • 先進的模型架構: MoE設計在此起到了重要作用,有效地分配了工作負載。
  • 軟件優化: 針對所使用的國產GPU架構專門定制訓練軟件堆棧(如並行化框架和數值庫)至關重要。這通常涉及大量的工程努力。
  • 數據整理與訓練技術: 用於選擇訓練數據和改進訓練過程本身的複雜方法可以顯著影響最終模型的質量,有時可以彌補硬體限制。

重要的是要細緻地看待性能聲明。「相當」可以涵蓋各種基準測試(例如,語言理解、推理、生成、編碼)的一系列結果。在沒有跨多個標準化測試的詳細基準結果的情況下,精確比較仍然具有挑戰性。然而,這一斷言本身表明螞蟻相信其方法不需要在成本/可及性與能力之間做出 crippling(嚴重削弱)的權衡。它展示了一條即使在硬體限制施加的約束下也能保持競爭力的途徑。

研究人員自己強調了更廣泛的意義:「這些結果證明了在性能較低的硬體上訓練最先進的大規模MoE模型的可行性,從而在計算資源選擇方面,為基礎模型開發提供了一種更靈活、更具成本效益的方法。」這指向了一種某種程度上的民主化,即使在無法獲得絕對頂級處理能力的情況下,也能讓尖端AI開發得以進行。

理解Mixture-of-Experts (MoE) 的優勢

Mixture-of-Experts架構是螞蟻集團報告成功的核心。它代表了對傳統「密集」神經網絡模型的背離,在傳統模型中,每個輸入都會激活每個參數。在MoE模型中:

  • 模型由眾多較小的、專業化的「專家」網絡組成。
  • 一個「門控網絡」或「路由器」機制學習將傳入的數據(在LLM的情況下是tokens)引導到最相關的專家進行處理。
  • 只有被選中的專家——通常是數百個專家中的僅僅一兩個——會為該特定數據執行計算。

這種方法提供了幾個關鍵優勢,在硬體受限的背景下尤其重要:

  1. 可擴展性: MoE允許模型增長到巨大的參數數量(數萬億已變得可行),而處理每個輸入token的計算成本在推理甚至訓練步驟中不會成比例增加。這是因為在任何給定時間只有一小部分總參數處於活動狀態。
  2. 訓練效率: 雖然訓練MoE模型有其自身的複雜性(如專家之間的負載均衡),但每個token的計算量減少可以轉化為更快的訓練時間,或者像螞蟻所展示的那樣,能夠在合理的時間範圍內在性能較低的硬體上有效訓練。
  3. 專業化: 每個專家可能專注於不同類型的數據、任務或知識領域,可能在特定領域產生更高質量的輸出。

全球領先的AI實驗室都已採用MoE,包括Google(GShard, Switch Transformer)、Mistral AI(Mixtral模型),以及在中國,像DeepSeek和Alibaba(其Qwen模型包含MoE元素)這樣的公司。螞蟻的Ling-Plus-Base使其穩固地處於這一先鋒行列,利用架構創新來應對硬體現實。

國產硬體生態系統:填補Nvidia的空白

雖然螞蟻的研究論文沒有明確指出所使用的硬體,但隨後的報導,特別是Bloomberg的報導指出,這項成就是通過國產設計的晶片實現的。這包括可能源自螞蟻的關聯公司Alibaba的處理器,Alibaba擁有自己的晶片設計部門T-Head(生產如Yitian 710的CPU,並曾探索AI加速器),以及至關重要的Huawei Technologies

Huawei儘管自身面臨美國的嚴厲制裁,但一直在積極開發其Ascend系列的AI加速器(如Ascend 910B),作為中國市場內Nvidia產品的直接替代品。據報導,這些晶片正被主要的中國科技公司採用。螞蟻集團能夠有效地將此類硬體用於像Ling-Plus-Base這樣規模的模型,將是對這些國產替代方案的重大驗證。

需要強調的是,螞蟻集團並未完全放棄Nvidia。報導表明,Nvidia晶片仍然是螞蟻AI開發工具包的一部分,可能用於那些其特定性能特徵或成熟的軟件生態系統(如CUDA)具有優勢的任務,或用於遺留系統。此舉未必是為了在一夜之間完全取代,而是關於建立可行的、平行的路徑,以減少戰略脆弱性並控制成本。這種混合方法使公司能夠利用現有最佳工具,同時培養獨立性。螞蟻集團本身保持了一定程度的企業審慎,拒絕就所使用的具體晶片發表官方評論。

更廣泛的趨勢:中國為實現AI自力更生而共同努力

螞蟻集團的舉措並非孤立發生。它反映了整個中國科技行業為突破美國出口管制所施加的限制而進行創新的更廣泛戰略推動。「科技戰」已催化了在關鍵技術,特別是半導體和AI領域實現更大程度自給自足的努力。

其他主要參與者也在追求類似的目標:

  • ByteDance: TikTok的母公司據報也在努力獲取和利用替代晶片,包括國產選項,以支持其AI雄心,涵蓋推薦算法、生成式AI等。
  • DeepSeek: 這家以其強大的開源模型而聞名的AI初創公司,明確提到了訓練效率,並開發了使用MoE架構的模型,這與那些不太依賴擁有大量頂級GPU的策略相一致。
  • Baidu、Tencent及其他公司: 所有主要的中國雲計算和科技公司都在大力投資AI,並且不可避免地在探索硬體多元化策略,包括針對國產晶片進行優化,以及可能開發自己的定制晶片。

集體傳達的信息很明確:雖然獲取Nvidia的頂級產品仍然是理想的,但中國科技行業正在積極開發和驗證替代解決方案。這涉及多管齊下的方法:擁抱像MoE這樣的高效模型架構,針對不同的硬體後端進行密集的軟件優化,以及支持國產晶片的開發和採用。

超越語言模型:螞蟻在醫療保健領域的AI擴張

螞蟻集團的AI努力超越了基礎LLM。在關於其訓練效率的消息傳出的同時,該公司還宣布了對其專為醫療保健領域量身定制的AI解決方案套件的重大升級。該計劃利用了一個獨特的、自主開發的以醫療保健為中心的AI模型。

升級後的解決方案具有多模態能力(處理各種數據類型,如文本、圖像以及可能的其他醫療數據)和複雜的醫學推理能力。這些被整合到螞蟻所稱的「一體機」中,推測是指為臨床環境或健康管理設計的設備或平台。

雖然這似乎與Ling-Plus-Base LLM的消息分開,但存在潛在的內在聯繫。能夠更具成本效益地訓練強大的AI模型,可能使用包括國產選項在內的混合硬體,這可能支撐了為醫療保健等行業開發和部署專用模型的經濟可行性。降低AI開發的基礎成本,使得資源可以被引導到特定領域的應用中,可能加速實用AI工具在關鍵行業的推廣。這次在醫療保健領域的推進,突顯了螞蟻將其AI專業知識廣泛應用、超越其金融科技根基的雄心。

對未來的啟示:AI道路上的分岔口?

螞蟻集團成功使用非Nvidia、很可能是國產的GPU訓練大規模MoE模型,具有重大意義:

  • 對國產晶片的驗證: 它為像Huawei的Ascend這樣的中國設計AI加速器的可行性提供了關鍵的證明點,可能促進其在中國內部的採用。
  • 競爭格局: 它表明,儘管存在限制,中國公司仍可以通過利用架構和軟件創新,在尖端AI開發中保持競爭力。
  • 成本動態: 20%的成本降低突顯了能夠有效利用替代硬體的公司可能具有的競爭優勢,可能影響全球AI的定價和可及性。
  • Nvidia的地位: 雖然Nvidia在全球仍佔主導地位,但這一趨勢突顯了由於法規和本地競爭對手的崛起,它在重要的中國市場面臨的挑戰。這可能會加速Nvidia開發針對中國市場的出口合規晶片,但也驗證了替代路徑。
  • 技術分岔?: 從長遠來看,硬體獲取和軟件優化的持續分歧可能導致部分不同的AI生態系統,其中的模型和工具針對不同的底層晶片進行優化。

螞蟻集團Ling團隊所經歷的旅程,象徵著地緣政治約束所激發的應變能力。通過巧妙地將像MoE這樣的先進模型架構與優化和利用現有國產硬體的意願相結合,他們開闢了一條確保在人工智能這一關鍵領域持續進步的道路,可能重塑定義該行業的成本結構和戰略依賴關係。這證明了一個觀點:創新往往在壓力下最為蓬勃發展。