螞蟻集團的多元化半導體策略:應對 AI 晶片挑戰

在人工智能發展的高風險競技場中,能否獲得尖端的半導體技術往往決定了創新的步伐。對於中國的科技巨頭而言,由於地緣政治緊張以及美國實施的嚴格出口管制,獲取這些技術變得日益複雜。在這樣充滿挑戰的環境下,與 Alibaba 關聯的金融科技巨頭 Ant Group 正在開闢一條獨特的道路。該公司正策略性地部署來自美國和國內供應商的異質混合半導體,以驅動其 AI 雄心,特別是專注於提升訓練複雜 AI 模型的效率和成本效益。

這種經過深思熟慮的方法不僅僅是一種技術上的變通;它代表了一種根本性的策略調整。透過刻意整合來自不同製造商的晶片,包括本土替代品,Ant Group 旨在減輕供應鏈中斷相關的風險,並減少對任何單一供應商的依賴,特別是那些受到國際貿易限制的供應商。這種多元化對於確保其 AI 研發流程的連續性和韌性至關重要。核心目標有兩個:在保持 AI 創新動能的同時,優化通常與訓練大規模模型相關的巨大成本。

專業化的力量:擁抱專家混合模型 (MoE)

Ant Group 硬體策略的核心是採用一種稱為專家混合模型 (Mixture of Experts, MoE) 的先進 AI 架構。這項技術與傳統的單體 AI 模型有顯著不同,後者試圖用一個龐大的神經網絡來學習和處理給定任務的所有方面。相比之下,MoE 方法採用了更分散和專業化的結構。它的運作方式更像一個專家委員會,而不是一個全才。

想像一個需要多樣化知識的複雜問題。與其依賴一位博學者,不如組建一個團隊:一位數學家、一位語言學家、一位歷史學家,或許還有一位物理學家。一個「門控網絡」(gating network) 扮演著調度員的角色,分析傳入的任務或數據點,並智能地將它們路由到大型系統中最合適的「專家」模型。每個專家模型都經過訓練,擅長處理特定類型的輸入或子任務。例如,在一個語言模型中,一個專家可能專精於理解技術術語,另一個專精於創意寫作風格,第三個則專精於對話交流。

這種模組化設計的關鍵優勢在於其計算效率。在訓練或推理(模型進行預測時)期間,對於給定的輸入,只有相關的專家模型和門控網絡會被啟動。這種選擇性計算與密集模型形成鮮明對比,後者無論進行何種計算,都必須動用整個網絡及其數十億甚至數萬億個參數。因此,MoE 模型可以達到與密集模型相當甚至更優越的性能,同時所需的計算能力顯著減少,從而消耗更少的能源。

Ant Group 有效地利用了這種架構優勢。內部研究和實際應用表明,即使使用功能較弱、更容易獲得或成本較低的硬體,MoE 也能讓公司獲得穩健的訓練成果。根據該公司分享的發現,MoE 的策略性實施使其 AI 模型訓練相關的計算成本顯著降低了 20%。這種成本優化不僅僅是漸進式的節省;它是一個策略性的推動因素,使 Ant 能夠追求雄心勃勃的 AI 項目,而不必完全依賴那些對中國公司來說越來越難採購的最昂貴、頂級的圖形處理單元 (GPUs)。這種效率的提升直接應對了外部環境施加的硬體限制。

矽谷織錦:螞蟻集團的硬體組合

Ant Group 策略的實際執行涉及在複雜的半導體領域中航行。據報導,該公司的 AI 訓練基礎設施由多種不同的晶片驅動,反映了其對靈活性和韌性的承諾。這包括由其關聯公司 Alibaba 自主設計的矽晶片,很可能指的是 Alibaba 的 T-Head 半導體部門開發的晶片。此外,Ant 還整合了來自另一家中國科技巨頭 Huawei 的晶片,後者為應對美國制裁,已大量投資開發自有 AI 加速器(如 Ascend 系列)。

雖然 Ant Group 過去一直使用來自 AI 訓練市場無可爭議的領導者 Nvidia 的高性能 GPUs,但不斷變化的美國出口管制已迫使其轉變策略。這些法規以國家安全為由,特別限制向中國實體銷售最先進的 AI 加速器。儘管 Nvidia 仍可向中國市場供應規格較低的晶片,但 Ant Group 似乎正在積極擴大其供應商基礎,以彌補對頂級 Nvidia 產品受限的影響。

這種多元化策略中,來自 Advanced Micro Devices (AMD) 的晶片佔有顯著地位。AMD 已成為 Nvidia 在高性能計算和 AI 領域的重要競爭對手,提供強大的 GPUs,為某些工作負載提供了可行的替代方案。透過將 AMD 硬體與來自 Alibaba 和 Huawei 的國產選項相結合,Ant 構建了一個異質計算環境。這種混合搭配的方法雖然可能在軟體優化和工作負載管理方面增加複雜性,但提供了關鍵的靈活性。它允許公司根據可用性、成本以及不同 AI 模型和任務的特定計算需求來調整其硬體使用,從而規避因依賴單一、受限來源而造成的瓶頸。

此策略的背景是錯綜複雜的美國出口管制網絡。這些措施已逐步收緊,旨在遏制中國在先進半導體製造和 AI 發展方面的進展。雖然最初集中在絕對最高端的晶片,但限制措施已經演變,影響了更廣泛的硬體和半導體製造設備。例如,Nvidia 不得不為其旗艦 AI 晶片(如源自 A100 和 H100 的 A800 和 H800)創建特定的、性能較低的版本,以符合這些法規,專供中國市場。Ant 擁抱來自 AMD 和國內廠商替代方案的策略,是對這種監管壓力的直接、務實的回應,表明其在既定限制內努力維持 AI 競爭力。

AI 實踐:轉型醫療保健服務

Ant Group 在 AI 效率方面的進展不僅僅是理論上的演練;它們正被積極轉化為實際應用,尤其著重於醫療保健領域。該公司最近公佈了其為醫療保健量身定制的 AI 解決方案的重大升級,突顯了其底層技術策略的實際影響。

據報導,這些升級後的 AI 功能已在中國主要城市(包括 Beijing、Shanghai、Hangzhou(Ant 總部所在地)和 Ningbo)的多家著名醫療機構中使用。七家大型醫院和醫療保健組織正在利用 Ant 的 AI 來改善其運營和患者護理的各個方面。

Ant 醫療保健 AI模型的基礎本身就是協同創新和利用多樣化技術優勢的一個例子。它建立在多個強大的大型語言模型 (LLMs) 的組合之上:

  • DeepSeek 的 R1 和 V3 模型: DeepSeek 是一家著名的中國 AI 研究公司,以開發功能強大的開源模型而聞名,通常能達到優異的性能基準。
  • Alibaba 的 Qwen: 這是由 Ant 的關聯公司 Alibaba 開發的專有大型語言模型系列,涵蓋多種規模和能力。
  • Ant 自有的 BaiLing 模型: 這表明 Ant Group 在開發為滿足其特定需求而定制的 AI 模型方面付出了內部努力,可能整合了金融以及潛在的醫療保健特定數據和專業知識。

這種多模型基礎使醫療保健 AI 解決方案能夠利用廣泛的知識和能力基礎。根據 Ant Group 的說法,該系統能夠熟練地處理關於廣泛醫療主題的查詢,對於尋求快速信息的醫療保健專業人員和尋找一般醫學知識的患者來說,可能是一個有價值的工具(儘管其角色與專業醫療建議之間的界限劃分至關重要)。

除了信息檢索,該公司表示,該 AI 模型旨在提升患者服務。雖然具體細節仍在浮現,但這可能涵蓋一系列應用,例如:

  • 智能分診: 根據描述的症狀協助確定患者需求的優先級。
  • 預約安排與管理: 自動化和優化預訂流程。
  • 出院後追蹤: 提供自動提醒或追蹤患者的康復進度。
  • 行政支持: 協助醫療保健人員處理文件、摘要或數據輸入任務,從而騰出時間進行直接的患者護理。

在大型醫院的部署標誌著驗證該技術效用以及應對醫療保健領域複雜性的關鍵一步,該領域對準確性、可靠性和數據隱私有著嚴格的要求。

規劃超越頂級 GPU 的路線

展望未來,Ant Group 的策略似乎與中國科技行業內更廣泛的雄心相一致:在不完全依賴最先進、通常受限制的 GPUs 的情況下,實現尖端的 AI 性能。據報導,該公司計劃效仿 DeepSeek 等組織所採取的路徑,專注於**「無需頂級 GPUs」即可擴展高性能 AI 模型**的方法。

這一雄心表明了一種信念,即架構創新(如 MoE)、軟體優化以及對多樣化、可能功能較弱的硬體的巧妙利用,可以共同彌補因無法獲得頂級矽晶片而造成的性能差距。這是一個部分源於出口管制必要性的策略,但也反映了一條可能通往更具成本效益和民主化 AI 發展的可持續路徑。

實現這一目標涉及探索 MoE 之外的各種途徑:

  • 算法效率: 開發需要較少計算能力進行訓練和推理的新 AI 算法。
  • 模型優化技術: 採用量化(降低計算中使用的數字精度)和剪枝(移除神經網絡的冗餘部分)等方法,使模型更小、更快,而不會顯著損失性能。
  • 軟體框架: 創建能夠在異質硬體環境中高效管理和分發 AI 工作負載的複雜軟體,最大限度地利用可用的計算資源。
  • 專業化的國產硬體: 持續投資和利用由 Huawei (Ascend)、Alibaba (T-Head) 等中國公司以及其他潛在公司開發的 AI 加速器,這些加速器專為 AI 任務設計。

Ant Group 與中國科技生態系統中的其他參與者一起追求這條道路,可能會產生重大影響。如果成功,它可能證明 AI 領域的領導地位不僅僅取決於能否獲得絕對最快的晶片,還取決於軟體、架構和系統級優化的創新。它代表了一種堅定的努力,旨在建立一個有韌性且自給自足的 AI 能力,透過策略性多元化和不懈的創新,在當前全球技術格局的複雜性中航行。美國和中國半導體的整合,透過 MoE 等技術進行優化,並應用於醫療保健等關鍵領域,展示了一種在壓力下維持 AI 進展的務實和適應性方法。