1. Nvidia
對日益複雜的 AI 系統的追求,持續推動大型語言模型開發商的大量投資。然而,有一家公司已經從這場 AI 革命中獲益:Nvidia。憑藉其佔主導地位的圖形處理器 (GPU) 引發了 AI 競賽,Nvidia 現在憑藉其突破性的 Blackwell 處理器和平台,完美地支持對人類級別智慧的追求。
Blackwell 超越了其前身 H100,為一般模型訓練任務提供高達 2.5 倍的效能,同時顯著降低能耗。主要的資料中心營運商和 AI 實驗室,包括 Google、Meta、Microsoft、OpenAI、Tesla 和 xAI 等行業巨頭,都已承諾購買數十萬個 Blackwell GPU。
儘管像 DeepSeek 和阿里巴巴這樣的中國公司最近的模型,使用較舊、功能較弱的 Nvidia GPU 展示了令人印象深刻的能力,但 Nvidia 並沒有因此停下腳步。該公司正積極開發適用於各種應用的平台,從藥物發現 (Clara for Biopharma) 和自動駕駛汽車 (Drive AGX) 到影片製作 (Holoscan) 和數位孿生 (Omniverse)。透過在廣泛的現實場景中促進 AI 進步,Nvidia 正在策略性地定位自己以實現持續增長,即使未來的模型對純粹計算能力的依賴性降低。
2. OpenAI
自 2019 年以來,OpenAI 一直透過擴展訓練資料和計算資源來持續增強其模型,這一策略已在整個行業中得到廣泛採用。然而,隨著這種擴展方法的回報遞減變得明顯,OpenAI 認識到需要一條新的途徑來實現 AGI —— 在大多數任務中超越人類智慧的模型。
OpenAI 的解決方案以 o1 模型 的形式出現。OpenAI 並非僅僅專注於在預訓練期間擴展資源,而是設計 o1 在推理期間分配更多的時間和計算能力,即模型主動部署並回應使用者提示的階段。在此過程中,o1 收集並保留來自使用者和相關資料來源的上下文資訊。它採用試錯法來確定答案的最佳路徑。結果是產生對複雜問題的博士級別的回應,將 o1 推向效能基準排名的榜首。
OpenAI 向 ChatGPT Plus 訂閱者提供 o1 的「實驗」和「迷你」版本。此外,一項名為 ChatGPT Pro 的高級服務提供每月 200 美元的無限制訪問完整 o1 模型的服務。2024 年 12 月,OpenAI 推出了 o1 的繼任者 o3,並在 2025 年 2 月向付費用戶提供了 o3-mini 的訪問權限,這是一個更小、更快的變體,針對科學、數學和編碼進行了最佳化。OpenAI 新推理模型最深遠的影響是,驗證了在推理時擴展計算是實現 AGI 道路上進一步突破智慧的一條有希望的途徑。
3. Google DeepMind
為今天的聊天機器人奠定基礎的基礎研究起源於 2010 年代後期的 Google。在 ChatGPT 出現之前,Google 早就開發了一個由大型語言模型驅動的聊天機器人。然而,據報導,對安全性、隱私和法律影響的擔憂導致採取謹慎的方法,延遲了其公開發布。這種猶豫導致 Google 最初在 ChatGPT 發布後引發的 AI 競賽中落後。
Google DeepMind 的 Gemini 2.0 在 2024 年的發布標誌著 Google 的明確復甦。Gemini 2.0 代表了第一個本質上是多模態的大眾市場 AI 模型,能夠像處理文本一樣流暢地處理和生成圖像、影片、音訊和電腦程式碼。這種能力使模型能夠以驚人的速度和準確性分析和推理影片剪輯,甚至是來自手機攝像頭的即時影片。
Gemini 的另一個突出特點是它能夠控制其他 Google 服務,例如地圖和搜尋。這種整合展示了 Google 的策略優勢,將其 AI 研究與其已建立的資訊和生產力工具相結合。Gemini 是首批展示自主操作和代表使用者推理複雜問題能力的 AI 模型之一。Gemini 2.0 Flash Thinking Experimental 模型甚至可以讓使用者深入了解用於得出答案的思維過程。此外,在 12 月,Google 推出了 Project Mariner,這是一個基於 Gemini 的代理 AI 功能,旨在自主執行線上雜貨購物等任務。
4. Anthropic
生成式 AI 的主要應用迄今為止主要集中在文本寫作、摘要和圖像生成。下一步的發展涉及為大型語言模型配備推理能力和使用工具的能力。Anthropic 的「Computer Use」模型提供了對這一未來的早期預覽。
從 2024 年的 Claude 3.5 Sonnet 開始,Anthropic 的模型可以感知螢幕上的活動,包括網路內容。它可以操縱游標、點擊按鈕和輸入文本。一段示範影片展示了 Claude 使用瀏覽器標籤中可用的資訊完成表單的能力。它可以完成諸如創建個人網站或組織一日遊的後勤工作等任務。AI 的自主操作,例如打開新標籤、執行搜尋和填寫資料欄位,確實令人印象深刻。
雖然該模型目前運行速度較慢,並且可能並不總是產生正確的答案,但隨著 Anthropic 識別並解決其局限性,預計將會迅速改進。Google 前面提到的 Project Mariner 在 12 月效仿了 Anthropic 的做法,OpenAI 在 2025 年 1 月推出了自己的電腦使用模型 Operator。2025 年 2 月,Anthropic 推出了其下一個主要版本 Claude 3.7 Sonnet,這是一個更大的模型,能夠針對具有挑戰性的查詢自動啟用推理模式。
5. Microsoft
Microsoft 的 Phi 模型的開發源於該公司研究人員在 2023 年提出的一個基本問題:「能夠展現出突現智慧的最小模型大小是多少?」這一問題標誌著「小型語言模型」發展的一個關鍵時刻,這些模型旨在在記憶體、處理能力或連接性有限的情況下實現最佳效能,在這些情況下,快速回應時間至關重要。
在整個 2024 年,Microsoft 發布了兩代小型模型,這些模型展示了在訓練期間未明確納入的推理和邏輯能力。4 月,該公司推出了一系列 Phi-3 模型,這些模型在語言、推理、編碼和數學基準測試中表現出色,這可能是由於它們在由更大、更有能力的 LLM 生成的合成資料上進行了訓練。開源 Phi-3 的變體在 2024 年在 Hugging Face 上被下載了超過 450 萬次。
2024 年底,Microsoft 推出了其 Phi-4 小型語言模型,該模型在以推理為中心的任務中超越了 Phi-3 模型,甚至在 GPQA(科學問題)和 MATH 基準測試中優於 OpenAI 的 GPT-4o。Microsoft 以開源和開放權重許可證發布了該模型,使開發人員能夠為手機或筆記型電腦創建邊緣模型或應用程式。在不到一個月的時間裡,Phi-4 在 Hugging Face 上獲得了 375,000 次下載。
6. Amazon
Amazon AWS 最近推出了 Trainium2,這是其用於 AI 的 Trainium 處理器的新版本,可能會在特定環境中挑戰 Nvidia GPU 的主導地位。Trainium2 旨在提供訓練最大的生成式 AI 模型和模型部署後推理時間操作所需的巨大計算能力。AWS 聲稱,對於類似的任務,Trainium 比 GPU 的成本效益高 30% 到 40%。
Trainium2 解決了在第一個 Trainium 晶片中觀察到的功率和軟體整合方面的不足,使 Amazon 有可能縮小與 Nvidia 的差距。(值得注意的是,AWS 本身仍然嚴重依賴 Nvidia 的 GPU。)由於客戶鎖定 Nvidia 的 CUDA 軟體層,取代 Nvidia 是一項艱鉅的挑戰,該軟體層為研究人員提供了對其模型如何利用晶片資源的精細控制。Amazon 提供了自己的內核控制軟體層 Neuron Kernel Interface (NKI),與 CUDA 類似,它允許研究人員對晶片內核交互進行精細控制。
重要的是要注意,Trainium2 尚未進行大規模測試。AWS 目前正在為 Anthropic 構建一個包含 400,000 個 Trainium2 晶片的伺服器集群,這可以為最佳化其 AI 晶片在大型部署中的效能提供有價值的見解。
7. Arm
英國半導體設計公司 Arm 長期以來一直是為手機、感測器和 IoT 硬體等小型設備供電的晶片架構的主要供應商。在邊緣設備晶片將執行 AI 模型的新興時代,這一角色變得更加重要。資料中心也將在這一演變中發揮關鍵作用,通常處理部分或全部最苛刻的 AI 處理並將結果傳遞到邊緣設備。
隨著資料中心在全球範圍內的激增,其電力消耗將成為一個日益緊迫的問題。根據該公司的說法,這一因素促成了 Arm 最新的 Neoverse CPU 架構對效率的重視。與使用競爭對手 x86 架構的處理器相比,它的效能比上一代提高了 50%,每瓦效能提高了 20%。
Arm 報告稱,Amazon、Microsoft、Google 和 Oracle 都已採用 Arm Neoverse 進行通用計算和基於 CPU 的 AI 推理和訓練。例如,在 2024 年,Microsoft 宣布其首款專為雲端設計的客製化晶片 Cobalt 100 處理器是基於 Arm Neoverse 構建的。一些最大的 AI 資料中心將依賴 NVIDIA 的 Grace Hopper Superchip,它結合了 Hopper GPU 和基於 Neoverse 的 Grace CPU。Arm 計劃在今年推出自己的 CPU,Meta 是其最初的客戶之一。
8. Gretel
在過去的一年中,AI 公司從使用從網路抓取的越來越多的資料來訓練其模型中獲得的回報遞減。因此,他們已將重點從訓練資料的數量轉移到其品質上。這導致對從出版商合作夥伴那裡獲得許可的非公開和專業內容的投資增加。AI 研究人員還需要解決其人工生成或人工註釋的訓練資料中的差距或盲點。為此,他們越來越多地轉向由專門的 AI 模型生成的合成訓練資料。
Gretel 在 2024 年因專注於創建和管理合成訓練資料而聲名鵲起。該公司宣布其旗艦產品 Gretel Navigator 全面上市,該產品使開發人員能夠使用自然語言或 SQL 提示來生成、增強、編輯和管理合成訓練資料集,以進行微調和測試。該平台已經吸引了超過 150,000 名開發人員的社區,他們已經合成了超過 3500 億條訓練資料。
其他行業參與者已經注意到 Gretel 的能力。Gretel 與 Google 合作,使其合成訓練資料可供 Google Cloud 客戶輕鬆訪問。6 月宣布了與 Databricks 的類似合作夥伴關係,允許 Databricks 的企業客戶訪問在其 Databricks 雲中運行的模型的合成訓練資料。
9. Mistral AI
Mistral AI 是法國在生成式 AI 領域的競爭者,它一直在對 OpenAI、Anthropic 和 Google 施加壓力,使其處於前沿 AI 模型開發的前沿。Mistral AI 在 2024 年發布了一系列包含重大技術進步的新模型,透過直接行銷其 API 和策略合作夥伴關係展示了快速的業務增長。
今年早些時候,該公司推出了一對名為 Mixtral 的開源模型,這些模型因其創新性地使用「專家混合」架構而聞名,其中只有模型參數的專門子集參與處理查詢,從而提高了效率。2024 年 7 月,Mistral 宣布推出 Mistral Large 2,該模型擁有 1230 億個參數,在程式碼生成、數學、推理和函數調用方面展示了顯著的改進。這家法國公司還發布了 Ministral 3B 和 Ministral 8B,這兩種較小的模型設計用於在筆記型電腦或手機上執行,能夠儲存使用者提供的大約 50 頁文本的上下文資訊。
Mistral 透過將自己定位為 OpenAI 等美國 AI 公司的低成本和靈活的替代方案,在歐洲取得了成功。它還在 2024 年繼續擴展到美國企業市場。6 月,該公司獲得了由風險投資公司 General Catalyst 領投的 6.4 億美元融資,使 Mistral 的估值達到約 62 億美元。
10. Fireworks AI
Fireworks 提供了一個客製化的執行時環境,簡化了通常與構建 AI 部署基礎設施相關的複雜工程工作。使用 Fireworks 平台,企業可以整合 100 多個 AI 模型中的任何一個,然後針對其特定用例對其進行客製化和微調。
該公司在 2024 年推出了新產品,這將使其能夠利用 AI 行業的關鍵趨勢。首先,開發人員越來越關注 AI 驅動的模型和應用程式的回應能力。Fireworks 推出了 FireAttention V2,這是一種最佳化和量化軟體,可加速模型效能並減少網路延遲。其次,AI 系統正日益演變成透過 API 調用各種模型和工具的「管道」。新的 FireFunction V2 軟體充當這些日益複雜的系統中所有組件的協調器,特別是當企業部署更多自主 AI 應用程式時。
Fireworks 報告稱,2024 年收入增長了 600%。其客戶群包括 Verizon、DoorDash、Uber、Quora 和 Upwork 等知名公司。
11. Snorkel AI
企業已經意識到,其 AI 系統的有效性與其資料的品質直接相關。Snorkel AI 透過協助企業準備其專有資料以用於 AI 模型,建立了一項蓬勃發展的業務。該公司的 Snorkel Flow AI 資料開發平台為公司提供了一種經濟高效的方法來標記和管理其專有資料,使其能夠用於客製化和評估 AI 模型以滿足其特定的業務需求。
2024 年,Snorkel 擴大了其支援範圍,以包括圖像,允許公司使用自己的專有圖像來訓練多模態 AI 模型和圖像生成器。它還將檢索增強生成 (RAG) 納入其平台,使客戶能夠僅從冗長的文件(例如專有知識庫內容)中檢索最相關的資訊片段,以用於 AI 訓練。Snorkel Custom 是一種新的、更高接觸的服務級別,涉及 Snorkel 的機器學習專家直接與客戶合作開展專案。
Snorkel 表示,其 2024 年的年度預訂量同比翻了一番,過去三年中每年的年度預訂量都實現了三位數的增長。根據該公司的說法,現在有六家最大的銀行以及 Chubb、Wayfair 和 Experian 等品牌使用 Snorkel Flow。
12. CalypsoAI
隨著 AI 在關鍵決策過程中發揮越來越重要的作用,企業正在尋求增強對模型內部運作的可見性。這種需求在受監管的行業中尤為明顯,這些行業必須持續監控偏差和其他意外輸出。CalypsoAI 是最早認識到這一新興需求的公司之一,並迅速在其 AI 基礎設施平台中提供了增強的可解釋性功能。
Calypso 的與眾不同之處在於其可觀察性技術的廣度。2024 年,該公司推出了其 AI 安全平台,該平台透過保護、審計和監控公司可能正在使用的所有活動生成式 AI 模型來保護企業資料,無論模型供應商是誰,也無論模型是託管在內部還是外部。Calypso 還推出了新的視覺化工具,允許使用者即時觀察 AI 決策背後的邏輯。
市場對 Calypso 對 AI 可觀察性的重視做出了積極回應。該公司報告稱,2024 年的收入增長了十倍,並預計 2025 年將進一步增長五倍。
13. Galileo
雖然與一年前相比,AI 系統出現的事實幻覺和偏差的情況有所減少,但它們仍然容易受到這些問題的影響。這對任何使用 AI 的企業,尤其是那些在醫療保健和銀行等受監管行業的企業來說,都是一個重大問題。AI 開發團隊使用 Galileo 的 AI 平台來衡量、最佳化和監控其模型和應用程式的準確性。
2024 年初,經過兩年的研究,Galileo 發布了 Luna,這是一套經過訓練以識別有害輸出的評估模型。這些模型使 Galileo 的平台能夠在 LLM 組裝構成其回應的標記時快速檢查和評分。此過程大約需要 200 毫秒,從而有足夠的時間標記並阻止 AI 的輸出顯示給使用者。雖然標準 LLM 可以執行此任務,但它會貴得多。Galileo 的專用模型提供了卓越的準確性、成本效益,以及至關重要的速度。
Galileo 報告稱,其 2024 年的客戶群翻了兩番,客戶包括 Twilio、Reddit、Chegg、Comcast 和 JPMorgan Chase。這家新創公司還從 Hugging Face 執行長 Clément Delangue 等投資者那裡獲得了 6800 萬美元的融資。
14. Runway
圍繞 AI 最重要的願望和焦慮之一是它有可能生成足夠品質的影片,從而徹底改變電影製作的藝術和經濟。這項技術在 2024 年朝著這個未來邁出了實質性的一步,總部位於紐約的影片生成新創公司 Runway 發揮了主導作用。Runway 的 Gen-3 Alpha 模型於 2024 年 6 月發布,因其生成的影片的可信度顯著提高而受到 AI 社區的廣泛讚譽。
Runway 還對其用於控制 AI 影片美學的工具進行了重大改進。該模型在圖像和影片上都進行了訓練,並且可以根據文本或圖像輸入生成影片。該公司隨後發布了 Gen-3 Alpha Turbo,這是 Gen-3 的更具成本效益和更快的版本。
好萊塢一直在密切關注生成式 AI 的進展,Runway 報告稱,它已開始為娛樂業參與者製作其模型的客製化版本。它於 2024 年 9 月與 Lionsgate Studios 建立了正式的合作夥伴關係。Runway 為這家製作公司開發了一個客製化模型,並在其電影目錄上對其進行了訓練。Runway 表示,該模型旨在協助 Lionsgate 的電影製作人、導演和其他創意人員「增強」他們的工作,同時「節省時間、金錢和資源」。Runway 認為,它與 Lionsgate 的安排可以作為與其他製作公司進行類似合作的藍圖。
15. Cerebras Systems
AI 系統,尤其是大型前沿模型,需要巨大的計算能力才能大規模運行。這需要互連數千或數百萬個晶片來分配工作負載。然而,晶片之間的網路連接可能會導致效能瓶頸。Cerebras Systems 的技術旨在利用將大量計算能力整合到單個超大晶片上的速度和效率優勢。
例如,該公司最新的 WSE-3(第三代晶圓級引擎)晶片尺寸為 814 平方毫米,相當於一個餐盤的大小,比 Nvidia 市場領先的 H100 晶片大 56 倍。該晶片包含驚人的 4 萬億個電晶體,並提供 44 Gb 的記憶體。這些晶片可以集群形成超級電腦,例如 Condor Galaxy,這是 Cerebras 與其最大的客戶 G42(一家總部位於阿聯酋的 AI 和雲端計算公司)合作開發的互連超級電腦的「星座」。
迄今為止,Cerebras 已經在大型研究機構中找到了一席之地,包括 Mayo Clinic、Sandia National Laboratories、Lawrence Livermore National Laboratory 和 Los Alamos National Laboratory。該公司於 2024 年 9 月申請了 IPO。招股說明書顯示,該公司的銷售額在 2023 年增長了兩倍多,達到 7870 萬美元,並在 2024 年上半年飆升至 1.364 億美元。