推理模型被譽為大型語言模型 (LLM) 演進的下一個重大飛躍,尤其是在需要複雜問題解決的領域,例如數學和電腦程式設計,展現了卓越的進步。這些複雜的系統,其特點是額外的「推理訓練」階段,利用強化學習來微調其能力,以應對複雜的挑戰。OpenAI 的 o3 脫穎而出,成為一個開創性的例子,根據基準評估,其效能比其前身 o1 顯著提高。現在籠罩在這個領域的核心問題是這種進展的可持續性。這些模型能否僅僅透過增加運算能力,繼續以相同的速度發展?
Epoch AI 是一家專注於人工智慧社會影響的研究機構,已著手解開這個問題。Epoch AI 的數據分析師 Josh You 進行了一項全面的分析,以確定目前推理訓練的運算投資水平,並評估剩餘的擴展潛力。
推理模型背後的運算浪潮
OpenAI 公開表示,與 o1 相比,o3 在推理方面的訓練使用了十倍的運算資源——這是在短短四個月內實現的巨大增長。OpenAI 製作的圖表生動地說明了運算能力與 AIME 數學基準測試效能之間的密切相關性。Epoch AI 假設這些數字特別是指訓練的第二階段,即推理訓練,而不是完整的模型訓練過程。
為了將這些數字納入考量,Epoch AI 檢查了類似的模型。例如,據報導,DeepSeek-R1 的訓練使用了約 6e23 FLOP (每秒浮點運算次數),估計成本為 100 萬美元,其基準結果與 o1 相似。
科技巨頭 Nvidia 和 Microsoft 也為推理模型的開發做出了貢獻,提供了公開可用的訓練資料。Nvidia 的 Llama-Nemotron Ultra 253B 在其推理訓練階段使用了約 140,000 個 H100 GPU 小時,相當於約 1e23 FLOP。Microsoft 的 Phi-4-reasoning 使用的運算能力甚至更少,低於 1e20 FLOP。區分這些模型的關鍵因素是它們嚴重依賴其他人工智慧系統產生的合成訓練資料。Epoch AI 強調,由於真實資料和合成資料之間的固有差異及其對模型學習和泛化的影響,這種依賴使得與 o3 等模型的直接比較更加困難。
定義「推理訓練」:一個模糊地帶
另一個複雜的層面源於缺乏普遍接受的「推理訓練」定義。除了強化學習之外,一些模型還包含有監督的微調等技術。圍繞運算估計中包含的組件的模糊性引入了不一致性,使得準確比較不同模型之間的資源具有挑戰性。
截至目前,推理模型消耗的運算能力仍然遠低於最廣泛的人工智慧訓練運行,例如 Grok 3,其超過 1e26 FLOP。當今的推理訓練階段通常在 1e23 到 1e24 FLOP 之間運行,為潛在的擴展留下了相當大的空間——或者乍看之下似乎如此。
Anthropic 的 CEO Dario Amodei 也持有類似的觀點。他認為,在推理訓練中投資 100 萬美元可以產生顯著的進展。然而,各公司正在積極探索如何將此二級訓練階段的預算增加到數億美元甚至更多,這表明未來訓練的經濟效益將發生巨大轉變。
如果目前大約每三到五個月運算能力增加十倍的趨勢持續下去,推理訓練運算可能會早在明年就趕上領先模型的總訓練運算。然而,Josh You 預計,成長最終將減速至每年約 4 倍的增長,與更廣泛的行業趨勢保持一致。這種減速可能會受到多種因素的驅動,包括訓練投資的回報遞減、運算資源成本的增加以及可用訓練資料的限制。
超越運算:即將到來的瓶頸
Epoch AI 強調,運算能力並非唯一的限制因素。推理訓練需要大量的、具有挑戰性的高品質任務。獲取此類資料很困難;以合成方式產生此類資料更是如此。合成資料的問題不僅僅是真實性;許多人認為品質很差。此外,這種方法在數學和電腦程式設計等高度結構化領域之外的有效性仍然不確定。儘管如此,ChatGPT 中類似「深度研究」的專案(使用 o3 的客製化調整版本)表明了更廣泛的適用性潛力。
勞動密集型的幕後任務,例如選擇適當的任務、設計獎勵函數和開發訓練策略,也帶來了挑戰。這些開發成本通常不包括在運算估計中,但卻為推理訓練的總體費用做出了重大貢獻。
儘管存在這些挑戰,OpenAI 和其他開發人員仍然保持樂觀。正如 Epoch AI 指出的那樣,推理訓練的縮放曲線目前類似於在預訓練中觀察到的經典對數線性進展。此外,o3 不僅在數學方面,而且在基於代理的軟體任務方面也表現出顯著的收益,這表明了這種新方法的多功能潛力。
這種進展的未來取決於推理訓練的可擴展性——在技術上、經濟上和內容方面。以下幾點探討了將決定這些模型未來的幾個關鍵因素:
- 技術可擴展性: 指在不遇到無法克服的技術障礙的情況下,增加訓練中使用的運算資源的能力。這包括硬體、軟體和演算法的進步,以有效地利用更大的資料集和更強大的運算基礎設施。隨著模型規模和複雜性的增長,技術可擴展性對於持續進步變得越來越重要。底層架構需要不斷發展,才能跟上模型規模的龐大。
- 經濟可擴展性: 意味著在合理的預算限制內增加運算資源的可行性。如果訓練成本隨著模型規模線性或指數級增長,那麼追求進一步的收益可能會變得過於昂貴。因此,可能需要更便宜、更高效的訓練。硬體和優化技術的創新降低了每個 FLOP 的成本,對於經濟可擴展性至關重要。趨勢一直是關注更大的模型,但在預算有限的情況下,激勵將轉向訓練最有效的模型。
- 內容可擴展性: 強調了高品質訓練資料的可用性,這些資料可以有效地推動推理能力的提升。隨著模型變得更加複雜,需要更困難和多樣化的資料集來挑戰它們並防止過度擬合。此類資料集的可用性有限,尤其是在需要複雜推理的領域。合成資料生成技術可以幫助緩解這種瓶頸,但必須仔細設計,以避免可能降低模型效能的偏差或不準確性。
運算的未來
作為外行人,我們很容易認為我們正走在無限運算的道路上。然而,實際上,它是有限的,並且在未來,這種限制可能會變得更加明顯。在本節中,我們將探討運算在未來可能會發展的幾種方式,以及這些變化將如何影響 LLM 行業。
量子計算
量子計算代表了計算領域的範式轉變,它利用量子力學的原理來解決傳統電腦難以解決的問題。雖然仍處於起步階段,但量子計算在加速人工智慧工作負載(包括推理模型訓練)方面具有巨大的潛力。諸如量子退火和變分量子本徵解法器 (VQE) 之類的量子演算法,可能比傳統優化方法更有效地優化模型參數,從而減少訓練所需的運算資源。例如,量子機器學習演算法可以增強複雜神經網路的優化,從而縮短訓練時間並可能提高模型效能。
然而,擴大量子電腦和開發穩健的量子演算法仍然存在重大挑戰。該技術在很大程度上仍處於實驗階段,具有足夠量子位元(量子位元)和相干時間的實用量子電腦尚未輕易獲得。此外,開發針對特定人工智慧任務量身定制的量子演算法需要專業知識,並且是一個持續的研究領域。量子計算在人工智慧領域的廣泛採用仍然需要幾年的時間,並且只有在可以使用的電腦才能切實可行。
類神經計算
類神經計算模仿人腦的結構和功能來執行計算。與依賴二進制邏輯和順序處理的傳統電腦不同,類神經晶片利用人工神經元和突觸來以並行和節能的方式處理資訊。這種架構非常適合涉及模式識別、學習和適應的人工智慧任務,例如推理模型訓練。類神經晶片可以潛在地降低與訓練大型人工智慧模型相關的能耗和延遲,使其在經濟上更可行且在環境上更具可持續性。
英特爾的 Loihi 和 IBM 的 TrueNorth 是類神經晶片的例子,它們在人工智慧應用中展示了有希望的結果。與傳統 CPU 和 GPU 相比,這些晶片能夠以顯著更低的功耗執行複雜的人工智慧任務。然而,類神經計算仍然是一個相對較新的領域,在開發穩健的程式設計工具和優化類神經架構的演算法方面仍然存在挑戰。此外,類神經硬體的有限可用性以及類神經計算方面缺乏廣泛的專業知識,阻礙了該技術在主流人工智慧應用中的採用。
類比計算
類比計算利用連續的物理量,例如電壓或電流,來表示和處理資訊,而不是離散的數位訊號。類比電腦可以比數位電腦更快更有效地執行某些數學運算,例如微分方程和線性代數,尤其是在可能有助於推理的任務中。類比計算對於訓練模型或在需要時運行推理非常有用。
然而,類比計算在精度、可擴展性和可程式性方面面臨挑戰。類比電路容易受到雜訊和漂移的影響,這可能會降低計算的準確性。擴展類比電腦以處理大型複雜的人工智慧模型也是一項技術挑戰。此外,程式設計類比電腦通常需要專業知識,並且比程式設計數位電腦更困難。儘管存在這些挑戰,人們對類比計算作為數位計算在特定人工智慧應用中的潛在替代方案越來越感興趣,特別是那些需要高速和能源效率的應用。
分散式計算
分散式計算涉及將人工智慧工作負載分配到由網路連接的多台機器或設備上。這種方法允許組織利用大量資源的集體運算能力來加速人工智慧訓練和推理。分散式計算對於訓練大型語言模型 (LLM) 和其他需要大量資料集和運算資源的複雜人工智慧模型至關重要。
TensorFlow、PyTorch 和 Apache Spark 等框架提供了用於在機器叢集上分配人工智慧工作負載的工具和 API。這些框架允許組織透過根據需要添加更多運算資源來擴展其人工智慧能力。然而,分散式計算帶來了資料管理、通訊開銷和同步方面的挑戰。在多台電腦上有效分配資料並最大限度地減少通訊延遲對於最大限度地提高分散式人工智慧系統的效能至關重要。此外,確保正確同步和協調不同的機器或設備對於實現準確和可靠的結果至關重要。
結論
不可否認,推理模型的發展軌跡與運算資源的可用性和可擴展性息息相關。雖然目前由運算能力增強所推動的進展令人印象深刻,但包括高品質訓練資料的稀缺、運算成本的增加以及替代運算範例的出現等幾個因素表明,不受限制的運算擴展時代可能即將達到極限。推理模型的未來可能取決於我們克服這些限制並探索增強人工智慧能力的新方法的能力。有了所有這些資訊,我們可以假設,由於討論的眾多限制之一,推理模型能力的提升可能很快就會開始放緩。