解碼 OpenAI GPT-4.5：十萬 GPU 與克服難題 | zh-TW

OpenAI 近期罕見地揭露了其雄心勃勃的模型 GPT-4.5 的開發細節。在模型發布一個多月後，OpenAI 的聯合創始人兼 CEO Sam Altman 與 GPT-4.5 專案的三位主要技術人員進行了一場坦誠的 45 分鐘對話，揭示了許多先前未知的挑戰，包括嚴重的時程延誤、計算集群中的頻繁故障以及難以預測的性能提升途徑。

GPT-4.5 的起源：為期兩年的奧德賽

GPT-4.5 專案於發布前兩年構思，代表了 OpenAI 迄今為止最精心策劃的 undertaking。它需要數百人的共同努力，Altman 指出，該專案實際上吸引了 OpenAI 的’幾乎所有人’。這種廣泛的參與突顯了 GPT-4.5 在組織更廣泛使命中的戰略重要性。

在開發階段，OpenAI 團隊遇到了他們所謂的’災難性問題’。部署一個 10 萬 GPU 的集群暴露了潛在的基礎設施漏洞，這些漏洞表現為不頻繁但影響深遠的故障。為了在效率和最佳性能之間取得平衡，系統工程師採用了一種迭代方法，本質上是’邊構建邊修復’。一個特別難以捉摸的錯誤困擾著集群，導致反覆出現錯誤，直到訓練過程達到約 40% 完成時才被發現。

矛盾的是，這些考驗有助於加強 OpenAI 的技術基礎。現在，僅由 5-10 人組成的精幹團隊就能夠複製一個 GPT-4 規模的模型。從 GPT-4 到 GPT-4.5 的性能飛躍，估計約為十倍，其特點是’難以量化但全面增強的智能’，甚至讓 OpenAI 內部的人都感到驚訝。這種質的飛躍表明，除了單純的擴展之外，該模型在推理和理解能力方面也取得了根本性的進步。

展望未來，OpenAI 認識到，實現下一個數量級的性能提升不僅取決於計算能力，還取決於數據效率。重點正在轉向開發能夠從現有數據集中提取更多知識的算法，從而最大限度地提高可用計算資源的效用。

此外，架構正在從單集群演變為多集群設計，設想未來涉及多達 1000 萬個 GPU 協同學習的訓練場景。這種轉變需要顯著提高容錯能力，以確保如此大規模分散式系統的穩定性和可靠性。

對話還深入探討了數據的’長尾’與縮放定律之間的關係、機器學習和系統團隊（協同設計）緊密合作的優勢、無監督學習的本質以及精益求精解決問題的文化。

除了 Altman 之外，參與此次對話的其他三位 OpenAI 團隊成員是：

Alex Paino： 負責 GPT-4.5 的預訓練機器學習算法。
Amin Tootoonchian： OpenAI 的首席系統架構師。
Daniel Selsam： 研究數據效率和算法。

GPT-4.5 的起源與演進

Sam Altman： 構建像 GPT-4.5 這樣的大型模型，真正需要什麼？

Alex Paino： 我們大約在兩年前啟動了這個專案。當時，OpenAI 即將推出一個新的大型計算集群，我們的團隊看到了這個機會，並完成了一系列任務，以確定模型需要包含的功能，並進行了大量的風險降低操作測試。

我們為此制定了一個長期計畫，涉及從系統到機器學習的整個技術堆疊。降低風險和準備訓練是一個漫長的執行過程，而訓練本身也是一個非常大的專案。

Amin Tootoonchian： 我認為這個過程需要機器學習團隊和系統團隊從一開始就密切合作，直到我們清楚地知道我們想要訓練什麼模型，然後才開始訓練。

我們在機器學習和系統方面都做出了預測，試圖盡量減少期望與現實之間的差距。但是，由於我們的工作節奏非常快，而且我們必須使用最新的計算資源，模型訓練已經變成了一件難以提前完美規劃的事情。

我們幾乎總是從許多尚未解決的問題開始訓練，並嘗試在過程中克服挑戰並取得進展。主要的解決方案是增加更多的計算資源。

最後階段是執行，這需要許多人投入大量的精力和動力，才能長時間地完成訓練過程。

Sam Altman： 您認為我們的期望與現實之間的差距有多大？

Amin Tootoonchian： 就系統而言，在開始時，我們通常遠離預期的狀態。我們始終面臨一個選擇：是推遲發布並等待問題得到解決，還是儘早開始並在過程中解決問題。這總是需要權衡取捨，以避免過程中出現不合理的延誤。

但是幾乎總是會出現意想不到的問題，而我們必須做的是盡可能地處理這些節點，處理未知因素，並制定模型訓練計畫。

Alex Paino： 在這個專案中，我們的目標是製造 GPT-4.5，這意味著它的能力應該比 GPT-4 聰明 10 倍。這是我們大約在 2 年前設定的最初目標。

在這個過程中發生了很多事情。我們一直在思考，我們是否可以做得比預期的更好或更差？這是一個非常複雜的過程，但最終，就我們投入的有效計算而言，我們得到了一個我們認為比 GPT-4 聰明 10 倍的模型。

Amin Tootoonchian： 就執行而言，在 GPT-4.5 專案上花費的時間遠遠超出了我們最初的預期。

精簡團隊革命：以最少的資源訓練 GPT-4

Sam Altman： 當集群從 10,000 張卡擴展到 100,000 張卡時，為什麼會遇到這麼多問題？

Amin Tootoonchian： 我認為，如果系統開發人員足夠敏感，則大多數問題都可以在小規模階段觀察到。

還有一些問題並非大型訓練階段所獨有，但最初發生頻繁，但在規模擴大後會變成災難性問題，尤其是在團隊事先沒有預料到這些問題會惡化到如此程度的情況下。

Sam Altman： 什麼事情導致了災難性的後果？

Amin Tootoonchian： 我認為基礎設施問題是眾所周知的。故障率、故障類型和故障總量非常高。100,000 張卡的集群是一個大型範例池，因此我們也發現了計算能力供應商沒有觀察到的問題。

網絡是其中的一部分，個別加速器也可能存在問題。但這也是這個系統的優點 - 幾乎所有元件都需要按預期工作才能產生預期的結果。我們的工作是盡可能地減少這個問題。

Sam Altman： 在集群規模的極限下工作確實很困難，但我也注意到，做不再處於技術最前沿的事情已經變得容易得多。訓練 GPT-4.5 需要數百人，OpenAI 的幾乎每個人都參與其中。

但是今天，如果你讓你從 OpenAI 中挑選一個最小的團隊，並利用我們所知道的所有知識和所有的系統工作從頭開始重新訓練 GPT-4，需要多少人？

Alex Paino： 我認為現在可能需要大約 5 到 10 個人才能製作出 GPT-4 級別的模型。在完成 GPT-4.5 的過程中，技術堆疊得到了極大的改善。

事實上，我們在訓練 GPT-4.5 的過程中也做過類似的事情 - 我們訓練了 GPT-4o，這是一個 GPT-4 級別的模型，並使用來自 GPT-4.5 研究專案的許多相同內容重新訓練了它。該訓練使用了較少的人。

數據效率：解鎖下一代模型的關鍵

Sam Altman： 從你的角度來看，Dan？為什麼訓練大型模型很困難？

Daniel Selsam： 我認為做任何新的事情都很困難。我認為即使只是發現別人做過某件事也會讓事情變得容易得多，因為最困難的部分是首先要有你能夠做某件事的信念。我認為僅僅知道某件事是可行的就是一個超級作弊碼，讓事情變得容易得多。

Alex Paino： 我們正在將 GPT 預訓練操作擴展到之前的 10 倍，我們總會發現一些有趣的、你無法預測的新事物。

Sam Altman： 要實現預訓練規模的下一個 10 倍或 100 倍增長，需要什麼？

Daniel Selsam： 數據效率。Transformer 架構（即 GPT）在使用數據方面非常有效。它可以很好地吸收和壓縮信息並實現泛化。它最大的特點是它可以利用計算資源有效地吸收信息。

但是，它從數據中獲得的洞察深度是有限的。當計算能力快速增長而數據增長相對緩慢時，數據就會成為這個標準模型的瓶頸。這需要算法創新，開發可以使用更多計算能力從相同數量的數據中學習更多知識的方法。

Sam Altman： 除了這個之外，你認為我們還需要什麼來維持擴展？

Amin Tootoonchian： 我的答案是關於系統的。我認為 GPT-4.5 需要的大量工作本質上是模型規範的必然結果。我們不能使用與 GPT-4 完全相同的技術架構來訓練 GPT-4.5。

在狀態管理方面，由於所需的計算資源已經超過了單個集群的承載能力，我們必須切換到多集群訓練架構。為了實現這個目標，我們必須在短時間內整合多個不同的工作流程。

儘管這確實幫助我們實現了階段性的突破，要實現下一個數量級的性能改進，我們仍然需要解決幾個已知但暫時擱置的技術問題 - 這些問題是無法避免的。正是這種技術權衡不斷地延長了完美系統的開發週期。我們總是在追求最佳實現方案的過程中做出戰略性的權衡。

需要明確的是，系統本身並不是最終目標。它的實際輸出值是核心考慮因素。對於下一個 10 倍的性能改進，我認為容錯方面的突破至關重要。我們需要構建一個與工作負載深度協作的容錯機制，以顯著降低操作和維護的焦慮。當前超大型系統的操作和維護複雜性與以前的系統有本質上的不同。

Sam Altman： 你知道在 GPT-4.5 訓練期間，有多少百分比的故障是由某些元件引起的嗎？

Amin Tootoonchian： 我沒有具體的數字可以分享，但總的來說，新一代硬件的初始部署往往面臨許多尚未完全理解的技術挑戰。我們選擇在問題完全闡明之前推進專案，這導致了較高的初始故障率。

但經驗表明，隨著根本原因被識別和解決，故障率將顯著降低。這種現象本質上反映了我們對基礎設施的加深理解 - 有些人稱之為清理基礎設施或理解基礎設施的基本問題。

執行的早期階段幾乎總是相當痛苦。當我們推進專案時，我們也在不斷地發現和解決新的故障模式，但最終故障率會逐漸降低，正常運行時間會增加。

這本質上是一個優先級權衡的問題：在基礎設施生命週期的早期階段，其故障風險通常難以準確估計；如果我們過度追求最終的理想狀態（原文是’City Estate’，理想的城市國家設計），可能會導致系統的初始可用性性能極差。

超越計算：算法創新和數據的未開發潛力

Sam Altman： 儘管推理模型是我們未來技術堆疊的關鍵元件，但讓我們暫時關注傳統預訓練模型的開發邊界。假設我們擁有無限的 GPU 計算能力、無限的網絡頻寬和無限的電源供應，但仍然受到現有技術瓶頸的限制 - 包括系統可靠性問題、缺乏容錯訓練方法以及現有數據集的限制。

根據我們為每個主要 GPT 版本號實現 100 倍規模增長的演進規則，基於當前的技術邊界，預訓練模型的開發可以達到什麼水平？具體而言，對於 GPT 系列模型，基於我們現有的知識系統，理論上可以訓練出什麼樣的模型？我們可以製造 GPT-5.5 嗎？

Alex Paino： 從機器學習和算法開發的角度來看，我們尚未達到明確的理論極限。事實上，我們才剛剛開始探索具有更高數據效率的算法，以及如何更充分地利用現有的數據資源。這種情況非常有趣 - 即使像 GPT-4 這樣的模型，也很大程度上是在計算資源有限的條件下開發的，這決定了之前大多數研究的方向。

但現在的情況完全不同了。自 GPT-4.5 以來，在一些關鍵的維度上，數據而不是計算正在成為主要的約束。這種轉變使得相關的研究不那麼令人興奮。

Sam Altman： 但這確實是一個了不起的進展，而且世界可能沒有完全意識到計算資源不再是我們可以構建的最佳模型的主要瓶頸。這種轉變非常有意義，畢竟，我們已經在計算受限的環境中生活了太久。

揭示驚喜：可預測性與不可預見的智能

Sam Altman： 在 GPT-4.5 的訓練過程中，我們學到的最有趣的機器學習經驗是什麼？說說你想分享的內容即可。

Amin Tootoonchian： 總的來說，最發人深省的事情是那些偏離我們預測的事情 - 尤其是當我們試圖理解為什麼實際性能偏離預期曲線時。

Alex Paino： 對我們來說，最令人驚訝的發現之一是，不同的機器學習元件具有非常不同的可擴展性性能。某些部分可以很好地擴展，而另一些部分則不能。這是我們在實際訓練過程中真正意識到的。這種經驗給了我們很多的啟發。

Daniel Selsam： 我認為 GPT 範式的兩個核心特徵是：首先，可以準確預測測試損失（一種衡量模型在未見過的測試數據上的性能的指標）；其次，模型性能隨著規模的增大而呈現出可預測的改進。更令人驚訝的是，測試損失的減少將轉化為一種全方位增強的智能水平，以各種難以量化但令人驚嘆和神秘的方式呈現。

Sam Altman： 你對此絕對樂觀嗎？你完全同意這種觀點嗎？

Daniel Selsam： 實際上，我想說的是，我們在 GPT-4.5 的測試中發現了一個特別有趣的現象 - 在重新測試後，模型所表現出的許多複雜的能力完全超出了所有人的預期。

我們確信它會以各種難以提前定義的方式變得更聰明，並且可以從實際部署後用戶的滿意度中觀察到這些細微的改進：更強的常識儲備、更準確的上下文理解能力以及更細微的語義掌握 - 這是那些額外的測試損失帶來的魔力。在我看來，縮放定律在這個維度中得到了完美的驗證。

協同的力量：機器學習和系統團隊的和諧工作

Sam Altman： 在整個訓練過程中，最積極的時刻是什麼？你最喜歡的回憶是什麼？顯然有很多痛苦，但我希望這種痛苦已經得到緩解。

Alex Paino： 我確實有這樣一個時刻。我們在訓練過程中做了很多機器學習工作，我認為我們在過程中做的一些改變產生了相當好的影響，甚至可能比預期的更好，這對我們來說是一個非常激動人心的時刻。

Amin Tootoonchian： 對我來說，在訓練的同時，我們也在構建基礎設施。我們堅信我們可以跨越這個性能懸崖，而且我們有一個計畫，每個人都在執行它，但這需要很長的時間。這很辛苦，而且絕對比我想像的要困難。我的預測是錯誤的，我低估了解決這些問題所需的時間。

當團隊最終克服了那些關鍵問題並且性能得到顯著提升的那一刻，仍然讓我記憶猶新。你可以清楚地感受到整個團隊的能量轉變 - 每個人突然都充滿了能量，並帶著新的動力衝向最終目標。

最令人驚訝的是，我們狀態跟蹤器上顯示的估計完成時間從最初的兩年不斷縮短，最終鎖定在一個明確的時間節點上。這種可見的進展對團隊士氣的提升是無法估量的。我認為這就是它的魅力所在。

我想強調的是，機器學習工作從未停止過。即使在訓練開始後，這種機器學習協同設計過程仍在進行中。機器學習團隊不僅積極跟進了那些已被標記為’後續處理’的問題，而且還繼續交付真正優化訓練時間的改進。

這完美地體現了我們的團隊精神 - 這裡沒有’各人自掃門前雪’的工作界限，而是一種真正無縫的協作。這種凝聚力是我們最大的優勢。

GPT-4.5 預訓練中的精心規劃和對異常的鍥而不捨的追求

Daniel Selsam： 外界已經討論了很多關於這次訓練本身的挑戰和預測準確性的問題。但事實上，所有這一切都建立在極其精心的規劃之上 - 你能詳細談談這個嗎？

Alex Paino： 這絕對是我們迄今為止製定的最精心的計畫。正如我所說，我們在正式啟動訓練前一年就開始為這個專案做準備。在此期間，我們進行了多次大規模的風險控制測試運行。

我們特別注意逐步引入所有改進：從一個高置信度的基本配置開始 - 可以理解為一個類似於 GPT-4 的成熟架構，我們已經在機器學習層面完全掌握了這個配置 - 然後像積木一樣分層添加新功能。

關鍵是在不同規模上嚴格驗證每個改進的可擴展性：不僅要看到性能改進，還要確保這些改進可以隨著模型規模的增加而繼續有效。許多改進在小規模測試中表現良好，但在大規模應用中會失敗。

因此，我們在整個過程中保持了高度的警惕，並繼續迭代和改進我們的縮放定律方法。通過這種風險控制實踐，我們積累了大量寶貴的經驗，這些經驗將繼續指導未來 GPT 系列模型的開發。

Amin Tootoonchian： 我記得一個我非常懷念的特別有趣的時刻。你知道，我們幾乎不可避免地每次開始訓練任務時都會遇到各種錯誤，這很常見。但關鍵是要確保進展不受阻礙，而且我們必須始終確認當前的進展是否確實在正確的軌道上，以及這些錯誤是否會對訓練的健康狀況產生致命的影響。

儘管我們最初非常確定存在重大缺陷，但通過我們構建的整個監控系統，我們能夠準確地區分問題的根本原因：是硬件故障嗎？是什麼類型的硬件故障？是數據損壞嗎？還是機器學習模型本身的錯誤？還是代碼中的競賽條件？

當時，我們同時打開了多個問題討論區，其中包含各種各樣的症狀。經過一系列錯誤修復後，我們陷入了僵局：多個尚未解決的問題堆積在我們面前，每個人都在絞盡腦汁 - 這些是由於不同的錯誤引起的嗎？還是是一個錯誤在製造麻煩？

後來，我們舉行了一次投票，要求團隊成員投票選出最可能的根本原因。結果，最不樂觀的選項擊中了真相：原來 PyTorch 的上游的 torch.sum 函數存在問題，這是一個簡單的求和運算。

這個錯誤非常有趣。你知道我們主要使用 Triton 內核，只有在一些微不足道的邊緣場景中，我們會退回到 torch 運算。我們特定的代碼路徑觸發的 torch.sum 函數錯誤偶爾會由於數據分佈特性而導致非法內存訪問 - 它在計算內存偏移量時出錯。

最戲劇性的是，當一位工程師最終定位到問題並提交修復後，所有具有不同症狀的錯誤都消失了。每個人都興奮地將 Slack 頻道從’多錯誤理論’更改為’單錯誤理論’，現場非常歡樂。

這個錯誤潛伏了多久？它從訓練的早期階段就存在了，直到進度條通過大約 40% 時才被發現。發現過程也充滿了戲劇性：當時，一個複雜的內核連續調用一個序列，第二次調用觸發了非法內存訪問。

儘管這種崩潰頻率極低（它僅在每幾百甚至幾千個訓練步驟中發生一次），但它很容易被忽略為偶爾的故障，但我們的團隊原則是：永遠不要放過任何異常情況。這個故事最精彩的部分在於這種不輕易放棄的堅持。

追求理想系統：遙遠的地平線

Sam Altman： GPT-4.5 預訓練開始後，你們還需要做什麼？

Alex Paino： 我們所有人都需要經常觀察損失曲線。此外，我們需要不斷地優化系統並改進在訓練開始前沒有完成的協同設計。我們密切監視訓練過程中的各種統計指標，以確保沒有意外的異常趨勢。同時，我們從機器學習的角度探索可能的改進計畫。儘管數據層面的工作在預訓練開始後會暫時減少，但仍有大量的任務需要處理。

Amin Tootoonchian： 我認為機器學習很大程度上取決於判斷的正確性。在預訓練開始後，面對大量的噪聲信號，我們就像算命先生解讀茶葉一樣，我們需要判斷系統是否健康。這是我們的責任。

Sam Altman： 在系統層面，是什麼限制了我們進行模型訓練？是芯片、處理器、內存、網絡還是電源？

Amin Tootoonchian： 系統的優點在於，在進行協同設計時，工作負載可以適應您構建的基礎設施。這裡沒有一般的說法說網絡是瓶頸，或者內存帶寬是瓶頸等等。即使對於相同規格的模型，我們也可以選擇轉移資源需求，而且我們可以選擇創建一個更平衡的系統，但擁有更多的內存帶寬總是有益的。在沒有限制條件的情況下很難回答這個問題。

在設計 GPT-4.5 時，我們可能需要系統具有某種屬性，這需要在人為指導下生成。因此，協同設計對於形成模型架構和架構元素非常重要，並且在一定程度上將系統和機器學習方面聯繫起來。如果系統具有我們不太希望擁有的屬性，我理想的情況是，一切都應該解耦，以給予彼此最大的空間。

有時事情是聯繫在一起的，而且我們需要滿足基礎設施的要求，或者事情應該是這樣的。大多數時候，我們需要一個平衡的系統和平衡的通信。我們擁有的最佳調整手段就是所有這些協同設計。

Sam Altman： 我們離這個理想的系統目標有多遠？

Amin Tootoonchian： 離這個目標還很遠。構建系統的過程始終是這樣的：首先有一個關於事物應該如何運作的理想化視圖，然後協調那些與現有資源的差異。

我認為我們不是為了理論而做理論，而只是為了討論我們希望它變成什麼樣子，實現它，並盡可能地接近那個理想。這可能是系統領域最令人興奮的部分。人們過去常說這是一個優雅的系統設計，最終歷史會告訴我們這個選擇是對是錯。

Sam Altman： 如果你可以在下一次大型訓練之前獲得一個機器學習問題的答案，你最想知道什麼？

Alex Paino： 我想知道在有限的數據和特定領域下，我們應該使用什麼算法。儘管這是一個廣泛的問題，但它確實是最關鍵的問題。

Sam Altman： 你們未來會使用 1000 萬個或更多的 GPU 進行同步預訓練嗎？

Alex Paino： 我認為會有，但它可能不是一個傳統的預訓練模型。它的形式可能與現有技術非常不同，但它仍然會保留無監督學習的核心。

Amin Tootoonchian： 我更喜歡半同步模式。由於物理定律，完全同步是不現實的。

Daniel Selsam： 我認為更有可能去中心化。肯定會有 1000 萬個 GPU 在一個 AI 系統中協同工作來學習和執行任務，但就像大腦的各個部分一樣，它們可能不一定會相互通信。

算法改進和數據效率的協同力量

Sam Altman： 最先進的算法與人類數據效率之間的差距有多大？我們能否希望在未來趕上？

Daniel Selsam： 很難直接比較兩者。在語言學習方面，差距肯定很大。關鍵是如何定義人類視覺神經接收到的信息量。我認為算法通常比人類的數據效率低得多。

幾十年來，深度學習一直專注於計算能力效率。除了數據和計算能力的增長之外，真正令人驚訝的是算法改進產生的協同效應。每次算法性能提高 10% 或 20%，當疊加在數據效率上時，都會產生顯著的效果。到目前為止，還沒有圍繞數據效率的動員，因為當數據不流通且計算能力有限時，這種方法是不值得的。

現在，我們正在進入 AI 研究的新階段，我們將開始積累數據效率方面的勝利。我認為現在預測我們將遇到無法克服的障礙有點愚蠢。人腦的工作方式肯定與我們的算法改進不同，我們應該在這方面保持謹慎。但我認為我們應該對算法的未來發展保持樂觀。

Sam Altman： 更大規模的預訓練與模型更強的學習和推理能力之間有什麼關聯？

Alex Paino： 我們觀察到的是，更好的預訓練和無監督學習通常會提高模型的整體智能，並且對泛化有很大的幫助。這與推理能力互補，而推理能力在提高智能方面可能較為遲緩。我認為它們是互補的。

Sam Altman： 預訓練似乎在很多事情上都是通用的，而訓練一個模型只能讓它在做一種類型的事情上做得很好，是這樣嗎？

Alex Paino： 這非常有趣，但當你看到訓練它們的數據時，你不會對這種情況感到驚訝。預訓練數據集的範圍非常大，我們追求的是廣度和多樣性。當涉及到模型強化學習並使其清楚地獲得良好的獎勵信號和良好的訓練環境時，我認為很難平衡數據集的廣度。

Daniel Selsam： 我同意，但我認為還有另一個因素。預訓練本質上是壓縮數據，從而發現不同事物之間的聯繫。它是關於類比和更抽象的。推理是一種需要仔細思考特定問題的技能，也可以獲得許多類型問題的解決方案。但是，在預訓練過程中，當跨不同領域壓縮數據時，可以學習到更抽象的知識。

智能的本質：壓縮和長尾效應

Sam Altman： 為什麼無監督學習有效？

Daniel Selsam： 關鍵是壓縮。智能的理想形式是 Solomonoff 歸納。總的來說，機器學習會考慮所有可能性，但傾向於從測試更簡單的程序開始。

當前預訓練的本質是一個壓縮過程，它通過找到最簡單的程序來解釋迄今為止人類產生的所有數據，從而實現近似表達。

Sam Altman： 下一個 Token 預測如何幫助實現壓縮？

Daniel Selsam： 統計學中存在一個悖論 - 為什麼深度網絡即使看起來無法壓縮也能實現泛化？通常，當您有很多數據和一些小型模型時，這些模型必須經過壓縮才能學習到一些東西。

在預訓練中，數據和模型的規模非常大。有些人認為這種訓練只是記憶和插值學習。事實上，他們忽略了壓縮的另一種理解角度 - 預先壓縮。它就像一個壓縮器。即使數據權重非常大，二進制也不需要存儲此信息。下一個 Token 預測的結果可以快速檢索有用的信息並提高壓縮效率。

Sam Altman： 訓練 GPT-4.5 的過程花費了大量的人力、時間和金錢，這實際上可以被視為驗證縮放定律的實驗，而結果證明它是有效的，而且將會持續很長時間。為什麼縮放定律可以被稱為宇宙定律？

Daniel Selsam： 壓縮程度越高，智能就越強。這具有深刻的哲學內涵。為什麼訓練更大的模型需要更長的時間，而且壓縮率更高？這涉及到許多理論，其中我喜歡稀疏表示。

現實中的關鍵概念遵循冪律分佈。例如，第 100 個重要的概念可能只在每 100 份文件中出現一次，而且存在明顯的長尾效應。這種分佈特性導致需要大規模的數據和計算能力才能有效地捕獲所有關鍵概念，並且也決定了縮放定律將繼續長期有效地存在。

更新於 2025-04-15

# OpenAI # GPT # AGI