GPT-4.5 的規模與範圍
GPT-4.5 代表了 OpenAI 迄今為止在規模方面最具雄心的嘗試。雖然關於其架構和訓練數據的確切細節仍然很少,但眾所周知,其訓練過程對計算能力的要求非常高,以至於需要在多個數據中心之間進行分佈。僅此一點就暗示了投入其開發的巨大資源。
該模型的定價結構進一步強調了其作為高端產品的定位。其成本明顯高於其前身,比 GPT-4o 高出 15-30 倍,比 o1 高出 3-5 倍,比 Claude 3.7 Sonnet 高出 10-25 倍。目前,只有 ChatGPT Pro 訂閱者(每月 200 美元的高昂費用)和願意按 token 付費的 API 客戶才能使用。
然而,至少在某些領域,性能提升並沒有完全與價格標籤相符。初步基準測試顯示,與 GPT-4o 相比,GPT-4.5 僅有適度改進,甚至在推理任務中落後於 o1 和 o3-mini 等模型。
了解 GPT-4.5 的預期用途
重要的是要承認,OpenAI 從未明確將 GPT-4.5 作為其旗艦通用模型進行營銷。事實上,他們部落格文章的早期版本澄清說,它並不是要成為一個推動絕對能力邊界的’前沿模型’。此外,它主要不是設計為推理模型,因此與針對該目的優化的模型(如 o3 和 DeepSeek-R1)進行直接比較有些誤導。
OpenAI 已表示 GPT-4.5 將是其最後一個非 chain-of-thought 模型。這意味著它的訓練重點是嵌入大量的世界知識並與用戶偏好保持一致,而不是發展複雜的推理能力。
GPT-4.5 可能擅長的領域:知識和細微差別
較大模型的核心優勢通常在於其擴展的知識獲取能力。GPT-4.5 與此原則一致,與較小的模型相比,表現出較低的產生幻覺的傾向。這使得它在嚴格遵守事實和上下文信息至關重要的場景中具有潛在價值。
此外,GPT-4.5 表現出更強的遵循用戶指令和偏好的能力。OpenAI 的各種演示以及網上分享的用戶體驗都展示了這一點。該模型似乎更有效地掌握了用戶意圖的細微差別,從而產生更量身定制和相關的輸出。
關於散文質量的爭論:主觀性和潛力
關於 GPT-4.5 生成優質散文的能力,出現了一場激烈的討論。一些 OpenAI 高管稱讚該模型的輸出質量,首席執行官 Sam Altman 甚至表示,與它互動讓一些有洞察力的測試人員瞥見了’AGI’(通用人工智能)。
然而,更廣泛的反應顯然是褒貶不一。OpenAI 聯合創始人 Andrej Karpathy 預計在不太依賴純粹推理的任務中會有改進,強調了’EQ’(情商)、創造力、類比和幽默等領域——這些方面通常受到世界知識和一般理解的限制。
有趣的是,Karpathy 隨後進行的一項調查顯示,在寫作質量方面,用戶普遍更喜歡 GPT-4o 的回應,而不是 GPT-4.5 的回應。這突出了評估散文的內在主觀性,並表明熟練的提示工程可能會從更小、更高效的模型中引出相當的質量。
Karpathy 本人承認結果的模糊性,提出了各種可能的解釋:’高品味’的測試人員可能感知到其他人錯過的微妙結構改進,測試的例子可能不理想,或者差異可能太微妙,無法在小樣本中辨別出來。
擴展的局限性和 LLM 的未來
GPT-4.5 的發布,在某些方面,強調了僅僅擴展在海量數據集上訓練的模型的潛在局限性。Ilya Sutskever,OpenAI 的另一位聯合創始人兼前首席科學家,在 NeurIPS 2024 上著名地表示:’我們所知的預訓練無疑將結束……我們已經達到了數據的峰值,並且不會再有更多數據。我們必須處理我們擁有的數據。互聯網只有一個。’
在 GPT-4.5 上觀察到的收益遞減證明了擴展主要在互聯網數據上訓練並通過人類反饋強化學習 (RLHF) 進行微調以實現對齊的通用模型的挑戰。
大型語言模型的下一個前沿似乎是測試時擴展(或推理時擴展)。這涉及訓練模型通過生成 chain-of-thought (CoT) token 來’思考’更長的時間。測試時擴展增強了模型處理複雜推理問題的能力,並且一直是 o1 和 R1 等模型成功的關鍵因素。
不是失敗,而是基礎
雖然 GPT-4.5 可能不是每項任務的最佳選擇,但認識到它作為未來進步基礎元素的潛在作用至關重要。強大的知識庫對於開發更複雜的推理模型至關重要。
即使 GPT-4.5 本身沒有成為大多數應用程序的首選模型,它也可以作為後續推理模型的關鍵構建模塊。甚至有可能它已經在 o3 等模型中得到利用。
正如 OpenAI 首席研究官 Mark Chen 解釋的那樣:’你需要知識來建立推理。模型不能盲目地從頭開始學習推理。因此,我們發現這兩種範式相當互補,我們認為它們之間存在反饋循環。’
因此,GPT-4.5 的開發並不是一個死胡同,而是大型語言模型持續發展中的一個戰略步驟。這是人工智能研究迭代性質的證明,其中每一步,即使單獨看起來並不引人注目,也有助於實現更強大和多功能的人工智能系統的更廣泛進展。現在的重點正在轉向利用這個強大的知識基礎來構建模型,這些模型不僅可以回憶信息,還可以以前所未有的效率進行推理和解決問題。通往真正智能人工智能的旅程仍在繼續,GPT-4.5 儘管褒貶不一,但在這段旅程中發揮著重要作用。
現在的重點不僅僅在於模型知道多少,還在於它能多好地使用這些知識。這是人工智能界正在努力解決的核心挑戰,而 GPT-4.5 雖然不是一個完美的解決方案,但為未來的突破提供了寶貴的見解和堅實的基礎。前進的道路涉及多種方法的結合:改進現有技術、探索新架構以及開發更複雜的訓練和評估方法。最終目標保持不變:創建人工智能系統,不僅可以理解和生成人類語言,還可以以曾經被認為是人類智能專屬的方式進行推理、學習和適應。