OpenAI 的 GPT-4.5:昂貴升級,微幅提升

性能提升:深入探討

OpenAI 的內部基準測試顯示,GPT-4.5 在幾個關鍵領域確實優於 GPT-4o。其中一個顯著的改進是它在多語言 MMMLU(一般知識)測試中的表現。GPT-4.5 獲得了 85.1% 的分數,超過了 GPT-4o 的 81.5%。這表明它對各種語言的一般知識有更廣泛和更深入的理解。

除了標準化測試,OpenAI 聲稱 GPT-4.5 減少了「虛構」(confabulations),更常見的說法是「幻覺」(hallucinations)。這意味著該模型不太容易產生虛假或誤導性資訊,這對於需要事實準確性的應用來說是一項至關重要的進步。更少的捏造回應實例標誌著朝著更高可靠性邁出了一步。

用戶體驗也有所提升,儘管幅度不大。OpenAI 的評估表明,在大約 57% 的互動中,用戶更喜歡 GPT-4.5 的回應,而不是 GPT-4o 的回應。雖然這不是壓倒性的勝利,但這種偏好表明模型輸出的整體品質和相關性有了顯著提高。互動感覺更自然,更符合用戶的期望。

另一個顯著的飛躍體現在 Simple QA Accuracy 上。在這裡,GPT-4.5 獲得了 62.5% 的分數,比 GPT-4o 的 38.2% 大幅提高。這表明該模型為簡單問題提供準確答案的能力顯著提高,展示了增強的理解和檢索能力。

情商:更像人類的互動

GPT-4.5 的與眾不同之處不僅在於原始性能指標,還在於其增強的情商 (EQ)。該模型旨在採用更自然和更具同理心的語氣,使互動感覺不那麼機械化,更具吸引力。這是朝著創建在溝通中感覺更像人類的 AI 邁出的重要一步。

  • 自然語氣: 對話更流暢,回應更能模仿人類的對話模式。
  • 同理心回應: 該模型展示了更強的能力來理解和回應對話的情感基調。
  • 引人入勝的互動: 整體體驗旨在更具吸引力,吸引用戶的注意力並促進更積極的互動。

這種增強的情商使 GPT-4.5 特別適合於需要類人互動的應用。客戶服務、虛擬助理,甚至治療應用都可以從這種更細緻、更具情感智慧的方法中受益。

此外,GPT-4.5 在「可操控性」(steerability) 方面表現出色。這是指模型以更高的精度解釋和回應細微提示的能力。用戶觀察到 GPT-4.5 對細微差別的掌握更強,使其能夠更有效地處理複雜或模棱兩可的查詢。它可以更好地辨別問題的潛在意圖,從而產生更相關和更有幫助的回應。

房間裡的大象:定價問題

儘管取得了進步,但 GPT-4.5 的定價已成為爭論的焦點。雖然它提供了優於 GPT-4o 的改進,但成本差異很大。對於輸入處理,GPT-4.5 的價格大約貴 30 倍,對於輸出生成,它的價格貴 15 倍。這種定價模式引發了人們對新模型價值主張的嚴重質疑。

核心問題是報酬遞減。雖然 GPT-4.5 無疑比其前身更大、更複雜,但性能提升似乎並未與成本增加成比例。這種差異導致 AI 社群中的許多人質疑邊際收益是否足以證明指數級的價格上漲是合理的。

過高的定價對可及性有重大影響。許多開發人員,尤其是那些獨立工作或為小型企業工作的開發人員,可能會發現 GPT-4.5 根本無法負擔。這造成了進入壁壘,可能會扼殺創新並限制該技術的廣泛採用。

考慮一個實際的例子:總結一本 300,000 字的小說(大約 450,000 個 token)並生成一份 50,000 個 token 的分析報告。使用 GPT-4.5,此任務將花費大約 41.25 美元。使用 GPT-4 完成相同的任務只需 1.6 美元。這種鮮明的對比凸顯了 GPT-4.5 給用戶帶來的財務負擔,尤其是對於大型項目。

這種定價策略引發了人們對 AI 開發領域內的可負擔性和包容性的擔憂。較小的實體和個人研究人員可能會被迫選擇較便宜但功能較弱的替代方案,這可能會阻礙他們與能夠負擔得起高昂成本的大型組織競爭的能力。

推理能力:仍在開發中

雖然 GPT-4.5 在多個領域展示了進步,但承認其局限性也很重要。該模型是使用預訓練、監督微調和來自人類反饋的強化學習 (RLHF) 開發的。但是,它尚未針對高級推理任務進行優化。

這意味著當前版本在嚴重依賴強推理技能的領域(例如數學和編碼)沒有帶來顯著的改進。這些領域需要更深層次的邏輯推理和問題解決能力,而 GPT-4.5 目前還不完全具備這些能力。

對於需要強大推理能力的任務,GPT-4o 仍然是領先的模型。看來 OpenAI 的策略涉及一個分階段的方法,GPT-4.5 的初始版本側重於一般知識、用戶體驗和情商等領域。該公司可能會將其重點轉向對 GPT-4.5 應用額外的 RL 訓練,專門用於增強其在後續迭代中的推理能力。這表明了對持續改進的承諾,未來的更新可能會解決當前在推理密集型任務中的局限性。
預計未來的增強將縮小差距,最終將 GPT-4.5 定位為基於推理的應用程式的領導者。

總體而言:

GPT-4.5 的發布呈現出一幅複雜的圖景。它展示了某些領域的進步,特別是在用戶體驗和情商方面。然而,定價模式引發了人們對可及性和整體價值主張的重大擔憂。雖然該模型代表著向前邁出了一步,但其成本效益仍然是 AI 社群爭論的話題。推理能力的局限性也突出了正在進行的開發過程,預計未來的更新將解決這些缺點。GPT-4.5 的發展軌跡將取決於 OpenAI 如何在性能、成本和可及性之間取得平衡,最終決定其對更廣泛的 AI 格局的影響。