OpenAI 發表 GPT-4.5,並非前沿模型

階段性進展,而非巨大飛躍

GPT-4.5 作為研究預覽版提供給 ChatGPT Pro 用戶。OpenAI 宣稱它是’目前最具知識的模型’,但最初的溝通表明,它的性能可能不及 o1 或 o3-mini 等模型。這表示其重點在於改進和效率,而不是突破性的進展。

增強功能,優化互動

用戶可以期待 GPT-4.5 帶來什麼?OpenAI 強調了幾個關鍵領域的改進:

  • 寫作能力: 該模型旨在成為更強大的寫作助手。
  • 擴展的世界知識: GPT-4.5 對現實世界的概念和資訊有更廣泛的理解。
  • ‘優化的個性’: OpenAI 聲稱與此模型的互動將感覺更自然、更直觀。

該公司強調 GPT-4.5 識別模式和建立聯繫的能力,使其特別適合寫作、程式設計和解決實際問題等任務。

並非前沿模型:理解其區別

儘管有這些增強功能,OpenAI 明確表示 GPT-4.5 並不代表進入全新能力的飛躍。一份洩露的文件(後來經過修訂)提供了進一步的背景資訊:

‘GPT-4.5 不是前沿模型,但它是 OpenAI 最大的 LLM,將 GPT-4 的計算效率提高了 10 倍以上,’ 文件指出。’與之前的推理版本相比,它沒有引入 7 個淨新增的前沿功能,並且在大多數準備評估中,其性能低於 o1、o3-mini 和深度研究。’

這種區別很重要。這表明雖然 GPT-4.5 在規模和效率方面是一個重大升級,但它並沒有像’前沿’模型那樣推動 AI 能力的邊界。

訓練和開發

報告顯示,OpenAI 利用其 o1 推理模型(代號 Strawberry)和合成數據來訓練 GPT-4.5。該公司確認結合了新穎的監督技術和既定方法:

  • 監督式微調 (SFT)
  • 人類回饋增強學習 (RLHF)

這些方法與開發 GPT-4o 時使用的方法相似。

解決幻覺問題並改善協作

一個顯著的改進是減少了幻覺。根據 OpenAI 的說法,GPT-4.5 產生幻覺的頻率低於 GPT-4o,甚至略低於 o1 模型。

OpenAI 研究員 Raphael Gontijo Lopes 強調了對協作的關注:’我們調整 GPT-4.5 使其成為更好的協作者,讓對話感覺更溫暖、更直觀、情感更細膩。’ 他指出,人類測試人員在各個類別中對 GPT-4.5 的評分都高於 GPT-4o。

CEO 的觀點:承認局限性

OpenAI 執行長 Sam Altman 在 X 上的一篇貼文中承認了 GPT-4.5 的本質:’巨大、昂貴的模型’,’不會打破基準’。這種坦率的評估強化了這樣一種觀點,即此次發布是關於漸進式進展,而不是革命性的突破。

發布計劃

GPT-4.5 的發布遵循分層方法:

  1. Pro 用戶: 作為研究預覽立即訪問。
  2. Plus 和 Team 用戶: 預計下週可用。
  3. Enterprise 和 Edu 用戶: 在 Plus 和 Team 用戶之後訪問。

該模型也可通過 Microsoft 的 Azure AI Foundry 平台獲得,同時提供的還有 Stability、Cohere 和 Microsoft 自己的產品。

準確性和減少幻覺

OpenAI 強調了 GPT-4.5 準確性的提高,聲稱它比其他模型產生更準確的回應並減少幻覺。這是向前邁出的關鍵一步,因為幻覺(產生虛假或無意義的資訊)一直是大型語言模型中持續存在的挑戰。

展望未來:GPT-5 和通往 AGI 之路

先前的報導顯示了 OpenAI 發布的時間表:GPT-4.5 在 2 月底之前發布,GPT-5 最早在 5 月底發布。Altman 將 GPT-5 描述為’整合了我們許多技術的系統’。預計它將納入 OpenAI 新的 o3 推理模型,該模型在該公司 12 月的’聖誕節 12 天’公告中被提及。

雖然 o3-mini 已經發布,但完整的 o3 模型將保留給 GPT-5 系統。這與 OpenAI 更廣泛的願景相一致,即結合其大型語言模型來創建一個更有能力的系統,可能接近人工通用智慧 (AGI) 的領域。

深入探討 GPT-4.5 的架構

雖然 OpenAI 尚未發布詳盡的技術細節,但根據現有資訊,可以推斷出 GPT-4.5 架構的幾個方面:

  • 更大的參數數量: 被描述為 OpenAI 的’最大 LLM’,可以合理地假設 GPT-4.5 的參數數量比其前身顯著增加。這種增加的容量可能有助於其改進的知識庫和推理能力。

  • 優化的計算效率: 洩露的文件提到與 GPT-4 相比,計算效率提高了’10 倍以上’。這表明架構的改進使模型能夠更有效地處理資訊,可能導致更快的響應時間和更低的能耗。

  • 增強的注意力機制: 鑑於對模式識別和建立聯繫的強調,GPT-4.5 很可能納入了注意力機制的進展。這些機制允許模型專注於輸入文本中最相關的部分,從而產生更連貫和上下文更恰當的回應。

  • 精煉的訓練數據: 使用’新的監督技術’暗示了訓練數據的質量和多樣性的提高。這可能涉及納入更多專業數據集,利用合成數據生成,或採用更複雜的方法來過濾和清理現有數據。

合成數據的作用

據報導,在訓練 GPT-4.5 中使用了合成數據,這一點特別值得注意。由 AI 模型本身生成的合成數據具有幾個潛在優勢:

  • 克服數據稀缺性: 它可以用來擴充現有數據集,特別是在現實世界數據有限或難以獲取的領域。

  • 解決偏差: 可以精心製作合成數據以減輕現實世界數據集中存在的偏差,從而產生更公平和公正的 AI 模型。

  • 探索假設情境: 它允許研究人員在現實世界中可能罕見或不可能觀察到的情境中訓練模型,增強它們處理意外情況的能力。

然而,使用合成數據也會引起擔憂:

  • 放大偏差的可能性: 如果沒有仔細控制,合成數據可能會無意中放大現有偏差或引入新的偏差。

  • 過度擬合的風險: 主要在合成數據上訓練的模型可能在類似的合成數據上表現良好,但在泛化到真實世界輸入時會遇到困難。

OpenAI 使用合成數據的方法可能涉及仔細的驗證和測試,以減輕這些風險。

‘優化的個性’:更深入的探討

OpenAI 聲稱 GPT-4.5 具有’優化的個性’,這很有趣。這表明 OpenAI 努力使模型的互動更具吸引力、更自然、更具情感智慧。這可能涉及多種技術:

  • 在對話數據上進行微調: 在大量人類對話數據集上訓練模型,以更好地理解語言、語氣和社交線索的細微差別。

  • 整合情感智慧模型: 整合專門設計用於識別和回應人類情感的模型,使 GPT-4.5 能夠相應地調整其溝通方式。

  • 使用人類回饋進行增強學習: 使用人類回饋來獎勵那些被認為更自然、更具吸引力和更具同理心的回應。

目標是創造更像人類的對話體驗,超越純粹的功能性互動,培養一種聯繫感和融洽關係。

對不同用戶群體的影響

GPT-4.5 的分層推出表明對不同用戶群體有不同的影響:

  • Pro 用戶: 作為早期採用者,Pro 用戶將有機會試驗模型的功能並向 OpenAI 提供回饋。這些回饋對於塑造模型的進一步發展至關重要。

  • Plus 和 Team 用戶: 這些用戶可能會在日常任務中受益於 GPT-4.5 改進的性能和優化的互動風格,例如寫作、編碼和研究。

  • Enterprise 和 Edu 用戶: 對於這些用戶而言,提高的準確性和減少的幻覺可能特別有價值,確保在專業和教育環境中獲得更可靠和值得信賴的結果。

  • Microsoft Azure AI Foundry 用戶: 該模型在此平台上的可用性擴大了開發人員和研究人員對該模型的訪問,促進創新和創建新的 AI 驅動應用程式。

更廣泛的背景:OpenAI 的策略

GPT-4.5 的發布雖然不是前沿模型,但符合 OpenAI 迭代開發和逐步邁向 AGI 的更廣泛策略。通過發布增量改進,OpenAI 可以:

  • 收集用戶回饋: 根據實際使用情況和回饋不斷完善其模型。

  • 管理期望: 避免過度炒作,並為每個版本設定切合實際的期望。

  • 保持競爭優勢: 在快速發展的 AI 領域保持領先地位。

  • 為未來的突破做好準備: 為更重大的進展奠定基礎,例如 GPT-5。

這種方法與其他一些 AI 公司的’大爆炸’發布形成對比,表明在開發和部署日益強大的 AI 系統方面採取更謹慎和有節制的方法。重點不僅在於突破可能的界限,還在於確保安全性、可靠性和用戶滿意度。
像 GPT-4.5 這樣的模型的開發和部署引發了許多問題:

  • 我們如何衡量模型是否具有“優化的個性”?
  • 減少幻覺的模型有什麼影響?
  • 發布非前沿模型的重要性是什麼?

這些都是很好的問題,但沒有明確的答案。