OpenAI 近期推出了三款可透過 API 存取的新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。相較於先前的 GPT-4o 和 GPT-4o mini,這些模型代表著顯著的進步,在編碼能力和指令遵循方面展現了實質性的提升。此外,它們還擁有擴展的上下文窗口,能夠處理多達 100 萬個 tokens,並透過改進的長上下文理解能力,展現出更強大的運用擴展上下文的熟練度。值得注意的是,這些模型具有更新的知識庫,納入了截至 2024 年 6 月的資訊。本文深入探討了這些模型的具體細節,檢視它們的效能基準、定價結構以及對開發人員的影響。
GPT-4.1:OpenAI 新模型中編碼的革命
GPT-4.1 模型在幾個關鍵領域引入了典範轉移,尤其是在編碼、指令遵循和長上下文處理方面表現出色。其架構旨在更有效率且準確地解決複雜問題,使其成為各種應用中的領先模型。
效能基準
- 編碼: GPT-4.1 在 SWE-bench Verified 基準測試中獲得 54.6% 的分數,相較於 GPT-4o 提高了 21.4%,相較於 GPT-4 提高了 26.6%。這一成就突顯了其在處理編碼任務方面的卓越能力,使其成為行業領導者。
- 指令遵循: 在 Scale 的 MultiChallenge 基準測試中,GPT-4.1 獲得 38.3% 的分數,相較於 GPT-4o 提高了 10.5%。這一改進突顯了其增強的理解和執行複雜指令的能力,使其對於複雜的應用更加可靠。
- 長上下文: 在 Video-MME 基準測試中,該基準測試評估多模態長上下文理解,GPT-4.1 在長、無字幕類別中樹立了新的最先進水準,得分為 72.0%,超越 GPT-4o 6.7%。這證明了它處理和理解廣泛且多樣化資料流的能力。
雖然基準測試提供了量化的見解,但 OpenAI 強調,這些模型的開發非常重視實際應用。這種策略重點,加上與開發人員社群的密切合作,使 OpenAI 能夠針對與使用者最相關和最有價值的任務來改進模型。
實際應用
GPT-4.1 模型經過優化,以更低的成本提供卓越的效能,代表著整個延遲曲線的重大進步。這不僅使 AI 更容易存取,而且還推動了各種應用的創新。對於開發人員而言,這意味著創造更有效率且更具成本效益的解決方案,而不會犧牲效能。
GPT-4.1 Mini:小型模型效能的顯著躍升
GPT-4.1 mini 引入了小型模型效能的顯著躍升。該模型在眾多基準測試中超越了 GPT-4o,以更快的速度和更低的成本實現結果,使其成為尋求效率的開發人員的理想選擇。
GPT-4.1 mini 的主要屬性包括:
- 相較於前一代,延遲降低了近一半。
- 成本降低了 83%。
這些改進使 GPT-4.1 mini 成為需要快速反應且不損害準確性的應用的理想解決方案。其效能和效率的結合填補了可用 AI 模型範圍中的關鍵空白。
GPT-4.1 Nano:最快且最經濟實惠的可用模型
GPT-4.1 nano 是 GPT-4.1 系列中最快且最經濟實惠的模型。該模型特別適合於低延遲活動,例如分類或自動完成,在這些活動中,快速處理至關重要。
GPT-4.1 nano 的主要功能包括:
- GPT-4.1 模型中速度最快的處理時間。
- 最低的定價結構。
- 100 萬個 tokens 的上下文窗口。
這種組合使 GPT-4.1 nano 成為需要快速資料處理的應用的強大工具,為大量任務提供具有成本效益的解決方案。
效能指標
- MMLU:80.1%
- GPQA:50.3%
- Aider polyglot coding: 9.8%
這些基準測試證明了 GPT-4.1 nano 在各種任務中的熟練程度,突顯了其在語言理解、問題回答和編碼方面的平衡能力。
增強的可靠性和長上下文理解
GPT-4.1 模型提供改進的可靠性和全面的長上下文理解,使其非常適合為可以代表使用者獨立執行任務的 agents 提供動力。早期測試人員指出,GPT-4.1 可以對提示進行更字面的解釋,表明需要明確且具體的指令。這種精確度允許模型仔細執行指令,保證預期的回應。
對 GPT-4.5 Preview 的影響
GPT-4.5 Preview 已於 2024 年 7 月 14 日棄用,因為 GPT-4.1 以更低的成本和延遲提供改進的效能。 OpenAI 計劃在未來的模型版本中保持 GPT-4.5 中所享有的創造力、寫作品質、幽默感和細微差別。
GPT-4.1 的主要改進
GPT-4.1 在編碼、遵循指令和處理長上下文方面展現了實質性的改進。它在各種關鍵領域表現出色:
- 編碼任務: 主動解決編碼任務、產生可靠的程式碼差異,並擅長前端編碼。
- 指令遵循: 在遵守指定格式、處理多輪指令以及減少回應中不必要的過度自信方面有所改進。
- 長上下文處理: 有效率地從多達 100 萬個 tokens 的輸入中檢索和處理資訊。
這些改進使 GPT-4.1 成為在不同領域工作的開發人員的寶貴工具,因為它提供了精確度、可靠性和效率。它還旨在解決最困難的工程挑戰,確保使用者在所有應用中獲得最佳結果。
願景和多模態能力
GPT-4.1 系列擅長理解圖像和處理沒有任何字幕的影片,使其適用於多模態應用。
可訪問性和定價
GPT-4.1 系列模型廣泛提供給所有開發人員,其效率升級導致價格降低。
- GPT-4.1 定價:
- 輸入:$2.00
- 快取的輸入:$0.50
- 輸出:$8.00
- 混合定價:$1.84
- GPT-4.1 Mini 定價:
- 輸入:$0.40
- 快取的輸入:$0.10
- 輸出:$1.60
- 混合定價:$0.42
- GPT-4.1 Nano 定價:
- 輸入:$0.10
- 快取的輸入:$0.025
- 輸出:$0.40
- 混合定價:$0.12
GPT-4.1 在編碼任務中的應用
GPT-4.1 旨在解決編碼中的許多關鍵領域。這些包括主動解決編碼問題、程式碼差異和前端編碼。
- Agentic Coding: GPT-4.1 提供了改進的 agentic coding 能力,這意味著它可以獨立解決複雜的編碼任務。這使其能夠管理大型專案並解決問題,而無需持續的人工干預。
- 可靠的程式碼差異: 借助 GPT-4.1,產生可靠的程式碼差異非常簡單。這確保了程式碼庫的修改是準確的,從而降低了錯誤的機會並簡化了版本控制流程。
- 前端編碼: GPT-4.1 在前端編碼方面非常出色,使產生使用者介面等任務更有效率。它在該領域的卓越效率加快了 Web 開發流程,並產生了使用者友善、美觀的版面配置。
指令遵循卓越性
GPT-4.1 透過增強格式、管理多輪指令和減少過度自信來改進指令遵循。
- 改進的格式合規性: GPT-4.1 更擅長遵守所需格式,這鼓勵了所有輸出的一致性。這增強了它產生的資訊的一致性和可靠性。
- 多輪指令: 它熟練地管理多輪指令,並準確地理解和執行需要多個互動步驟的請求。這對於需要複雜對話的互動式應用是不可或缺的。
- 減少過度自信: 一個顯著的改進是它對過度自信的增強管理,當模型傳遞對不確定資訊過於積極的回應時。透過此改進,GPT-4.1 的自信與事實更緊密地對齊,從而防止傳播不準確或誤導性的資料。
GPT-4.1 用於長上下文處理
GPT-4.1 透過有效地從最多 100 萬個 tokens 的輸入中獲取來優化長上下文管理,這大大提高了它管理大量資料的能力。
- 高效檢索: GPT-4.1 透過有效地從最多 100 萬個 tokens 中檢索資訊來確保可以從廣泛資料集中快速且可靠地獲取資訊。這在文字摘要和分析等上下文繁重的應用中特別有用。
- 增強處理: GPT-4.1 採用創新的機制,在管理如此重要的上下文窗口時,可提高處理效能和準確性。其複雜的演算法允許它正確地管理和解釋上下文,從而產生適當且上下文豐富的見解。
以 GPT-4.1 徹底改變 AI
GPT-4.1 標誌著應用 AI 領域的巨大進步,有效地滿足了開發人員在管理上下文和編碼方面的實際需求。此進展旨在透過允許開發人員建立越來越先進和高效的 AI 系統來促進開發人員的創造力。
OpenAI 對創新和合作的承諾保證了其模型將繼續擴展,以滿足技術領域不斷變化的需求。 GPT-4.1 系列鼓勵開發人員以新穎的方式使用這些技術,方法是提供更好的準確性、效率和降低的費用。
總之,GPT-4.1 系列代表了人工智慧領域的重大進步,為開發人員提供了更高的可用性和可訪問性。由於其增強的效能、降低的成本和廣闊的上下文窗口,這些模型有望觸發 AI 領域的創新。開發人員社群正在焦急地等待基於 GPT-4.1 系列的新型應用發布,並且可能性是無窮的。