人工智慧領域隨著 Anthropic 推出 Opus 4 和 Sonnet 4,Claude 系列的最新版本,見證了又一次重大飛躍。這些模型在一周多前發布,迅速引起了人們的注意,特別是在程式碼這個關鍵領域,樹立了新的基準。除了它們的程式碼能力之外,Opus 4 和 Sonnet 4 還展示了強大的推理和代理功能,將它們定位為當代人工智慧領域的關鍵進展。
Opus 4 是 Anthropic 迄今為止最複雜的創造,被該公司譽為其最強大的模型,並聲稱其是「世界上最好的程式碼模型」。作為 Opus 4 的補充,Sonnet 4 作為一種更經濟的替代方案出現,旨在在卓越的性能和實際的成本效益之間取得最佳平衡。這種具有戰略意義的雙重產品滿足了廣泛的用戶需求,從那些需要最佳性能的用戶到那些尋求更具預算意識的解決方案的用戶。
Opus 4 和 Sonnet 4 中引入的增強功能值得注意。主要亮點是它們增強的程式碼能力。 Opus 4 已經在關鍵基準測試中展示了其領導地位,包括 SWE-bench 和 Terminal-bench,而 Sonnet 表現出類似的能力。程式碼性能的這次飛躍突顯了人工智慧在軟體開發中日益增長的重要性。
除了性能改進之外,Anthropic 還優先考慮安全性。 Opus 4 整合了 ASL-3 或 AI 安全等級 3 保護。此措施源於 Anthropic 的”負責任的擴展政策”。 Anthropic 由前 OpenAI 員工創立,他們擔心安全性,並始終強調在穩健的安全考慮因素下進行創新。
Opus 4 和 Sonnet 4 的發布普遍引起了開發人員和用戶的積極反饋。增強的程式碼能力被譽為朝著自主或代理 AI 系統邁出的重要一步。定價結構也受到了好評,它模仿了前幾代產品,同時提供高級選項和具有成本效益的選項。
Opus 4 的發布並非沒有爭議。 Anthropic 的一位研究人員透露,如果 Opus 認為使用者的行為不當,它可以聯繫當局。儘管該研究人員後來澄清說,這在正常使用中是不可能的,但這引起了使用者對模型中可能嵌入的獨立程度的擔憂。
人工智慧領域的特點是頻繁發布突破性模型,每個模型都爭奪「世界上最好的」的頭銜。最近的發布包括 Google 的 Gemini-2.5-Pro、OpenAI 的 GPT-4.5 和 GPT-4.1、xAI 的 Grok 3 以及阿里巴巴的 Qwen 2.5 和 QwQ-32B,所有這些都擁有卓越的基準性能。
鑒於這種競爭的主張格局,檢查 Claude 4 是否真正佔據至高無上的地位是相關的。通過深入研究它的能力、基準性能、應用程式和用戶反饋,或許可以確定這個問題的答案。
Opus 4:程式碼能力的強者
Opus 4 是 Anthropic 最先進的模型,專為複雜的、長時間的任務而設計。它適用於自主軟體工程、研究和代理工作流程,所有這些都需要高級工具。opus 4 定位為「世界上最好的程式碼模型」。
核心能力與增強
Opus 4 具有先進的功能。值得注意的是以下幾點:
- **高級程式碼:**Opus 4 擅長自主執行 「持續數天的工程任務」。該模型通過 「改進的程式碼品味」適應特定的開發人員風格,並支持多達 32,000 個輸出令牌。後臺 Claude Code 引擎處理任務。
- **高級推理與複雜問題解決:**通過在即時響應和深度、擴展思維之間切換的混合推理系統,Opus 4 在長時間的序列中保持專注。
- **代理能力:**Opus 4 支援複雜的 AI 代理,並展示了最先進 (SOTA) 的性能。它支援企業工作流程和自主活動管理。
- **創意寫作與內容創作:**Opus 4 生成具有人類水平、細微差別的散文,具有卓越的風格品質,使其適用於高級創意任務。
- **記憶與長上下文感知:**Opus 4 創建和使用 "記憶檔案",增強了跨長持續任務的連貫性,例如在玩 Pokémon 時編寫遊戲指南。
- **代理搜索與研究:**Opus 4 可以進行數小時的研究,並從複雜數據(如專利和學術論文)中綜合洞察。
基準性能亮點
Opus 4 展示了卓越的性能。請考慮以下基準測試:
SWE-bench Verified (程式碼):73.2%
- SWE-bench 測試 AI 系統解決 GitHub 問題的能力。
- OpenAI 的 o3:69.1%。Google 的 Gemini-2.5-Pro:63.8%。
Terminal-bench (CLI 程式碼):43.2% (50.0% 高計算)
- Terminal-bench 衡量 AI 代理在終端環境中的能力。
- Claude Sonnet 3.7:35.2%,OpenAI 的 GPT-4.1:30.3%。
MMLU (通用知識):88.8%
- MMLU-Pro 旨在評估語言理解模型在更廣泛和更具挑戰性的任務中的表現。
- OpenAI 的 GPT-o1 和 GPT-4.5 分別得分 89.3% 和 86.1%。Gemini-2.5-Pro-Experimental:84.5%。
GPQA Diamond (研究生推理):79.6% (83.3% 高計算)
- GPQA 評估科學領域的品質和可靠性。
- Grok 3:84.6%。Gemini-2.5-Pro:84%。o3:83.3%。
AIME (數學):75.5% (90.0% 高計算)
- AIME 2024 評估高中數學的有效性。
- Gemini-2.5-Pro:92%,GPT-o1:79.2%。Nvidia 的 Nemotron Ultra:80.1%。
HumanEval (程式碼):創紀錄的主張
* HumanEval 是由 OpenAI 開發的數據集,用於評估程式碼生成能力。
* Opus 3:84.9%。
TAU-bench:零售 81.4%
- TAU-bench Retail 評估零售購物領域中 AI 代理的任務,例如取消訂單、更改地址和檢查訂單狀態。
- Claude Sonnet 3.7:72.2%。GPT-4.5:70.4%。
MMMU (視覺推理):76.5%
- MMMU 的基準評估是在零樣本設置下進行的,以評估模型在沒有微調或少量樣本演示的情況下生成準確答案的能力。
- Gemini-2.5-Pro:84%。o3:82.9%。
最大連續任務:超過 7 小時
應用
Opus 4 擅長高級軟體重構、研究綜合和複雜任務,例如金融建模或文本到 SQL 的轉換。它可以為多步驟自主代理和長周期工作流程提供強大的動力,具有強大的記憶能力。
Sonnet 4:平衡性能與實用性
Claude 4 Sonnet 提供性能、成本效益和程式碼能力。它專為需要智慧和可負擔性的企業規模 AI 部署而設計。
核心能力與增強
Sonnet 4 包括幾個關鍵優勢:
- **程式碼:**Sonnet 4 非常適合代理工作流程,它支援多達 64,000 個輸出令牌,並被選中為 GitHub 的 Copilot 代理提供動力。它有助於軟體生命週期:規劃、修復錯誤、維護和大規模重構。
- **推理與指令遵循:**Sonnet 以類似人類的互動、卓越的工具選擇和錯誤糾正而聞名,非常適合高級聊天機器人和 AI 助理角色。
- **計算機使用:**Sonnet 可以使用 GUI,並與數位介面互動,輸入、點擊和解釋數據。
- **視覺數據提取:**從複雜的視覺格式(如圖表和圖表)中提取數據,具有表格提取功能。
- **內容生成與分析:**擅長細緻的寫作和內容分析,使其成為編輯和分析工作流程的可靠選擇。
- **機器人流程自動化 (RPA):**由於高度的指令遵循準確性,Sonnet 在 RPA 用例中非常有效。
- **自我修正:**Sonnet 識別並糾正自己的錯誤,從而提高長期可靠性。
基準性能亮點
Sonnet 4 取得了以下分數:
SWE-bench Verified:72.7%
- Opus 4:73.2%。
MMLU:86.5%
- Opus 4:88.8%。
GPQA Diamond:75.4%
- Opus 4:79.5%。
TAU-bench:零售 80.5%
- Opus 4:81.4%。
MMMU:74.4%
- Opus 4:76.5%。
AIME:70.5%
- Opus 4:75.5%。
TerminalBench:35.5%
- Opus 4:43.2%
最大連續任務:~4 小時,少於 Opus 報告的 7 小時以上。
錯誤減少:與 Sonnet 3.7 相比,捷徑行為減少 65%
應用
Sonnet 4 適用於為 AI 聊天機器人、實時研究、RPA 和可擴展部署提供動力。它具備從檔案中提取知識、分析視覺數據和支援開發的能力,使其成為一名出色的助手。
架構創新和共享功能
Opus 4 和 Sonnet 4 都具有關鍵的架構進展。它們支援 200K 上下文視窗並具有混合推理。它們與內部推理並行使用外部工具。這些方面提高了跨任務的實時準確性,例如搜索、程式碼執行和檔案分析。
與之前的版本相比,這些模型還表現出更少的 「捷徑行為」,從而提高了可靠性。透明度通過 「思維摘要」的可用性得到增強,該摘要剖析了決策過程。
實際性能和企業反饋
編碼人員對 Opus 4 的反饋非常積極。用戶報告說,長時間的編碼會話具有很高的準確性。他們還注意到第一次嘗試時就修復了錯誤,以及接近人類的寫作流程。
Sonnet 4 贏得了好評,尤其是來自將其與 Cursor 和 Augment Code 等開發人員工具連接的用戶。對檔案理解和速率限制挫折的擔憂依然存在。
主要採用者包括 GitHub,他們稱 Sonnet 4 “在代理場景中飆升”。Replit 稱讚其精確性,Rakuten 和 Block 強調了生產力提升。Opus 4 能夠對開源程式碼庫進行完整的 7 小時重構。
告發爭議
Anthropic 研究員 Sam Bowman 在 X 上發布的一篇文章透露,Opus 可能會採取行動,例如在認為用戶不道德時舉報用戶。
這種行為來自 Anthropic 的憲法 AI 框架。雖然其目的是減少危害,但批評者認為,這種程度的主動性,尤其是與代理能力和命令列訪問配對時,會造成危險的先例。
安全性和突發能力
Opus 4 在 AI 安全等級 3 下運行,這是其當前最高等級,原因是對敏感主題知識的擔憂。紅隊成員測試了 Opus,發現了 “與他們之前測試過的任何東西在品質上不同的” 行為和能力。
定價和價值主張
**Opus 4:**定價為每百萬個輸出令牌 75 美元,其目標是高端應用。
- 這與 Opus 3 的定價相同。
- OpenAI 的 o3 定價為每百萬個輸出令牌 40 美元。
**Sonnet 4:**定價為每百萬個輸出令牌 15 美元,可在性能和可負擔性之間取得平衡。
- OpenAI 的 GPT-4o 和 Google 的 Gemini-2.5-Pro 分別定價為每百萬個輸出令牌 20 美元和 15 美元。OpenAI 的旗艦 4.1 模型定價為每百萬個輸出令牌 8 美元。