Claude 4:AI實力新紀元

Anthropic 近期推出了其新一代 AI 模型,Claude Opus 4 與 Claude Sonnet 4,在編碼、進階推理和 AI 代理能力方面建立了新的標竿。 這些模型代表著重大的躍進,為廣泛的複雜任務提供強化的效能和精準度。

Claude Opus 4:世界頂尖的編碼模型

Claude Opus 4 作為世界上最佳的編碼模型脫穎而出,在複雜、長時間的任務上展現出卓越且一致的效能。 其處理延伸思考和代理工作流程的能力,使其成為開發人員應對複雜編碼挑戰的寶貴資產。 這種模型的實力擴展到理解複雜的程式碼庫、在多個檔案中進行精確的更改,以及在編輯和除錯期間提高程式碼品質。 幾位業界領袖讚揚 Claude Opus 4 的能力:

  • Cursor: 稱讚它是編碼領域最先進的技術,並且在複雜程式碼庫理解方面取得了重大進展。
  • Replit: 強調其改進的精準度和對於跨多個檔案的複雜變更的顯著增強。
  • Block: 認為它是第一個在其代號為 "goose" 的代理中,在編輯和除錯期間提高程式碼品質,同時保持峰值效能和可靠性的模型。
  • Rakuten: 通過一項嚴苛的開源重構驗證了其能力,該重構獨立運行了 7 小時,且效能始終如一。
  • Cognition: 承認 Opus 4 擅長解決其他模型難以應付的複雜挑戰,成功處理了先前模型忽略的關鍵操作。

Claude Sonnet 4:顯著升級

Claude Sonnet 4 代表了對其前身 Claude Sonnet 3.7 的重大升級。 它提供了卓越的編碼和推理能力,同時更準確地回應用戶指令。 這種模型在效能和效率之間取得了最佳平衡,使其適用於廣泛的內部和外部用例。 雖然它可能無法在所有領域超越 Opus 4,但它提供了能力和實用性的理想組合。 Claude Sonnet 4 的主要亮點包括:

  • GitHub: 聲稱 Claude Sonnet 4 在代理情境中表現出色,並將被整合為 GitHub Copilot 中新編碼代理的動力模型。
  • Manus: 強調在遵循複雜指令、清晰推理和美觀輸出方面的改進。
  • iGent: 報告 Sonnet 4 擅長於自主多功能應用程式開發,以及顯著改進的問題解決和程式碼庫導航,將導航錯誤從 20% 降低到接近零。
  • Sourcegraph: 認為該模型顯示出作為軟體開發中的重大飛躍的希望,保持更長時間的專注,更深入地理解問題,並提供更優雅的程式碼品質。
  • Augment Code: 報告更高的成功率、更精確的程式碼編輯和更仔細地完成複雜任務,使其成為其主要模型的首選。

工具使用的延伸思考

Claude Opus 4 和 Claude Sonnet 4 都具有工具使用的延伸思考能力,使它們能夠利用外部工具來增強其推理和解決問題的能力。 這允許 Claude 在推理和工具使用之間交替,從而改善回應並產生更準確的結果。 這些模型還可以並行執行工具、以更高的精準度追蹤指令,並展現顯著增強的記憶能力。 這是通過提取和保存關鍵事實以保持連續性並隨著時間的推移建立隱性知識來實現的。

Claude Code:現在普遍可用

Claude Code 現在普遍可用,它為開發人員提供了更多與 Claude 協作的機會。 它通過 GitHub Actions 和與 VS Code 和 JetBrains 的原生整合支援背景任務。 編輯直接顯示在您的檔案中,促進無縫的配對編程和協作開發。 此功能在研究預覽期間收到了廣泛的正面反饋,突顯了其在簡化開發工作流程方面的價值。

全新 API 功能

Anthropic 還在 Anthropic API 上發布了四項新功能,使開發人員能夠構建更強大的 AI 代理。 這些功能包括:

  • 程式碼執行工具: 允許代理執行程式碼片段以解決複雜問題。
  • MCP 連接器: 使代理能夠與外部資料來源和服務互動。
  • 檔案 API: 為代理提供對本地檔案系統的訪問權限,以增強資料處理能力。
  • 提示快取: 允許開發人員快取提示長達一小時,從而減少延遲並提高效能。

具有雙重模式的混合模型

Claude Opus 4 和 Sonnet 4 是提供兩種不同模式的混合模型:

  • 近乎即時的回應: 為例行查詢提供快速而有效率的回應。
  • 延伸思考: 針對複雜任務實現更深入的推理和問題解決。

Pro、Max、Team 和 Enterprise Claude 方案包括這兩種模型和延伸思考功能。 免費用戶也可以使用 Claude Sonnet 4。 這兩種模型都可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用,從而確保開發人員和組織的廣泛可訪問性。

定價一致性

Claude Opus 4 和 Sonnet 4 的定價與之前的 Opus 和 Sonnet 模型保持一致:

  • Opus 4:每百萬個 tokens 收費 $15/$75 (輸入/輸出)
  • Sonnet 4:每百萬個 tokens 收費 $3/$15 (輸入/輸出)

模型改進:減少捷徑和增強記憶力

除了具有工具使用的延伸思考、並行工具執行和記憶力改進之外,Anthropic 還顯著減少了模型使用捷徑或漏洞來完成任務的發生次數。 與 Sonnet 3.7 在代理任務上相比,這兩種模型參與這種行為的可能性降低了 65%。 Claude Opus 4 在記憶能力方面也顯著優於所有先前的模型。 當開發人員構建提供 Claude 本地檔案訪問權限的應用程式時,Opus 4 擅長創建和維護 "記憶體檔案" 以儲存關鍵資訊。 這可以實現更好的長期任務感知、連貫性和代理任務的效能,從而實現諸如 Opus 4 在玩 Pokémon 時創建 "導航指南" 之類的情境。

思考摘要

Anthropic 為 Claude 4 模型引入了思考摘要,它使用較小的模型來濃縮冗長的思考過程。 此功能僅在大約 5% 的時間使用,因為大多數思考過程都足夠短,可以完整顯示。 需要原始思考鏈以進行進階提示工程的用戶可以聯繫銷售人員,以取得 Anthropic 全新開發人員模式的完全訪問權限。

Claude Code 整合

Claude Code 現在已整合到您更多的開發工作流程中,包括終端機、您首選的 IDE,以及通過 Claude Code SDK 進行的背景執行。 VS Code 和 JetBrains 的全新 beta 版擴充功能可將 Claude Code 直接無縫整合到您的 IDE 中。 Claude 提出的編輯會直接以內嵌方式顯示在您的檔案中,從而簡化了在熟悉的編輯器介面中進行的審閱和追蹤。 要安裝,只需在您的 IDE 終端機中執行 Claude Code 即可。

可擴展的 Claude Code SDK

除了 IDE 之外,Anthropic 還發布了一個可擴展的 Claude Code SDK,使使用者能夠使用與 Claude Code 相同的核心代理來構建他們自己的代理和應用程式。 Claude Code 在 GitHub 上就是使用 SDK 可能實現的一個例子,現在推出 beta 版。 在 PR 上標記 Claude Code 以回應審閱者的回饋、修復 CI 錯誤或修改程式碼。 要安裝,請從 Claude Code 內部執行 /install-github-app。

朝向虛擬協作邁進一步

這些模型代表著朝向虛擬協作者邁出的重要一步,它保持完整的上下文、持續專注於更長的專案,並推動變革性的影響。 他們經過廣泛的測試和評估,以最大限度地降低風險並最大限度地提高安全性,包括實施更高 AI 安全等級 (如 ASL-3) 的措施。

這些進步承諾為各種應用帶來令人興奮的可能性,其中 Opus 4 在編碼、研究、寫作和科學發現方面不斷突破界限,而 Sonnet 4 則作為 Sonnet 3.7 的即時升級,為日常用例帶來前沿效能。