Anthropic Claude 3.7 Sonnet 速度與深思的融合 | zh-TW

直覺與分析之間的橋樑

大多數當代的 AI 模型往往專精於快速回應或深入分析。Anthropic 的 Claude 3.7 Sonnet 打破了這種模式，整合了這兩種能力。這使得它能夠在需要時提供近乎即時的答案，或者進行擴展的、逐步的推理，使其思維過程對使用者透明。

正如 Anthropic 所解釋的，這種雙重功能創造了更流暢、更自然的使用者體驗。它反映了人類的認知過程，即一個大腦同時管理快速反應和深度思考。Anthropic 認為，這種整合的推理方法應該是進階 AI 模型的基本特徵，而不是被劃歸為單獨實體的能力。

使用者目前可以透過 Claude 聊天機器人體驗 Claude 3.7 Sonnet。雖然所有訂閱層級（包括免費版本）都可以使用它，但「擴展思維」模式是一項進階功能，僅適用於 Pro、Team 和 Enterprise 訂閱者。除了聊天機器人之外，該模型還可以透過 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台使用，提供了多樣化的整合和應用途徑。

解構 Claude 3.7 Sonnet：具有獨特之處的基礎模型

Claude 3.7 Sonnet 的核心設計目標是理解和生成與人類交流非常相似的文本。它擅長提供快速、基於模式的輸出和細緻、經過深思熟慮的回應。這種多功能性使其在涉及編碼、遵循複雜指令、理解多模態資訊和展現主體能力的任務中特別有效。

該模型是 Anthropic 的心血結晶，Anthropic 是一家由前 OpenAI 高管於 2021 年創立的 AI 研究和開發公司。Anthropic 致力於負責任地推進生成式 AI，高度重視安全和道德考量。這種承諾反映在他們的開發過程中，尖端的 AI 產品在向公眾發布之前都會經過嚴格的安全評估，確保它們符合公司的嚴格標準。

Anthropic 對 Claude 3.7 Sonnet 進行了廣泛的測試、訓練和評估，並與外部專家合作，以確保其符合安全性、安全性和可靠性基準。該公司還聲稱，該模型展示了更強的區分有害和無害提示的能力，與其前身相比，減少了問題被拒絕或延遲的情況。

Claude 3.7 Sonnet 的多功能性：超越平凡

Claude 3.7 Sonnet 擁有與其他同類模型相似的廣泛功能。它可以回答問題、集思廣益、總結現有內容並生成新內容，同時支援圖像和文本作為輸入。然而，它在幾個關鍵領域與其他 Anthropic 模型有所區別。

推理能力的飛躍

Claude 3.7 Sonnet 標誌著 Anthropic 首次涉足公開可用的推理模型。這些模型旨在將複雜問題分解為更小、更易於管理的步驟，並在形成最終答案之前驗證事實。雖然它們不能完美地複製人類的思維過程，但它們的方法受到演繹推理的啟發，旨在提供更精確和值得信賴的回應。

透過同時作為傳統的大型語言模型和推理模型，Claude 3.7 Sonnet 讓使用者能夠在快速、直覺的答案和更深思熟慮、分析性的回應之間進行選擇。

標準模式： 在此模式下，該模型作為 Anthropic Claude 3.5 Sonnet 的增強版本運行，擅長需要快速回應的複雜任務，例如知識檢索、銷售自動化和電腦程式設計。
擴展思維模式： 啟動此模式會提示模型生成「思維內容塊」，向使用者直觀地顯示其內部推理過程。然後，這些見解會整合到最終回應中，從而提高模型在數學、物理、指令遵循和編碼等領域的效能。

透過 Anthropic 的 API，使用者可以精細控制 Claude 3.7 Sonnet 的「思維」預算。他們可以在模型回應之前設定推理時間的限制，最多可達 128,000 個 token。這允許在速度、成本和答案品質之間進行微調平衡。在兩種模式下，定價保持一致：每百萬輸入 token 3 美元，每百萬輸出 token 15 美元，包括用於思維的 token。

編碼能力：新的基準

Anthropic 稱讚 Claude 3.7 Sonnet 是其迄今為止最精通編碼的模型。它能夠識別和糾正錯誤、開發新功能、闡明技術概念，並提出跨各種程式語言的改進建議。擴展思維模式專門針對支援能夠處理複雜任務和工作流程的 AI 代理進行了最佳化，從而加速了整個軟體開發生命週期。

作為 Claude 3.7 Sonnet 的補充，Anthropic 還推出了其主體編碼工具 Claude Code 的預覽版。該工具充當「主動協作者」，能夠搜尋和閱讀程式碼、編輯檔案、編寫和執行測試，以及使用命令工具——同時讓使用者了解其進度。

Anthropic 聲稱 Claude Code 可以處理諸如測試驅動開發、調試複雜問題和大規模重構等任務——這些任務通常需要人類開發人員超過 45 分鐘的手動工作。一段影片示範展示了該工具只需一個簡單的命令（例如「解釋這個專案結構」）即可分析專案的能力。開發人員可以使用命令列中的簡單英語修改他們的程式碼，Claude Code 會仔細描述其更改、測試錯誤，甚至將更新推送到 GitHub。

真實世界的應用：Claude 3.7 Sonnet 的閃光點

與其前身一樣，Claude 3.7 Sonnet 擁有廣泛的潛在應用。Anthropic 在其文件中重點介紹了幾個關鍵用例：

軟體工程： Claude 3.7 Sonnet 在軟體工程基準測試中實現了「最先進的」效能，使其擅長解決複雜的軟體相關挑戰。這使其成為程式碼生成、除錯和自動化開發工作流程等任務的強大工具。
工單路由： 該模型先進的自然語言處理能力可用於根據緊急程度、客戶意圖、優先順序和客戶資料等因素自動分類和路由客戶支援工單。
客戶支援代理： 其複雜的對話能力支援建立自動化客戶支援代理，能夠即時處理查詢、提供全天候支援並以準確的回應和積極的互動管理大量請求。
內容審核： 經過訓練以「誠實、樂於助人和無害」，該模型可用於審核數位應用程式，營造安全、尊重和高效的環境。
法律摘要： 憑藉其先進的自然語言處理能力，該模型可以有效地總結法律文件，提取關鍵資訊以加快法律研究過程。它可用於合約審查、訴訟準備和監管工作，在保持準確性的同時為使用者節省寶貴的時間。

基準測試 Claude 3.7 Sonnet：比較分析

Anthropic 對 Claude 3.7 Sonnet 與其他具有相似規模和能力的模型進行了嚴格的比較，包括 OpenAI 的 o1 和 o3-mini、DeepSeek 的 R1、xAI 的 Grok 3 以及其自身的 Claude 3.5 Sonnet。這些評估涵蓋了一系列能力，例如軟體工程、主體工具使用、指令遵循、一般推理、多模態理解和主體編碼。

結果表明，Claude 3.7 Sonnet，特別是在擴展思維模式下，在大多數測試中都優於其大多數競爭對手。然而，它在研究生級別推理 (GPQA Diamond) 中的得分低於 Grok 3；在多語言問答 (MMMLU) 中低於 o1；在視覺推理 (MMMU) 中低於 Grok 3 和 o1；在數學問題解決 (MATH 500) 中低於 o1、o3-mini 和 R1；在高中數學競賽 (AIME 2024) 中低於 Grok 3、o1、o3-mini 和 R1。雖然 Claude 3.7 Sonnet 在標準模式下也表現良好，但其相對於競爭對手的優勢不如在擴展思維模式下那麼一致。

除了這些傳統基準測試之外，Claude 3.7 Sonnet 在擴展思維模式下運行時，在 Pokémon 遊戲測試中超越了 Anthropic 之前的所有模型。

承認局限性：AI 的不完美本質

必須認識到，與任何 AI 模型一樣，Claude 3.7 Sonnet 並非萬無一失。它可能會產生不準確的回應並反映其訓練資料中存在的偏差。此外，它在標準模式下與數學相關的任務中的效能落後於一些競爭對手，儘管它在擴展思維模式下在這一領域表現出顯著的改進。

存取 Claude 3.7 Sonnet：多種途徑

有幾種方法可以存取和利用 Claude 3.7 Sonnet：

Claude 聊天機器人： Claude 3.7 Sonnet 的標準模式適用於所有訂閱層級（免費、Pro、Team 和 Enterprise）。然而，擴展思維模式僅限於 Pro、Team 和 Enterprise 訂閱者。
Anthropic 的 API： 開發人員可以透過 Anthropic 的 API 存取 Claude 3.7 Sonnet，將其整合到自己的應用程式中。提供了一個全面的逐步指南來促進這種整合。
第三方平台： Claude 3.7 Sonnet 也可在 Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台上使用，使使用者能夠將模型整合和部署到他們的應用程式中，而無需管理底層基礎架構。

常見問題 (FAQ)

為了回答常見問題，以下是一個簡短的 FAQ 部分：

Claude 3.7 Sonnet 可用嗎？ 是的，Claude 3.7 Sonnet 可以透過 Claude 聊天機器人在所有訂閱層級（包括免費）中存取，其擴展思維模式保留給 Pro、Team 和 Enterprise 訂閱者。它還可以透過 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台使用。
Claude 3.7 Sonnet 是免費的嗎？ 是的，可以透過 Claude 聊天機器人免費存取 Claude 3.7 Sonnet 的標準版本。但是，其擴展思維功能僅在付費的 Pro、Team 和 Enterprise 訂閱層級中可用。該模型在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台上的定價為每百萬輸入 token 3 美元，每百萬輸出 token 15 美元。
Claude 3.7 Sonnet 是多模態的嗎？ 是的，Claude 3.7 Sonnet 接受文本和圖像輸入，使其成為多模態。但是，它只會產生文本回應。
Claude 3.7 Sonnet 安全嗎？ 雖然沒有任何 AI 模型是完全沒有風險的，但 Anthropic 對 Claude 3.7 Sonnet 進行了廣泛的測試、訓練和評估，並與外部專家合作，以確保其符合其安全性、安全性和可靠性標準。該公司還聲稱，該模型展示了更強的區分有害和良性提示的能力，與以前的模型相比，減少了問題延遲的情況。具體來說，與 Claude 3.5 Sonnet 相比，它在標準模式下減少了 45% 的不必要拒絕，在擴展思維模式下減少了 31% 的不必要拒絕。
什麼是 Claude Code？ Claude Code 是 Anthropic 開發的一種主體編碼工具，可以自主執行進階任務，例如搜尋和閱讀程式碼、編輯檔案、編寫和執行測試、使用命令工具，甚至將更新推送到 GitHub。
什麼是推理模型？ 推理模型旨在分析複雜問題，將其分解為可管理的步驟，並在提供最終答案之前完善其回應。其目的是提供比標準語言模型更準確和可靠的回應，標準語言模型會產生快速的、基於模式的輸出。就 Claude 3.7 Sonnet 而言，該模型可以在單一系統內在快速回應和深度反思之間無縫切換。這代表了在尋求能夠模仿人類推理和解決問題的 AI 方面取得了重大進展。

更新於 2025-02-27

# Anthropic # Claude # Agent