Anthropic 的企業突襲:Claude 3.7 如何成為首選編碼 Agent

Claude 3.7 Sonnet:編碼能力的新標竿

僅僅兩週前發布的 Claude 3.7 Sonnet,已成為令人信服的證據。這個最新版本打破了現有編碼效能的基準測試記錄。同時,Anthropic 推出了 Claude Code,這是一個命令行 AI Agent,旨在加速程式開發人員的應用程式開發。此外,Cursor,一個預設使用 Anthropic’s Claude 模型的 AI 驅動程式碼編輯器,據報導在短短 12 個月內,其年度經常性收入就飆升至 1 億美元。

Anthropic 對編碼的刻意強調,與企業越來越認識到 AI 編碼 Agent 的變革潛力不謀而合。這些 Agent 使有經驗的開發人員和沒有編碼專業知識的個人都能夠以前所未有的速度和效率創建應用程式。正如 Vercel(一家快速擴展的公司,使開發人員(包括非編碼人員)能夠部署前端應用程式)的首席執行官 Guillermo Rauch 所說:「Anthropic 繼續保持領先地位。」Vercel 去年決定將其主要編碼模型從 OpenAI’s GPT 轉換為 Anthropic’s Claude,這是對其在關鍵編碼任務上的表現進行全面評估後的結果,突顯了這一點。

2 月 24 日推出的 Claude 3.7 Sonnet,在幾乎所有編碼基準測試中都取得了領先地位。它在備受推崇的 SWE-bench 基準測試中取得了 70.3% 的驚人成績,這是衡量 Agent 軟體開發能力的指標。這個分數明顯高於其最接近的競爭對手,OpenAI’s o1 (48.9%) 和 DeepSeek-R1 (49.2%)。此外,Claude 3.7 在 Agent 任務上表現出更優越的性能。

這些基準測試結果已迅速得到開發人員社群的實際測試驗證。線上討論,特別是在 Reddit 等平台上,比較 Claude 3.7 與 Grok 3(Elon Musk’s xAI 的最新模型),一致認為 Anthropic’s 模型更適合編碼任務。一位排名靠前的評論者總結了這種觀點:「根據我的測試,Claude 3.7 似乎是編寫程式碼的最佳選擇(至少對我來說是這樣)。」值得注意的是,即使是本週早些時候席捲全球的中國新型多用途 Agent Manus,也表示它比 Open AI 的 Deep Research 和其他自主任務更好,很大程度上也是基於 Claude 構建的。

戰略重點:Anthropic 的企業策略

Anthropic 對編碼能力的不懈關注絕非偶然。《The Information》報導的洩露預測顯示,Anthropic 的目標是到 2027 年實現 345 億美元的驚人收入。這比其目前的水平增長了 86 倍。預計這筆收入的很大一部分(約 67%)將來自 API 業務,其中企業編碼應用程式將成為主要的增長引擎。雖然 Anthropic 尚未披露確切的收入數字,但它報告稱,在 2024 年最後一個季度,編碼收入激增了 1,000%。除了這種財務勢頭之外,Anthropic 最近還宣布了一輪 35 億美元的融資,使該公司的估值達到 615 億美元。

這種以編碼為中心的策略與 Anthropic 自己的經濟指數的發現一致。該指數顯示,向 Claude 發出的查詢中有 37.2% 屬於「計算機和數學」類別。這些查詢主要包括軟體工程任務,例如程式碼修改、除錯和網路故障排除。

Anthropic 的方法在競爭格局中脫穎而出,競爭對手經常陷入活動的旋風中,試圖通過廣泛的功能來滿足企業和消費者市場的需求。OpenAI 雖然憑藉其早期的消費者認可和採用而保持領先地位,但面臨著為普通用戶和企業提供各種模型和功能的挑戰。同樣,Google 也在推行提供廣泛產品組合的策略。

Anthropic 相對嚴謹的方法也反映在其產品決策中。該公司沒有追逐消費者市場份額,而是優先考慮企業級功能,例如 GitHub 集成、審計日誌、可自定義的權限和特定領域的安全控制。六個月前,它為開發人員引入了一個巨大的 500,000 token 的上下文窗口,這與 Google 決定將其 100 萬 token 的窗口限制給私人測試人員形成了鮮明對比。這種戰略重點帶來了一個全面的、以編碼為中心的產品,越來越引起企業的共鳴。

該公司最近推出的功能使非編碼人員能夠在其組織內發布 AI 生成的應用程式,加上上週的控制台升級,具有增強的協作功能(包括可共享的提示和模板),進一步證明了這一趨勢。這種民主化反映了一種「特洛伊木馬」策略:最初授權開發人員建立堅實的基礎,然後擴大對更廣泛的企業員工的訪問權限,最終到達企業管理層。

Claude 實踐:一個實際的實驗

為了評估這些編碼 Agent 的實際能力,進行了一項實際實驗,重點是建立一個用於儲存文章的資料庫。採用了三種不同的方法:通過 Anthropic’s app 使用 Claude 3.7 Sonnet、Cursor’s coding agent 和 Claude Code。

直接通過 Anthropic’s app 使用 Claude 3.7,提供的指導非常有見地,特別是對於沒有豐富編碼經驗的人來說。該模型提供了幾個選項,從使用 PostgreSQL 資料庫的強大解決方案到更輕量級的替代方案(如 Airtable)。選擇輕量級解決方案後,Claude 有條不紊地指導了從 API 中提取文章並使用連接器服務將其集成到 Airtable 的過程。雖然這個過程大約花了兩個小時,主要是由於身份驗證挑戰,但最終形成了一個功能系統。本質上,Claude 並沒有自主編寫所有程式碼,而是提供了一個實現所需結果的全面藍圖。

Cursor 預設依賴 Claude’s models,提供了完整的程式碼編輯器體驗,並表現出更大的自動化傾向。但是,它需要在每個步驟都獲得許可,導致工作流程有些迭代。

Claude Code 提供了不同的方法,直接在終端中運行,並使用 SQLite 創建一個本地資料庫,其中填充了來自 RSS feed 的文章。這個解決方案被證明是更簡單、更可靠地實現最終目標,儘管與 Airtable 實施相比,它的健壯性和功能性較差。這突出了固有的權衡,並強調了根據特定專案需求選擇編碼 Agent 的重要性。

這個實驗的關鍵收穫是,即使作為非開發人員,也可以使用所有三種方法構建功能性資料庫應用程式。這在一年前幾乎是不可想像的。而且,值得注意的是,所有三種方法都依賴於 Claude 的底層能力。

編碼 Agent 生態系統:Cursor 及其他

也許 Anthropic 成功的最有力指標是 Cursor(一個 AI 程式碼編輯器)的驚人增長。報告顯示,Cursor 在短短 12 個月內就積累了 36 萬用戶,其中超過 4 萬名是付費用戶。這種快速增長軌跡可能使 Cursor 成為達到這一里程碑的最快 SaaS 公司。

Cursor 的成功與 Claude 密不可分。正如 Red Dragon(AI Agent 的獨立開發商)的聯合創始人 Sam Witteveen 所觀察到的:「你必須認為他們的第一大客戶是 Cursor。大多數 [Cursor] 用戶已經在使用 Claude Sonnet 模型——3.5 模型。現在看來,每個人都只是遷移到 3.7。」

Anthropic 與其生態系統之間的關係不僅限於像 Cursor 這樣的個別公司。11 月,Anthropic 推出了其模型上下文協議 (Model Context Protocol, MCP) 作為開放標準,使開發人員能夠構建與 Claude 模型無縫交互的工具。該標準已在開發人員社群中得到廣泛採用。

Witteveen 解釋了這種方法的重要性:「通過將其作為開放協議啟動,他們有點像在說,’嘿,大家,盡情使用吧。你可以開發任何符合這個協議的東西。我們將支持這個協議。’」

這種策略創造了一個良性循環:開發人員專門為 Claude 構建工具,增強了其對企業的價值主張,這反過來又推動了進一步的採用並吸引了更多的開發人員。

競爭格局:Microsoft、OpenAI、Google 和開源

雖然 Anthropic 憑藉其專注的方法開闢了一個利基市場,但競爭對手正在追求不同的策略,並取得了不同程度的成功。

Microsoft 通過其 GitHub Copilot 保持著強大的立足點,在 大約兩年內擁有 130 萬付費用戶,並被超過 77,000 個組織採用。Honeywell、State Street、TD Bank Group 和 Levi’s 等知名公司都是其用戶。這種廣泛採用主要歸功於 Microsoft 現有的企業關係及其先行者優勢,這源於其對 OpenAI 的早期投資以及利用 OpenAI’s models 為 Copilot 提供支持。

然而,即使是 Microsoft 也承認了 Anthropic 的優勢。10 月,它允許 GitHub Copilot 用戶選擇 Anthropic’s models 作為 OpenAI’s offerings 的替代方案。此外,OpenAI 最近的模型 o1 和更新的 o3(強調通過擴展思維進行推理)在編碼或 Agent 任務方面並沒有表現出特別的優勢。

Google 採取了自己的行動,最近免費提供了其 Code Assist,但這似乎更像是一種防禦性策略,而不是戰略性舉措。

開源運動代表了這個領域的另一股重要力量。Meta’s Llama 模型已經獲得了巨大的企業吸引力,AT&T、DoorDash 和 Goldman Sachs 等主要公司都在部署基於 Llama 的模型用於各種應用。開源方法為企業提供了更大的控制權、自定義選項和成本效益,而封閉模型通常無法與之匹敵。

Anthropic 似乎並沒有將其視為直接威脅,而是將自己定位為開源的補充。企業客戶可以根據其特定需求將 Claude 與開源模型結合使用,採用一種混合方法,最大限度地發揮各自的優勢。

事實上,許多大型企業公司都採用了多模式方法,利用最適合給定任務的模型。例如,Intuit 最初依靠 OpenAI 作為其報稅應用程式的預設模型,但隨後由於 Claude 在某些情況下的卓越表現而轉向了 Claude。這種經驗促使 Intuit 開發了一個 AI 編排框架,以促進模型之間的無縫切換。

此後,大多數其他企業公司都採用了類似的做法,為每個特定用例採用最合適的模型,通常通過簡單的 API 調用來集成模型。雖然像 Llama 這樣的開源模型在某些情況下可能適用,但對於需要高精度的任務(例如計算),Claude 通常是首選。

企業影響:駕馭向編碼 Agent 的轉變

對於企業決策者來說,這個快速發展的格局既帶來了機遇,也帶來了挑戰。

安全性仍然是一個至關重要的問題,但最近的一份獨立報告將 Claude 3.7 Sonnet 確定為迄今為止最安全的模型,它是唯一經過測試證明「防越獄」的模型。這種安全態勢,加上 Anthropic 得到 Google 和 Amazon 的支持(並集成到 AWS Bedrock 中),使其有利於企業採用。

編碼 Agent 的激增不僅改變了應用程式的開發方式,還使這個過程民主化。根據 GitHub 的數據,早在 18 個月前,美國企業公司中就有 92% 的開發人員已經在工作中使用 AI 驅動的編碼工具。自那以後,這個數字可能已經顯著增加。

Witteveen 強調了技術和非技術團隊成員之間差距的彌合:「人們 [因為] 不是編碼員而面臨的挑戰實際上是他們不知道很多術語。他們不知道最佳實踐。」AI 編碼 Agent 越來越多地解決這個挑戰,從而實現更有效的協作。

對於企業採用,Witteveen 提倡一種平衡的方法:「目前是安全性和實驗之間的平衡。顯然,在開發人員方面,人們開始使用這些東西構建真實世界的應用程式。」

AI 編碼 Agent 的出現標誌著企業軟體開發的根本轉變。如果部署得當,這些工具不會取代開發人員,而是會改變他們的角色,讓他們能夠專注於架構和創新,而不是實施細節。

Anthropic 的嚴謹方法,專注於編碼能力,而競爭對手則追求多個優先事項,這似乎正在產生顯著的優勢。到 2025 年底,這段時期可能會被追溯為 AI 編碼 Agent 成為不可或缺的企業工具的關鍵時刻,而 Claude 引領了這一潮流。

對於技術決策者來說,當務之急很明確:立即開始試驗這些工具,否則就有可能落後於已經利用它們來顯著加快開發週期的競爭對手。這種情況反映了 iPhone 革命的早期階段,當時公司最初試圖限制「未經批准」的設備進入其公司網絡,但最終由於員工需求變得勢不可擋而接受了 BYOD 政策。一些公司,如 Honeywell,最近也試圖關閉未經 IT 部門批准的 AI 編碼工具的「流氓」使用。

聰明的公司已經在建立安全的沙盒環境,以促進受控的實驗。在鼓勵創新的同時建立明確護欄的組織將從員工的熱情和對這些工具如何最好地滿足其獨特需求的見解中獲益,從而使自己領先於抵制變革的競爭對手。而 Anthropic’s Claude,至少目前是這場變革運動的主要受益者。