Anthropic的隐形企业政变:Claude 3.7崛起

Claude 3.7 Sonnet:编码能力的新标杆

就在两周前发布的 Claude 3.7 Sonnet,已经打破了现有的编码性能基准测试记录。与此同时,Anthropic 推出了 Claude Code,这是一个命令行 AI 代理,旨在加速程序员的应用程序开发。此外,Cursor,一个默认使用 Anthropic 的 Claude 模型的 AI 代码编辑器,据报道在短短 12 个月内实现了 1 亿美元的年度经常性收入,增长惊人。

Anthropic 对编码的刻意强调,与企业越来越认识到 AI 编码代理的变革潜力相吻合。这些代理使经验丰富的开发人员和没有编码专业知识的个人都能够以前所未有的速度和效率创建应用程序。正如 Vercel(一家快速发展的公司,使开发人员(包括非编码人员)能够部署前端应用程序)的首席执行官 Guillermo Rauch 所说:“Anthropic 继续保持领先地位。” Vercel 去年决定将其主要编码模型从 OpenAI 的 GPT 切换到 Anthropic 的 Claude,这是在对它们在关键编码任务上的性能进行全面评估之后做出的,这突显了这一点。

2 月 24 日推出的 Claude 3.7 Sonnet 在几乎所有编码基准测试中都取得了领先地位。它在备受推崇的 SWE-bench 基准测试中取得了 70.3% 的惊人成绩,该基准测试衡量的是代理的软件开发能力。这个分数明显高于其最接近的竞争对手 OpenAI 的 o1 (48.9%) 和 DeepSeek-R1 (49.2%)。此外,Claude 3.7 在代理任务上表现出卓越的性能。

这些基准测试结果已通过开发人员社区的实际测试迅速得到验证。在线讨论,特别是在 Reddit 等平台上,将 Claude 3.7 与 Grok 3(Elon Musk 的 xAI 的最新模型)进行比较,一致认为 Anthropic 的模型更适合编码任务。一位排名靠前的评论者总结了这种情绪:“根据我的测试,Claude 3.7 似乎是编写代码的最佳选择(至少对我来说是这样)。”非常重要的一点是,即使是本周早些时候风靡全球的中国新型多用途代理 Manus,也表示它比 OpenAI 的 Deep Research 和其他自主任务更好,它很大程度上是建立在 Claude 之上的。

战略重点:Anthropic 的企业战略

Anthropic 对编码能力坚定不移的关注绝非偶然。《The Information》报道的泄露预测表明,Anthropic 的目标是到 2027 年实现 345 亿美元的惊人收入。这比目前的水平增长了 86 倍。预计这部分预计收入的很大一部分(约 67%)将来自 API 业务,企业编码应用程序将成为主要的增长引擎。虽然 Anthropic 没有披露确切的收入数字,但它报告称,在 2024 年最后一个季度,编码收入激增了 1,000%。除了这种财务势头之外,Anthropic 最近还宣布了一轮 35 亿美元的融资,使该公司的估值达到 615 亿美元。

这种以编码为中心的战略与 Anthropic 自己的经济指数的调查结果一致。该指数显示,向 Claude 提出的查询中有 37.2% 属于“计算机和数学”类别。这些查询主要包括软件工程任务,例如代码修改、调试和网络故障排除。

Anthropic 的方法在竞争格局中脱颖而出,竞争对手经常陷入活动的旋风中,试图通过广泛的功能来满足企业和消费者市场的需求。OpenAI 虽然凭借其早期的消费者认可度和采用率保持着强大的领先地位,但面临着为普通用户和企业提供各种模型和功能的挑战。同样,Google 也在推行提供广泛产品组合的战略。

Anthropic 相对严谨的方法也反映在其产品决策中。该公司没有追逐消费者市场份额,而是优先考虑企业级功能,例如 GitHub 集成、审计日志、可定制权限和特定领域的安全控制。六个月前,它为开发人员引入了一个巨大的 500,000 个 token 的上下文窗口,这与 Google 决定将其 100 万个 token 的窗口限制为私人测试人员形成了鲜明对比。这种战略重点带来了一个全面的、以编码为中心的、越来越能引起企业共鸣的产品。

该公司最近推出的功能使非编码人员能够在组织内发布 AI 生成的应用程序,再加上上周的控制台升级,具有增强的协作功能(包括可共享的提示和模板),进一步证明了这一趋势。这种民主化反映了一种“特洛伊木马”战略:最初授权开发人员构建强大的基础,然后扩大对更广泛的企业员工的访问权限,最终到达公司高层。

亲身体验 Claude:一个实际的实验

为了评估这些编码代理的实际能力,进行了一项实际实验,重点是构建一个数据库来存储文章。采用了三种不同的方法:通过 Anthropic 应用程序的 Claude 3.7 Sonnet、Cursor 的编码代理和 Claude Code。

通过 Anthropic 的应用程序直接使用 Claude 3.7,所提供的指导非常有见地,特别是对于没有丰富编码经验的人来说。该模型提供了几个选项,从使用 PostgreSQL 数据库的强大解决方案到更轻量级的替代方案(如 Airtable)。选择轻量级解决方案后,Claude 有条不紊地指导了从 API 中提取文章并使用连接器服务将它们集成到 Airtable 中的过程。虽然这个过程花费了大约两个小时,主要是由于身份验证方面的挑战,但最终形成了一个功能系统。本质上,Claude 没有自主编写所有代码,而是提供了一个实现预期结果的全面蓝图。

Cursor 默认依赖 Claude 的模型,提供了完整的代码编辑器体验,并表现出更大的自动化倾向。但是,它需要在每个步骤都获得许可,从而导致某种程度上的迭代工作流程。

Claude Code 提供了一种不同的方法,直接在终端内运行,并利用 SQLite 创建一个本地数据库,其中填充了来自 RSS 提要的文章。事实证明,这个解决方案在实现最终目标方面更简单、更可靠,尽管与 Airtable 实现相比,它的健壮性和功能丰富性较低。这突出了所涉及的内在权衡,并强调了根据特定项目需求选择编码代理的重要性。

这个实验的关键结论是,即使作为非开发人员,也可以使用所有三种方法构建功能性数据库应用程序。这在一年前几乎是不可想象的。而且,值得注意的是,这三种方法都依赖于 Claude 的底层功能。

编码代理生态系统:Cursor 及其他

也许 Anthropic 成功的最引人注目的指标是 Cursor(一种 AI 代码编辑器)的惊人增长。报告显示,Cursor 在短短 12 个月内积累了 360,000 名用户,其中超过 40,000 名是付费客户。这种快速增长的轨迹可能使 Cursor 成为达到这一里程碑的最快的 SaaS 公司。

Cursor 的成功与 Claude 密不可分。正如 Red Dragon(一家 AI 代理的独立开发商)的联合创始人 Sam Witteveen 所观察到的那样:“你必须认为他们的头号客户是 Cursor。大多数 [Cursor] 用户已经在使用 Claude Sonnet 模型——3.5 模型。现在看来,每个人都在迁移到 3.7。”

Anthropic 与其生态系统之间的关系不仅仅局限于像 Cursor 这样的个别公司。11 月,Anthropic 推出了其模型上下文协议 (MCP) 作为开放标准,使开发人员能够构建与 Claude 模型无缝交互的工具。该标准已在开发人员社区中得到广泛采用。

Witteveen 解释了这种方法的意义:“通过将此作为开放协议启动,他们有点像在说,’嘿,大家好好利用。你可以开发任何符合这个协议的东西。我们将支持这个协议。’”

这种策略创造了一个良性循环:开发人员专门为 Claude 构建工具,增强了其对企业的价值主张,这反过来又推动了进一步的采用并吸引了更多的开发人员。

竞争格局:Microsoft、OpenAI、Google 和开源

虽然 Anthropic 通过其专注的方法开辟了一个利基市场,但竞争对手正在追求不同的战略,并取得了不同程度的成功。

Microsoft 通过其 GitHub Copilot 保持着强大的立足点,在两年内拥有 130 万付费用户,并被超过 77,000 个组织采用。霍尼韦尔、道富银行、道明银行集团和李维斯等知名公司都是其用户。这种广泛的采用主要归功于 Microsoft 现有的企业关系及其先发优势,这源于其对 OpenAI 的早期投资以及利用 OpenAI 的模型为 Copilot 提供支持。

然而,即使是 Microsoft 也承认了 Anthropic 的优势。10 月,它允许 GitHub Copilot 用户选择 Anthropic 的模型作为 OpenAI 产品的替代方案。此外,OpenAI 最近的模型 o1 和更新的 o3(强调通过扩展思维进行推理)在编码或代理任务中并没有表现出特别的优势。

Google 采取了自己的行动,最近免费提供了其 Code Assist,但这似乎更像是一种防御性策略,而不是一项战略举措。

开源运动代表了这一领域的另一支重要力量。Meta 的 Llama 模型已经获得了巨大的企业吸引力,AT&T、DoorDash 和高盛等主要公司都在部署基于 Llama 的模型用于各种应用。开源方法为企业提供了更大的控制权、定制选项和成本效益,而封闭模型通常无法与之匹敌。

Anthropic 似乎并没有将其视为直接威胁,而是将自己定位为开源的补充。企业客户可以根据自己的具体需求,将 Claude 与开源模型结合使用,采用一种混合方法,最大限度地发挥每种模型的优势。

事实上,许多大型企业公司都采用了多模态方法,利用最适合给定任务的模型。例如,Intuit 最初依靠 OpenAI 作为其报税应用程序的默认设置,但随后由于其在某些情况下的卓越性能而切换到 Claude。这种经验促使 Intuit 开发了一个 AI 编排框架,该框架促进了模型之间的无缝切换。

此后,大多数其他企业公司都采用了类似的做法,为每个特定用例采用最合适的模型,通常通过简单的 API 调用集成模型。虽然像 Llama 这样的开源模型在某些情况下可能适用,但对于需要高精度的任务(例如计算),Claude 通常是首选。

企业影响:驾驭向编码代理的转变

对于企业决策者来说,这个快速发展的格局既带来了机遇,也带来了挑战。

安全仍然是一个至关重要的问题,但最近的一份独立报告将 Claude 3.7 Sonnet 确定为迄今为止最安全的模型,它是唯一经过测试证明“防越狱”的模型。这种安全态势,加上 Anthropic 得到 Google 和 Amazon 的支持(并集成到 AWS Bedrock 中),使其在企业采用方面处于有利地位。

编码代理的激增不仅改变了应用程序的开发方式,还使该过程民主化。根据 GitHub 的数据,早在 18 个月前,美国企业公司中就有 92% 的开发人员已经在工作中使用 AI 驱动的编码工具。自那时以来,这个数字可能已经显著增加。

Witteveen 强调了弥合技术团队成员和非技术团队成员之间差距的重要性:“人们 [因为] 不是程序员而面临的挑战是,他们真的不知道很多术语。他们不知道最佳实践。” AI 编码代理正在越来越多地应对这一挑战,从而实现更有效的协作。

对于企业采用,Witteveen 主张采用一种平衡的方法:“目前是安全和实验之间的平衡。显然,在开发人员方面,人们开始使用这些东西构建真实的应用程序。”

AI 编码代理的出现标志着企业软件开发的根本转变。如果部署得当,这些工具不会取代开发人员,而是会改变他们的角色,使他们能够专注于架构和创新,而不是实现细节。

Anthropic 的严谨方法,专门关注编码能力,而竞争对手则追求多个优先事项,这似乎正在产生显著的优势。到 2025 年底,这段时期可能会被回顾为 AI 编码代理成为不可或缺的企业工具的关键时刻,而 Claude 引领了这一潮流。

对于技术决策者来说,当务之急是明确的:立即开始试验这些工具,否则就有可能落后于那些已经利用它们来大幅加快开发周期的竞争对手。这种情况类似于 iPhone 革命的早期,当时公司最初试图限制“未经批准”的设备进入其公司网络,但最终由于员工需求变得势不可挡而接受了 BYOD 政策。一些公司,如霍尼韦尔,最近也试图关闭未经 IT 部门批准的 AI 编码工具的“流氓”使用。

聪明的公司已经在建立安全的沙盒环境,以促进受控的实验。在促进创新的同时建立明确护栏的组织将获得员工热情和洞察力的双重好处,了解这些工具如何最好地满足他们的独特需求,从而使自己领先于抵制变革的竞争对手。而 Anthropic 的 Claude,至少目前是这场变革运动的主要受益者。