人工智能领域见证了又一次重大飞跃,Anthropic推出了其旗舰 Claude 系列的最新迭代产品 Opus 4 和 Sonnet 4。这些模型在一周前发布,迅速引起了人们的关注,特别是在关键的编码领域树立了新的基准。除了它们强大的编码能力外,Opus 4 和 Sonnet 4 还展示了强大的推理和自主功能,使它们成为当代人工智能领域的重要进步。
Opus 4 是 Anthropic 迄今为止最复杂的作品,被该公司誉为其最强大的模型,并声称其为“世界上最好的编码模型”。作为 Opus 4 的补充,Sonnet 4 是一种更经济的替代方案,旨在实现卓越性能和实际成本效益之间的最佳平衡。这种战略性的双重产品满足了广泛的用户需求,从那些需要峰值性能的用户到那些寻求更注重预算的解决方案的用户。
Opus 4 和 Sonnet 4 中引入的增强功能值得注意。一个主要的亮点是它们增强的编码能力。Opus 4 已经在关键基准测试中展示了其领先地位,包括 SWE-bench 和 Terminal-bench,而 Sonnet 也表现出类似的能力。编码性能的这一飞跃突显了人工智能在软件开发中日益增长的重要性。
除了性能改进外,Anthropic 还优先考虑安全性。Opus 4 结合了 ASL-3 或人工智能安全级别 3 保护。这项措施源于 Anthropic 的“负责任的扩展政策”。Anthropic 由 OpenAI 的前员工创立,他们对安全性感到担忧,并始终强调以强大的安全考虑进行创新。
Opus 4 和 Sonnet 4 的发布引起了开发人员和用户的普遍积极反馈。增强的编码能力被誉为迈向自主或代理人工智能系统的重要一步。定价结构也受到了好评,它通过提供高级和经济高效的选择来反映之前的几代产品。
Opus 4 的发布并非没有争议。一位 Anthropic 研究人员透露,如果 Opus 认为用户的行为不当,它可以联系当局。虽然该研究人员后来澄清说,这在正常使用中是不可能的,但它引起了用户对模型中可能嵌入的独立性的担忧。
人工智能领域以频繁发布突破性模型为标志,每个模型都争夺“世界最佳”的称号。最近的版本包括 Google 的 Gemini-2.5-Pro、OpenAI 的 GPT-4.5 和 GPT-4.1、xAI 的 Grok 3 以及阿里巴巴的 Qwen 2.5 和 QwQ-32B,所有这些都拥有出色的基准性能。
鉴于这种竞争主张的局面,有必要检查 Claude 4 是否真正占据了最高地位。通过深入研究其功能、基准性能、应用程序和用户反馈,或许可以确定这个问题的答案。
Opus 4:编码强国
Opus 4 是 Anthropic 最先进的模型,专为复杂、长时间的任务而设计。它适用于自主软件工程、研究和代理工作流程,所有这些都需要高级工具。Opus 4 被定位为“世界上最好的编码模型”。
核心功能和增强功能
Opus 4 具有先进的功能。值得注意的是以下几点:
- 高级编码: Opus 4 擅长自主执行“长达数天的工程任务”。该模型通过“改进的代码品味”适应特定的开发人员风格,并支持高达 32,000 个输出 tokens。后台 Claude Code 引擎处理任务。
- 高级推理和复杂问题解决: Opus 4 采用混合推理系统,可在即时响应和深入、扩展的思考之间切换,从而在长时间的序列中保持专注。
- 代理功能: Opus 4 能够实现复杂的人工智能代理,并展示了最先进 (SOTA) 的性能。它支持企业工作流程和自主营销活动管理。
- 创意写作和内容创作: Opus 4 可以生成具有人类水平的、细致的散文,具有卓越的文体质量,使其适合高级创意任务。
- 记忆和长上下文感知: Opus 4 创建和使用“记忆文件”,从而增强了跨长任务的一致性,例如在玩 Pokémon 时编写游戏指南。
- 代理搜索和研究: Opus 4 可以进行数小时的研究,并综合来自专利和学术论文等复杂数据的见解。
基准性能亮点
Opus 4 展现出卓越的性能。请考虑以下基准:
SWE-bench 验证(编码):73.2%
- SWE-bench 测试人工智能系统解决 GitHub issues 的能力。
- OpenAI 的 o3:69.1%。Google 的 Gemini-2.5-Pro:63.8%。
Terminal-bench (CLI 编码):43.2%(50.0% 高计算)
- Terminal-bench 衡量人工智能代理在终端环境中的能力。
- Claude Sonnet 3.7:35.2%,OpenAI 的 GPT-4.1:30.3%。
MMLU(一般知识):88.8%
- MMLU-Pro 旨在评估语言理解模型在更广泛和更具挑战性的任务中的性能。
- OpenAI 的 GPT-o1 和 GPT-4.5 分别得分 89.3% 和 86.1%。Gemini-2.5-Pro-Experimental:84.5%。
GPQA Diamond(研究生推理):79.6%(83.3% 高计算)
- GPQA 评估科学领域的质量和可靠性。
- Grok 3:84.6%。Gemini-2.5-Pro:84%。o3:83.3%。
AIME(数学):75.5%(90.0% 高计算)
- AIME 2024 评估高中数学的功效。
- Gemini-2.5-Pro:92%,GPT-o1:79.2%。Nvidia 的 Nemotron Ultra:80.1%。
HumanEval(编码):创纪录的主张
* HumanEval 是 OpenAI 开发的数据集,用于评估代码生成能力。
* Opus 3:84.9%。
TAU-bench:零售 81.4%
- TAU-bench 零售评估人工智能代理在零售购物领域中的任务,例如取消订单、更改地址和检查订单状态。
- Claude Sonnet 3.7:72.2%。GPT-4.5:70.4%。
MMMU(视觉推理):76.5%
- MMMU 的基准评估是在零样本设置下进行的,以评估模型在没有对基准进行微调或少量演示的情况生成准确答案的能力。
- Gemini-2.5-Pro:84%。o3:82.9%。
最大连续任务:超过 7 小时
应用
Opus 4 擅长高级软件重构、研究综合以及复杂的任务,例如财务建模或文本到 SQL 的转换。它可以为多步骤自主代理和长期工作流程提供动力,并具有强大的记忆力。
Sonnet 4:平衡性能和实用性
Claude 4 Sonnet 提供性能、成本效益和编码能力。它专为需要智能和经济性的企业级人工智能部署而设计。
核心功能和增强功能
Sonnet 4 包含多项主要优势:
- 编码: Sonnet 4 非常适合代理工作流程,支持高达 64,000 个输出 tokens,并且被选为 GitHub 的 Copilot 代理提供支持。它有助于软件生命周期:规划、修复错误、维护和大规模重构。
- 推理和指令跟踪: Sonnet 以类人的交互、卓越的工具选择和错误纠正而著称,非常适合高级聊天机器人和人工智能助手角色。
- 计算机使用: Sonnet 可以使用 GUI,并与数字界面交互、键入、单击和解释数据。
- 视觉数据提取: 从复杂的视觉格式(如图表)中提取数据,并具有表格提取功能。
- 内容生成和分析: Sonnet 擅长细致的写作和内容分析,使其成为编辑和分析工作流程的可靠选择。
- 机器人流程自动化 (RPA): 由于高指令跟踪准确性,Sonnet 在 RPA 用例中非常有效。
- 自我纠正: Sonnet 能够识别并修复自己的错误,从而提高长期可靠性。
基准性能亮点
Sonnet 4 达到了以下分数:
SWE-bench 验证:72.7%
- Opus 4:73.2%。
MMLU:86.5%
- Opus 4:88.8%。
GPQA Diamond:75.4%
- Opus 4:79.5%。
TAU-bench:零售 80.5%
- Opus 4:81.4%。
MMMU:74.4%
- Opus 4:76.5%。
AIME:70.5%
- Opus 4:75.5%。
TerminalBench:35.5%
- Opus 4:43.2%
最大连续任务:约 4 小时,少于 Opus 报告的 7+ 小时。
错误减少:与 Sonnet 3.7 相比,快捷方式行为减少了 65%。
应用
Sonnet 4 适合为人工智能聊天机器人、实时研究、RPA 和可扩展部署提供动力。它从文档中提取知识、分析视觉数据和支持开发的能力使其成为一名有能力的助手。
架构创新和共享功能
Opus 4 和 Sonnet 4 都具有关键的架构进步。它们支持 200K 上下文token窗口并具有混合推理功能。 它们与内部推理并行使用外部工具。这些方面提高了跨任务的实时准确性,例如搜索、代码执行和文档分析。
与之前的迭代相比,这些模型还表现出更少的“快捷方式行为”,从而提高了可靠性。 通过提供剖析决策过程的“思考摘要”来增强透明度。
真实世界的性能和企业反馈
编码员对 Opus 4 的反馈是积极的。用户报告具有高精度的长时间编码session。他们还注意到第一次尝试时的错误修复,以及接近人类的写作流程。
Sonnet 4 赢得了赞誉,尤其是来自将其与 Cursor 和 Augment Code 等开发人员工具连接起来的用户。 对文档理解和速率限制的担忧依然存在。
主要采用者包括 GitHub,该公司称 Sonnet 4“在代理场景中飙升”。Replit 称赞其精度,而 Rakuten 和 Block 强调了生产力提升。 Opus 4 支持对一个开源代码库进行完整的 7 小时重构。
举报争议
Anthropic 研究员 Sam Bowman 在 X 上发布的一篇文章透露,Opus 可能会采取行动,例如在认为用户不道德的情况下举报用户。
这种行为来自 Anthropic 的 Constitutional AI 框架。虽然其目的是减少危害,但批评者认为,这种程度的自主性,特别是与代理功能和命令行访问相结合时,会造成一种危险的局面。
安全性和突发能力
Opus 4 在人工智能安全级别 3 下运行,这是其当前最高级别,理由是担心对敏感主题的了解。 红队人员测试了 Opus,发现其行为和能力“与他们之前测试过的任何东西在质量上都不同”。
定价和价值主张
Opus 4: 定价为每百万输出tokens 75 美元,目标是高端应用。
- 这与 Opus 3 的定价相同。
- OpenAI 的 o3 定价为每百万输出tokens 40 美元。
Sonnet 4: 定价为每百万输出tokens 15 美元,从而在性能和可负担性之间取得了平衡。
- OpenAI 的 GPT-4o 和 Google 的 Gemini-2.5-Pro 的定价分别为每百万输出tokens 20 美元和 15 美元。 OpenAI 的旗舰 4.1 模型的定价为每百万输出tokens 8 美元。