Anthropic 近期发布了其新一代 AI 模型,Claude Opus 4 和 Claude Sonnet 4,在编码、高级推理和 AI 代理能力方面建立了新的基准。这些模型代表着一个重要的飞跃,为各种复杂的任务提供了增强的性能和精确度。
Claude Opus 4:世界领先的编码模型
Claude Opus 4 作为世界上最好的编码模型脱颖而出,在复杂的、长时间的任务中表现出卓越且一致的性能。它处理扩展思维和代理工作流程的能力使其成为开发人员解决复杂编码挑战的宝贵资产。该模型的强大功能扩展到理解复杂的代码库,在多个文件中进行精确的更改,并在编辑和调试期间提高代码质量。几家行业领导者都称赞 Claude Opus 4 的能力:
- Cursor: 称赞它是最先进的编码模型,并且是复杂代码库理解方面的一项重大进步。
- Replit: 强调了它改进的精确度和对跨多个文件的复杂更改的显著增强。
- Block: 认为它是第一个在其代号为“goose”的代理中,在编辑和调试期间提高代码质量,同时保持最佳性能和可靠性的模型。
- Rakuten: 通过一项苛刻的开源重构验证了它的能力,该重构独立运行了 7 个小时,并且性能一致。
- Cognition: 承认 Opus 4 擅长解决其他模型难以处理的复杂挑战,成功处理了以前的模型所忽略的关键操作。
Claude Sonnet 4:一项重大升级
Claude Sonnet 4 代表了对其前身 Claude Sonnet 3.7 的重大升级。它提供了卓越的编码和推理能力,同时更准确地响应用户指令。该模型在性能和效率之间取得了最佳平衡,使其适用于各种内部和外部用例。虽然它可能不会在所有领域都超过 Opus 4,但它提供了能力和实用性的理想组合。Claude Sonnet 4 的主要亮点包括:
- GitHub: 表示 Claude Sonnet 4 在代理场景中表现出色,并将作为 GitHub Copilot 中为新的编码代理提供支持的模型。
- Manus: 强调了在遵循复杂指令、清晰推理和美观输出方面的改进。
- iGent: 报告说 Sonnet 4 擅长自主多功能应用程序开发,以及显著改进的问题解决和代码库导航,将导航错误从 20% 降低到接近零。
- Sourcegraph: 认为该模型有望成为软件开发中的一次重大飞跃,能够更长时间地保持专注,更深入地理解问题,并提供更优雅的代码质量。
- Augment Code: 报告说更高的成功率、更精准的代码编辑和更仔细地完成复杂任务,使其成为他们主要模型的最佳选择。
使用工具的扩展思维
Claude Opus 4 和 Claude Sonnet 4 都具有使用工具的扩展思维能力,使他们能够利用外部工具来增强其推理和解决问题的能力。这使得 Claude 能够在推理和工具使用之间交替,从而改进响应并获得更准确的结果。这些模型还可以并行执行工具,更精确地遵循指令,并表现出显著增强的记忆能力。这是通过提取和保存关键事实来实现的,以保持连续性并随着时间的推移建立隐性知识。
Claude Code:现已全面上市
Claude Code 现已全面上市,为开发人员提供了更多与 Claude 协作的机会。它通过 GitHub Actions 和与 VS Code 和 JetBrains 的原生集成来支持后台任务。编辑直接显示在您的文件中,从而促进无缝的结对编程和协同开发。此功能在研究预览期间收到了广泛的积极反馈,突显了其在简化开发工作流程中的价值。
新的 API 功能
Anthropic 还发布了 Anthropic API 上的四项新功能,使开发人员能够构建更强大的 AI 代理。这些功能包括:
- 代码执行工具: 允许代理执行代码片段以解决复杂问题。
- MCP 连接器: 使代理能够与外部数据源和服务交互。
- Files API: 为代理提供对本地文件系统的访问,以增强数据处理能力。
- Prompt 缓存: 允许开发人员将 prompt 缓存长达一小时,从而减少延迟并提高性能。
具有双模式的混合模型
Claude Opus 4 和 Sonnet 4 是提供两种不同模式的混合模型:
- 近乎即时响应: 为常规查询提供快速高效的响应。
- 扩展思维: 为复杂的任务启用更深入的推理和问题解决。
Pro、Max、Team 和 Enterprise Claude 计划包括这两种模型和扩展思维能力。Claude Sonnet 4 也可以供免费用户使用。这两种模型都可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用,确保开发人员和组织能够广泛访问。
价格一致性
Claude Opus 4 和 Sonnet 4 的定价与之前的 Opus 和 Sonnet 模型保持一致:
- Opus 4:每百万 tokens 15 美元/75 美元(输入/输出)
- Sonnet 4:每百万 tokens 3 美元/15 美元(输入/输出)
模型改进:减少捷径和增强内存
除了使用工具的扩展思维、并行工具执行和内存改进之外,Anthropic 还显著减少了模型使用捷径或漏洞来完成任务的情况。与 Sonnet 3.7 在代理任务上的表现相比,这两种模型从事这种行为的可能性降低了 65%。Claude Opus 4 在内存能力方面也大大优于所有以前的模型。当开发人员构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 擅长创建和维护“内存文件”以存储关键信息。这释放了更好的长期任务意识、连贯性和代理任务的性能,从而实现了诸如 Opus 4 在玩 Pokémon 时创建“导航指南”之类的场景。
思维总结
Anthropic 为 Claude 4 模型引入了思维总结,它使用较小的模型来凝练冗长的思考过程。此功能仅在大约 5% 的时间使用,因为大多数思考过程都足够短,可以完整显示。需要用于高级 prompt 工程的原始思维链的用户可以联系销售人员,了解 Anthropic 的新开发者模式以保留完全访问权限。
Claude Code 集成
Claude Code 现在已集成到您更多的开发工作流程中,包括终端、您首选的 IDE 以及使用 Claude Code SDK 的后台执行。用于 VS Code 和 JetBrains 的新 beta 扩展将 Claude Code 无缝集成到您的 IDE 中。Claude 提出的编辑以内联方式出现在您的文件中,从而简化了在熟悉的编辑器界面中的审查和跟踪。要安装,只需在您的 IDE 终端中运行 Claude Code。
可扩展的 Claude Code SDK
除了 IDE 之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,使用户能够使用与 Claude Code 相同的核心代理来构建自己的代理和应用程序。Claude Code on GitHub 就是使用 SDK 可以实现的一个例子,目前处于 beta 阶段。在 PR 上标记 Claude Code 以响应审查员的反馈、修复 CI 错误或修改代码。要安装,请从 Claude Code 中运行 /install-github-app。
迈向虚拟协作的一步
这些模型代表着迈向虚拟协作者的重要一步,保持完整的上下文,持续关注更长的项目,并推动变革性的影响。它们经过广泛的测试和评估,以最大程度地降低风险并最大程度地提高安全性,包括实施更高 AI 安全级别(如 ASL-3)的措施。
这些进步为各种应用带来了令人兴奋的可能性,Opus 4 在编码、研究、写作和科学发现方面不断突破界限,而 Sonnet 4 作为 Sonnet 3.7 的即时升级,将前沿性能带入日常用例。通过扩展思维能力,无论是 Opus 4 还是 Sonnet 4 都能在多种场景下大放异彩,例如,Opus 4 可以用于复杂的科研项目,帮助科研人员整理数据、分析结果,甚至提出新的研究方向;而 Sonnet 4 则可以用于日常的办公场景,例如撰写邮件、生成报告等,大大提高办公效率。同时,两者都能够支持第三方工具的调用,从而可以实现更多复杂的功能,例如,可以调用搜索引擎来获取最新的信息,或者调用计算器来进行复杂的数学运算。这些功能的加入,使得 Claude 4 系列模型更加强大,也更加实用。总的来说,Claude 4 的发布,无疑是 AI 领域的一次重大突破,它不仅在性能上有了显著的提升,而且在功能上也更加完善,为未来的 AI 应用提供了更多的可能性。我们有理由相信,在不久的将来,Claude 4 将会在各个领域发挥重要的作用,为人类带来更多的便利和价值。