直觉与分析的桥梁
当前大多数人工智能模型往往专注于快速响应或深度分析。Anthropic 的 Claude 3.7 Sonnet 打破了这一模式,将两种能力集成在一起。这使得它能够在需要时提供近乎即时的答案,或者进行扩展的、逐步的推理,使其思考过程对用户透明。
正如 Anthropic 所解释的,这种双重功能创造了更流畅、更自然的用户体验。它反映了人类的认知过程,即一个大脑同时管理快速反应和深度思考。Anthropic 认为,这种综合的推理方法应该是高级人工智能模型的基本特征,而不是被 relegated 到单独的实体。
用户目前可以通过 Claude 聊天机器人体验 Claude 3.7 Sonnet。虽然所有订阅层级(包括免费版)都可以访问它,但“扩展思维”模式是一项高级功能,仅适用于 Pro、Team 和 Enterprise 订阅者。除了聊天机器人,该模型还可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台获得,提供了多种集成和应用途径。
解读 Claude 3.7 Sonnet:具有独特之处的基础模型
Claude 3.7 Sonnet 的核心设计目标是理解和生成与人类交流非常相似的文本。它擅长提供快速的、基于模式的输出和细致入微的、经过深思熟虑的响应。这种多功能性使其在涉及编码、遵循复杂指令、理解多模态信息和展现代理能力的任务中特别有效。
该模型是 Anthropic 的心血结晶,Anthropic 是一家由前 OpenAI 高管于 2021 年成立的人工智能研究和开发公司。Anthropic 致力于负责任地推进生成式人工智能,高度重视安全和道德考量。这一承诺体现在他们的开发过程中,尖端人工智能产品在发布给公众之前都会经过严格的安全评估,确保它们符合公司的严格标准。
Anthropic 对 Claude 3.7 Sonnet 进行了广泛的测试、训练和评估,并与外部专家合作,以确保其符合安全性、可靠性和可信赖性基准。该公司还声称,该模型展示了区分有害和无害提示的更强能力,与之前的版本相比,减少了问题被拒绝或推迟的情况。
Claude 3.7 Sonnet 的多功能性:超越寻常
Claude 3.7 Sonnet 拥有与其他类似模型相似的广泛功能。它可以回答问题、集思广益、总结现有内容并生成新内容,同时支持图像和文本作为输入。然而,它在几个关键领域区别于其他 Anthropic 模型。
推理能力的飞跃
Claude 3.7 Sonnet 标志着 Anthropic 首次涉足公开可用的推理模型。这些模型被设计用来将复杂问题分解成更小、更易于管理的步骤,并在得出最终答案之前验证事实。虽然它们不能完美地复制人类的思维过程,但它们的方法受到演绎推理的启发,旨在提供更精确和值得信赖的响应。
通过同时作为传统的大型语言模型和推理模型,Claude 3.7 Sonnet 使用户能够在快速、直观的答案和更深思熟虑、分析性的响应之间进行选择。
标准模式: 在此模式下,该模型作为 Anthropic 的 Claude 3.5 Sonnet 的增强版本运行,擅长需要快速响应的复杂任务,例如知识检索、销售自动化和计算机编程。
扩展思维模式: 激活此模式会提示模型生成“思维内容块”,向用户直观地显示其内部推理过程。然后将这些见解整合到最终响应中,从而提高模型在数学、物理、指令遵循和编码等领域的性能。
通过 Anthropic 的 API,用户可以精细控制 Claude 3.7 Sonnet 的“思考”预算。他们可以设置模型在响应之前的推理时间限制,最多 128,000 个 token。这允许在速度、成本和答案质量之间进行微调平衡。在两种模式下,定价保持一致:每百万输入 token 3 美元,每百万输出 token 15 美元,包括用于思考的 token。
编码能力:新的基准
Anthropic 称赞 Claude 3.7 Sonnet 是其迄今为止最熟练的编码模型。它能够识别和纠正错误、开发新功能、阐明技术概念,并提出跨各种编程语言的改进建议。扩展思维模式专门针对支持能够处理复杂任务和工作流程的人工智能代理进行了优化,从而加速整个软件开发生命周期。
作为 Claude 3.7 Sonnet 的补充,Anthropic 还发布了其代理编码工具 Claude Code 的预览版。该工具充当“积极的合作者”,能够搜索和读取代码、编辑文件、编写和执行测试以及使用命令工具——同时让用户了解其进度。
Anthropic 断言,Claude Code 可以处理诸如测试驱动开发、调试复杂问题和大规模重构等任务——这些任务通常需要人类开发人员超过 45 分钟的手动工作。一段视频演示展示了该工具只需一个简单的命令(例如“解释这个项目结构”)即可分析项目。开发人员可以使用命令行中的普通英语修改他们的代码,Claude Code 会仔细描述其更改、测试错误,甚至将更新推送到 GitHub。
实际应用:Claude 3.7 Sonnet 的闪光点
与之前的版本一样,Claude 3.7 Sonnet 拥有广泛的潜在应用。Anthropic 在其文档中强调了几个关键用例:
软件工程: Claude 3.7 Sonnet 在软件工程基准测试中实现了“最先进的”性能,使其擅长解决复杂的软件相关挑战。这使其成为代码生成、调试和自动化开发工作流程等任务的强大工具。
工单路由: 该模型先进的自然语言处理能力可用于根据紧急程度、客户意图、优先级和客户资料等因素自动分类和路由客户支持工单。
客户支持代理: 其复杂的对话能力支持创建能够实时处理查询的自动化客户支持代理,提供全天候支持并以准确的响应和积极的互动管理大量请求。
内容审核: 经过训练以“诚实、乐于助人和无害”,该模型可用于审核数字应用程序,营造安全、尊重和高效的环境。
法律摘要: 凭借其先进的自然语言处理能力,该模型可以有效地总结法律文件,提取关键信息以加快法律研究过程。它可用于合同审查、诉讼准备和监管工作,在节省用户宝贵时间的同时保持准确性。
基准测试 Claude 3.7 Sonnet:比较分析
Anthropic 对 Claude 3.7 Sonnet 与其他类似规模和功能的模型进行了严格的比较,包括 OpenAI 的 o1 和 o3-mini、DeepSeek 的 R1、xAI 的 Grok 3 以及其自身的 Claude 3.5 Sonnet。这些评估涵盖了一系列能力,例如软件工程、代理工具使用、指令遵循、一般推理、多模态理解和代理编码。
结果表明,Claude 3.7 Sonnet,特别是在扩展思维模式下,在大多数测试中都优于其大多数竞争对手。然而,它在研究生水平推理 (GPQA Diamond) 方面得分低于 Grok 3;在多语言问答 (MMMLU) 方面得分低于 o1;在视觉推理 (MMMU) 方面得分低于 Grok 3 和 o1;在数学问题解决 (MATH 500) 方面得分低于 o1、o3-mini 和 R1;在高中数学竞赛 (AIME 2024) 方面得分低于 Grok 3、o1、o3-mini 和 R1。虽然 Claude 3.7 Sonnet 在标准模式下也表现良好,但它对竞争对手的优势不如在扩展思维模式下那么明显。
除了这些传统基准测试之外,Claude 3.7 Sonnet 在扩展思维模式下进行的 Pokémon 游戏测试中超越了 Anthropic 之前的所有模型。
承认局限性:人工智能的不完美本质
重要的是要认识到,与任何人工智能模型一样,Claude 3.7 Sonnet 并非绝对可靠。它可能会产生不准确的响应并反映其训练数据中存在的偏差。此外,它在标准模式下与数学相关的任务中的表现落后于一些竞争对手,尽管它在扩展思维模式下在该领域表现出显着改进。
访问 Claude 3.7 Sonnet:多种途径
有几种方法可以访问和利用 Claude 3.7 Sonnet:
Claude 聊天机器人: Claude 3.7 Sonnet 的标准模式可在所有订阅层级(免费、Pro、Team 和 Enterprise)中使用。但是,扩展思维模式仅限于 Pro、Team 和 Enterprise 订阅者。
Anthropic 的 API: 开发人员可以通过 Anthropic 的 API 将 Claude 3.7 Sonnet 集成到他们自己的应用程序中。提供了全面的分步指南以促进这种集成。
第三方平台: Claude 3.7 Sonnet 也可在 Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台上使用,使用户能够将模型集成和部署到他们的应用程序中,而无需管理底层基础设施。
常见问题解答 (FAQ)
为了解决常见问题,这里有一个简短的常见问题解答部分:
Claude 3.7 Sonnet 可用吗? 是的,Claude 3.7 Sonnet 可以通过所有订阅层级(包括免费版)的 Claude 聊天机器人访问,其扩展思维模式保留给 Pro、Team 和 Enterprise 订阅者。它还可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台获得。
Claude 3.7 Sonnet 是免费的吗? 是的,可以通过 Claude 聊天机器人免费访问 Claude 3.7 Sonnet 的标准版本。但是,其扩展思维功能仅在付费的 Pro、Team 和 Enterprise 订阅层级中可用。该模型在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台上的定价为每百万输入 token 3 美元,每百万输出 token 15 美元。
Claude 3.7 Sonnet 是多模态的吗? 是的,Claude 3.7 Sonnet 接受文本和图像输入,使其成为多模态的。但是,它只生成文本响应。
Claude 3.7 Sonnet 安全吗? 虽然没有任何人工智能模型是完全没有风险的,但 Anthropic 对 Claude 3.7 Sonnet 进行了广泛的测试、训练和评估,并与外部专家合作,以确保它符合其安全性、可靠性和可信赖性标准。该公司还声称,该模型展示了区分有害和良性提示的更强能力,与之前的模型相比,减少了问题被推迟的情况。具体来说,与 Claude 3.5 Sonnet 相比,它在标准模式下减少了 45% 的不必要拒绝,在扩展思维模式下减少了 31% 的不必要拒绝。
什么是 Claude Code? Claude Code 是 Anthropic 开发的一种代理编码工具,可以自主执行高级任务,例如搜索和读取代码、编辑文件、编写和运行测试、使用命令工具,甚至将更新推送到 GitHub。
什么是推理模型? 推理模型旨在分析复杂问题,将它们分解为可管理的步骤,并在给出最终答案之前改进他们的响应。其目的是提供比标准语言模型更准确和可靠的响应,标准语言模型生成快速的、基于模式的输出。对于 Claude 3.7 Sonnet,该模型可以在单个系统内在快速响应和深度反思之间无缝切换。这代表了在寻求能够模仿人类推理和解决问题的人工智能方面取得了重大进展。