谷歌是否打造了顶级的软件开发AI工具?

在专门用于编码任务的人工智能领域,一场潜在的变革正在发生。在相当长的一段时间里,由 Anthropic 开发的模型,特别是其 Claude 系列,经常被认为是协助开发者编写、调试和理解代码的领先者。然而,最近的发展表明,一个强大的新挑战者已经进入竞技场:谷歌的 Gemini 2.5。早期迹象,包括基准测试表现和初步的开发者反馈,都指向这一最新迭代可能重新定义 AI 驱动的编码辅助标准,引发了关于既定层级是否即将被改组的问题。特别是 Gemini 2.5 Pro Experimental 的出现,正在开发者社区内引发激烈的讨论和比较。

基准测试实力:量化优势?

客观指标通常提供了对新模型能力的初步了解,在这方面,Gemini 2.5 的登场意义重大。一个特别相关的评估是 Aider Polyglot 排行榜,这是一个精心设计的基准测试,旨在评估大型语言模型 (LLMs) 在跨多种编程语言生成新代码和修改现有代码库等实际任务中的熟练程度。在这次要求严苛的评估中,Gemini 2.5 Pro 的实验版本取得了 72.9% 的显著分数。这一数字使其明显领先于强大的竞争对手,包括 Anthropic 的 Claude 3.7 Sonnet(得分 64.9%)。它还超过了 OpenAI 的产品,例如 o1 模型 (61.7%) 和 o3-mini high 变体 (60.4%)。在特定于编码的基准测试中取得如此领先地位,是 Gemini 2.5 在该领域能力的有力量化论证。

除了以编码为中心的评估之外,Gemini 2.5 在更广泛的推理和知识应用测试中也表现出卓越的性能。它在 GPQA (Graduate-Level Google-Proof Q&A) 基准测试中获得了最高排名,这是一项严格的测试,用通常在研究生学习阶段遇到的跨越各种科学学科的复杂问题来挑战 AI 模型。Gemini 2.5 在此基准测试中获得了 83% 的分数。这一表现超过了 OpenAI 的 o1-Pro 模型(得分 79%)和 Anthropic 的 Claude 3.7 Sonnet(即使采用扩展思考时间技术也达到 77%)。在包括测试通用推理能力以及像编码这样的专业技能在内的各种基准测试中持续获得高排名,表明其底层架构既健壮又通用。这种专业编码能力和广泛智力能力的结合,对于寻求全面 AI 助手的开发者来说,可能是一个关键的差异化因素。

开发者的赞誉与实际验证

虽然基准测试提供了有价值的量化见解,但 AI 编码助手的真正考验在于开发者在处理实际项目时的实际应用。早期的报告和证言表明,Gemini 2.5 不仅在受控测试中表现良好,而且在用户的日常工作流程中也给他们留下了深刻印象。积极试用新模型的开发者 Mckay Wrigley 给出了强有力的认可,毫不含糊地表示:’Gemini 2.5 Pro 现在无疑是最好的代码模型‘。他的观察超出了单纯的代码生成;他强调了模型展现出他称之为’真正才华闪现‘的实例。此外,Wrigley 指出了一个可能至关重要的特性:该模型不仅仅是默认同意用户提示,而是更具批判性地参与,这表明了更深层次的理解或模拟推理。他的结论是斩钉截铁的:’谷歌这次真的推出了一个赢家‘。

这种积极情绪似乎在其他人中也得到了共鸣,尤其是在与 Anthropic 备受推崇的 Claude 3.7 Sonnet 进行直接比较时。许多开发者发现他们的实践经验与有利于 Gemini 2.5 的基准测试结果相符。一个例证性的描述来自 Reddit 上的一位用户,他详细说明了自己使用 Claude 3.7 Sonnet 花费数小时构建应用程序的挣扎。据该用户称,结果是大量无法运行的代码,并且存在严重的安全问题,例如将 API 密钥直接嵌入代码中(硬编码)。在感到沮丧后,这位开发者转向了 Gemini 2.5。他们将 Claude 生成的整个有缺陷的代码库作为输入提供给 Gemini 2.5。据报道,Gemini 2.5 不仅识别了关键缺陷并清晰地解释了它们,而且还着手重写了整个应用程序,最终产生了一个功能正常且更安全的版本。这个轶事突显了 Gemini 2.5 有效处理复杂调试和重构任务的潜力。

进一步的比较测试集中在开发的不同方面。在社交平台 X 上记录的一个实例中,一位用户让 Gemini 2.5 与 Claude 3.7 Sonnet 在一项视觉任务中进行较量:重新创建 ChatGPT 的用户界面 (UI)。根据该用户的评估,与 Anthropic 的对应模型相比,Gemini 2.5 产生了更准确的目标 UI 视觉表示。虽然 UI 复制只是开发的一个方面,但在这些任务中的准确性可以表明模型对细节的精细关注以及将复杂描述或示例转化为有形输出的能力。

这些改进不仅是相对于竞争对手而言,也代表了谷歌自身先前模型的重大进步。开发者 Alex Mizrahi 分享了一次突显这种内部进展的经历。他使用 Gemini 2.5,发现它仅凭其内部知识库就能回忆起大约 80-90% 的 Rell(一种特定的编程语言)语法。这标志着与早期 Gemini 版本相比的巨大飞跃,根据 Mizrahi 的说法,早期版本即使在提示中明确提供了示例,也在 Rell 语法方面遇到了很大困难。这表明模型在底层训练数据和对不太常见语言或语法的回忆能力方面有所改进。

协作编码与上下文优势

除了原始代码生成和准确性之外,AI 模型的交互风格和上下文能力对其作为编码伙伴的效用产生显著影响。用户报告称,在使用 Gemini 2.5 工作时感觉更具协作性。开发者 Matthew Berman 在 X 上注意到了一个独特的行为:’它(Gemini 2.5 Pro)会在过程中向我提出澄清性问题,这是其他模型从未做过的。‘ 他将此解释为使交互’更具协作性得多‘。这种主动参与——寻求澄清而不是做出假设——可以带来更精确的结果,减少迭代次数,并可能防止误解,尤其是在’vibe coding’(开发者有一个大致想法但没有精确规范)中经常遇到的复杂或定义模糊的任务中。

对 Gemini 2.5 在复杂编码场景中潜在优势做出贡献的一个主要技术因素是其巨大的上下文窗口。该模型支持高达100 万输入 token。这代表了相对于当前竞争对手的巨大优势。OpenAI 的领先模型 o1 和 o3-mini 目前支持 250,000 token 的上下文窗口。虽然据报道 Anthropic 正在努力扩展其上下文窗口,可能达到 500,000 token,但 Gemini 2.5 当前的能力显著超过了这些数字。

为什么大上下文窗口对编码如此重要?现代软件开发通常涉及处理庞大的代码库、多个文件、复杂的依赖关系和长期的变更历史。具有更大上下文窗口的模型可以同时吸收和处理更多此类周围信息。这使其能够更好地保持大型项目的一致性,理解不同代码模块之间复杂的相互关系,跨文件跟踪变量使用和函数定义,并可能生成更无缝地集成到现有结构中的代码,而无需开发者不断手动提供相关上下文片段。对于像大规模重构、理解遗留系统或开发涉及应用程序多个部分的功能等任务,一百万 token 的上下文窗口可能改变游戏规则,减少错误并提高 AI 贡献的质量和相关性。

挥之不去的缺陷与监督的必要性

尽管取得了令人瞩目的进步和积极的反馈,但保持客观视角至关重要:Gemini 2.5,尤其是在其当前的’Pro Experimental’(专业实验版)称号下,并非一个完美无瑕的编码神谕。它仍然表现出一些与使用大型语言模型进行软件开发相关的典型挑战和潜在陷阱。人类判断和勤勉监督的基本要求仍然是绝对必要的。

一个持续存在的重大担忧领域是安全性。开发者 Kaden Bilyeu 在 X 上分享了一个实例,其中 Gemini 2.5 试图生成用于处理聊天响应的客户端 API 代码。这种方法本身就是不安全的,因为它不可避免地会导致API 密钥在客户端代码中暴露或泄露,使其可被最终用户访问。这突显了即使是先进的模型也可能缺乏对安全最佳实践的基本理解,如果盲目信任其输出,可能会引入关键漏洞。开发者必须严格审查 AI 生成的代码,尤其是在涉及身份验证、授权和数据处理方面。

此外,该模型有效管理非常大的代码库的能力收到了褒贬不一的评价,这表明其令人印象深刻的上下文窗口可能并不总能在重负载下完美转化为实际性能。开发者 Louie Bacaj 报告称,在让 Gemini 2.5 对一个包含约 3500 行代码的代码库执行操作时遇到了显著困难。Bacaj 指出,尽管该模型声称在上下文处理方面有所增强,并且成功的 API 调用表明上下文已被接收,但在处理这个较大的项目范围时,它经常无法准确或全面地执行所请求的任务。这表明在大型现有代码中有效利用整个上下文窗口进行复杂推理或操作任务可能存在局限性,或者性能可能因代码和任务的具体性质而异。

当前可用的 Gemini 2.5 Pro 版本附带的’Experimental’(实验性)标签也很重要。它表明谷歌仍在积极完善该模型。用户应该预料到潜在的不稳定性、性能变化以及随着谷歌收集反馈并迭代技术而进行的持续更改。虽然这个阶段允许早期接触尖端功能,但这也意味着该模型可能尚未具备最终生产版本所期望的完全可靠性或完善性。持续改进是可能的,但当前用户实际上是在参与大规模的 Beta 测试。这些不完善之处强调了人类开发者在环路中不可替代的作用——不仅是为了发现错误,还包括架构决策、战略规划以及确保最终产品符合要求和质量标准。

更广泛的挑战:将力量包装成体验

尽管 Google DeepMind 似乎正在通过像 Gemini 2.5 这样的模型取得显著的技术里程碑,但一个反复出现的主题浮出水面:将原始技术力量转化为引人注目、易于访问且能吸引市场注意力的用户体验的挑战。有一种看法是,即使谷歌开发出可能世界领先的 AI 能力,它有时在包装和展示这些能力方面表现不佳,无法广泛引起用户的共鸣,尤其是与 OpenAI 等竞争对手相比。

天使投资人 Nikunj Kothari 强调了这个问题,他对 Google DeepMind 团队表示了一定程度的同情。’我有点为 Google DeepMind 团队感到惋惜‘,他评论道,观察到强大模型的发布与竞争对手经常产生的病毒式现象之间的对比。’你构建了一个改变世界的模型,而大家却在发布 Ghibli 风格的图片‘,他补充说,指的是围绕 OpenAI 的 GPT-4o 图像生成能力的热议,该能力迅速抓住了公众的想象力。Kothari 认为这是谷歌面临的一个持续挑战:拥有能够构建一流 AI 的巨大技术人才,但在面向消费者的产品设计和体验这一关键层面上可能投入不足。’我恳求他们将 20% 最优秀的人才调出来,让他们自由发挥,构建世界级的消费者体验‘,他敦促道。

这种情绪延伸到了模型的感知’个性’上。Kothari 指出,与其他领先模型相比,Gemini 2.5 的交互风格感觉’相当基础‘。这个主观因素虽然难以量化,但会影响用户参与度以及与 AI 协作的感觉。其他几位用户也呼应了这一观察,表明虽然技术上很熟练,但该模型可能缺乏竞争对手培养出的更具吸引力或更细致入微的交互风格。

实际可用性问题也已浮出水面。例如,Gemini 2.0 Flash 模型中原生图像生成的发布,其功能在技术上受到了称赞。然而,许多用户报告说,仅仅是找到并使用该功能就很困难。用户界面被描述为不直观,选项不必要地嵌套在菜单中。这种访问强大功能的阻力会显著抑制用户的热情和采用率,无论底层技术的质量如何。如果用户甚至难以启动任务,那么模型的强大功能对他们来说就变得无关紧要了。

反思围绕 GPT-4o 图像生成的’Ghibli狂热’,情况可能与其说是谷歌在营销上彻底失败,不如说是 OpenAI 更擅长理解和利用用户心理。正如 X 上一位用户就 OpenAI 的展示所指出的:’你发布两张图片,每个人都明白了。‘ 这种视觉化、易于分享且本质上具有创造性的演示方式,触及了用户的即时兴趣。相比之下,评估像 Gemini 2.5 这样的语言模型的细微改进需要付出更多努力。’你让同样的人阅读 2.0 生成的报告并与 2.5 进行比较,这比滚动和点赞需要更多时间‘,该用户详细阐述道。

这些场景突显了当前 AI 领域的一个关键教训:仅靠技术优势并不能保证市场领导地位或用户偏好。易用性、直观设计、有效传达能力,甚至 AI 的感知个性或参与度等因素都起着至关重要的作用。普通用户,包括许多专注于生产力的开发者,通常倾向于选择那些不仅功能强大,而且使用起来令人愉悦、易于理解并能无缝集成到其工作流程中的工具。对于谷歌来说,要充分利用像 Gemini 2.5 这样的模型的潜力,特别是在编码辅助等竞争激烈的领域,弥合尖端研究与卓越用户体验之间的差距仍然是一项至关重要的任务。