Gemini 2.5:释放前所未有的智能

在 I/O 2025 大会上,Google 公布了其 Gemini 2.5 模型系列的一系列突破性更新,以及一项名为 Deep Think 的创新实验功能,旨在增强 2.5 Pro 模型的推理能力。这些进步标志着人工智能领域的重大飞跃,为开发者和用户提供了前所未有的性能、效率和多功能性。

Gemini 2.5 Pro 模型作为编码任务的首选解决方案,已获得开发者广泛赞誉,而 2.5 Flash 模型也将迎来重大升级。此外,Google 还在其模型中引入了一系列新功能,包括 Deep Think,这是一种专为 2.5 Pro 模型量身定制的实验性增强推理模式。

此前,Google 发布了 Gemini 2.5 Pro,这是迄今为止最智能的模型,并加快了 I/O 更新的发布,以帮助开发者创建出色的 Web 应用程序。今天,该公司分享了对 Gemini 2.5 模型系列的进一步改进,取得了显著成就:

  • Gemini 2.5 Pro 超出了所有预期,在学术基准测试中表现出色。它现在在 WebDev Arena 和 LMArena 排行榜上名列前茅,巩固了其作为全球领先的编码和学习辅助模型的地位。

  • 新功能正在集成到 2.5 Pro 和 2.5 Flash 中,包括用于更自然和引人入胜的对话体验的本机音频输出、高级安全措施以及 Project Mariner 的计算机使用功能的集成。2.5 Pro 模型将通过 Deep Think 进一步增强,Deep Think 是一种旨在提高复杂数学和编码问题推理能力的实验模式。

  • Google 仍然致力于通过在 Gemini API 和 Vertex AI 中加入思维概要来改善开发者体验。这些摘要提供了更高的透明度,为 2.5 Pro 提供了扩展的思考预算以确保更大的控制,并支持 Gemini API 和 SDK 中的 MCP 工具以访问更广泛的开源工具。

    1. 5 Flash 模型现在可以在 Gemini 应用程序中普遍访问。更新版本即将发布在 Google AI Studio 中供开发者使用,并在 Vertex AI 中供企业使用,预计将于 6 月初发布,2.5 Pro 紧随其后。

这项显著的进展归功于 Google 团队的不懈努力,他们致力于不断改进其技术并以安全和负责任的方式部署它们。

揭示 2.5 Pro 的卓越性能

  1. 5 Pro 模型最近已更新,旨在帮助开发者创建更具交互性和功能丰富的 Web 应用程序。非常感谢用户和开发者提供的积极反馈,并且将继续根据用户输入进行改进。

除了在学术基准测试中的出色表现之外,最新版本的 2.5 Pro 还在流行的编码排行榜 WebDev Arena 上占据了领先地位,其 ELO 分数高达 1415。它还在 LMArena 的所有排行榜上领先,该排行榜根据各种标准评估人类偏好。此外,2.5 Pro 配备了 100 万个 token 的上下文窗口,在长上下文和视频理解方面提供了最先进的性能。

通过集成 LearnLM(一个与教育专家合作开发的模型系列),2.5 Pro 已成为领先的学习模型。在评估其教学法和有效性的直接比较中,教育工作者和专家在各种场景中都更喜欢 Gemini 2.5 Pro 而不是其他模型。它还在用于构建 AI 学习系统的所有五项学习科学原则上超越了顶级模型。这突出了其在教育环境中的有效性,提供了量身定制且有效的教学策略。

Deep Think:突破推理的界限

Google 正在积极探索 Gemini 认知能力的极限,并开始试验一种称为 Deep Think 的增强推理模式。这种创新模式采用前沿的研究技术,使模型能够在形成响应之前评估多个假设。这种方法增强了决策过程,从而在复杂情况下实现更复杂和细致的结果。

Gemini 2.5 Pro Deep Think 在 2025 年的 USAMO 中取得了令人印象深刻的成绩,USAMO 被广泛认为是最具挑战性的数学基准之一。它还在 LiveCodeBench(一个竞争级别的编码的苛刻基准)上表现出色,并在评估多模态推理的 MMMU 上获得了 84.0% 的分数。这些结果突显了 Deep Think 在处理复杂任务方面的卓越表现,预示了高级 AI 解决问题的光明前景。

鉴于 2.5 Pro Deep Think 正在推动可能性的前沿,Google 正在花费更多时间进行全面的安全评估,并征求安全专家的进一步意见。该公司还将为选定的测试人员提供对 Gemini API 的访问权限,以收集反馈,然后再将其广泛提供。这种谨慎而审慎的方法旨在确保负责任地部署先进的 AI 技术。

推出增强型 2.5 Flash

  1. 5 Flash 模型以其效率和成本效益而闻名,已在多个维度上进行了改进。它在推理、多模态、代码处理和长上下文的关键基准测试中表现出改进,同时变得更加高效,在评估中使用的 token 减少了 20-30%。这突出了其优化的性能和资源管理。

新的 2.5 Flash 目前可在 Google AI Studio 中供开发者预览,在 Vertex AI 中供企业应用程序预览,并在 Gemini 应用程序中供普通用户预览。它计划于 6 月初全面上市,使其可用于生产环境。

Gemini 2.5 的新功能

增强本机音频输出和 Live API

Live API 引入了音视频输入和本机音频输出对话的预览版本,使用户能够创建具有更自然和富有表现力的 Gemini 的对话体验。此功能支持更具吸引力和交互性的应用程序。AI 产生逼真音频响应的能力通过创建更直观的通信方式来显著增强用户交互。

Live API 允许用户控制模型的音调、口音和说话风格。例如,可以指示模型在讲述故事时采用戏剧性的声音。它还支持工具使用,允许它代表用户进行搜索。语音控制的灵活性和对外部工具的访问使该模型在各种应用场景中都非常通用和有价值。

用户可以尝试各种早期功能,包括:

  • **情感对话:**模型检测用户声音中的情感并做出相应的回应。此功能为 AI 增加了情感智能层,使交互更加个性化。

  • **主动音频:**模型忽略背景对话并知道何时回应,从而最大限度地减少中断并提高清晰度。此功能提高了交互的质量,从而可以进行更有效和集中的通信。

  • **在 Live API 中思考:**模型利用 Gemini 的思考能力来支持更复杂的任务。这允许在处理复杂任务时进行更深入的分析和考虑,使其在需要精确和深刻解决方案的领域中非常有价值。

Google 还在 2.5 Pro 和 2.5 Flash 中发布了文本到语音功能的新预览版。这些功能首次支持多个说话者,从而可以通过本机音频输出使用两种声音进行文本到语音转换。此功能对于在多媒体应用程序中创建引人入胜的叙事和对话尤其有价值。

与本机音频对话一样,文本到语音是富有表现力的,并且可以捕捉细微的差别,例如耳语。它支持 24 多种语言并无缝地在它们之间切换,使其成为全球通信的多功能工具。语言使用中的这些微妙之处丰富了用户体验,从而促进了更加细致和个性化的沟通过程。

此文本到语音功能将于今天晚些时候在 Gemini API 中提供。

增强的计算机界面

Google 正在将 Project Mariner 的计算机使用功能引入 Gemini API 和 Vertex AI。Automation Anywhere、UiPath、Browserbase、Autotab、The Interaction Company 和 Cartwheel 等具有远见卓识的公司正在探索其潜力。Google 期待今年夏天更广泛的推出,供开发者试验此功能,从而为创新项目和解决方案铺平道路。将 AI 模型直接与计算机界面集成的能力可以为不同行业带来更精简、高效的工作流程解决方案。

出色的安全措施

Google 大大加强了其对安全威胁(例如间接提示注入)的防护。这涉及将恶意指令嵌入到由 AI 模型检索的数据中。Google 的新安全方法大大提高了 Gemini 在工具使用期间针对间接提示注入攻击的保护率,使 Gemini 2.5 成为迄今为止最安全的模型系列。这种增强的安全性向用户保证了在采用 AI 驱动的解决方案时获得安全可靠的体验。

增强的开发者体验

思维概要

  1. 5 Pro 和 Flash 现在都将在 Gemini API 和 Vertex AI 中包含思维概要。这些摘要会提取模型的原始想法,并将其组织成清晰的格式,其中包含标题、关键细节以及有关模型操作的信息,例如它们何时使用工具。通过提供对 AI 分析过程的深入了解,思维概要有助于理解和调试 AI 系统中的问题,从而提高效率和系统设计。

通过在模型的思维过程中采用更结构化、更精简的格式,开发者和用户会发现与 Gemini 模型的交互更容易理解和调试。

思考预算

Google 推出了具有思考预算的 2.5 Flash,让开发者可以通过平衡延迟和质量来更好地控制成本。此功能现已扩展到 2.5 Pro,让您可以获得更多微调选项。通过控制使用的 token 和优化资源,开发者可以在计算成本和解决方案有效性之间实现适当的平衡,从而使 AI 的实现既经济又高效。

这允许完全控制模型在响应之前用于思考的 token 数量,甚至可以关闭其思考能力。

具有预算的 Gemini 2.5 Pro 将在未来几周内与通用模型一起普遍可用于稳定的生产用途。

支持 MCP 工具

Google 已在 Gemini API 中添加了对模型上下文协议 (MCP) 定义的本机 SDK 支持,以便更轻松地与开源工具集成。探索了不同的部署方法,例如 MCP 服务器和托管工具,以使用户更容易构建代理应用程序。这通过更广泛的工具集成选项和项目协作来改善 AI 开发环境。

持续创新是不断致力于改进模型和开发者体验的关键,使其更高效、性能更好并对开发者反馈做出响应。加倍对基础研究的广度和深度,以推动 Gemini 能力的前沿。未来还会有更多。