Gemini 2.5:釋放模型前所未有之智慧

在I/O 2025大會上,Google隆重推出了Gemini 2.5模型系列的一系列突破性更新,同時也推出了一項名為Deep Think的創新實驗性功能,旨在增強2.5 Pro模型的推理能力。這些進展標誌著人工智慧領域的重大飛躍,為開發人員和使用者提供了前所未有的效能、效率和多功能性。

Gemini 2.5 Pro模型因其在程式碼編寫任務中的卓越表現而獲得了開發人員的廣泛讚譽,被譽為首選解決方案。同時,2.5 Flash模型也將迎來重大升級。此外,Google還在其模型中推出了一系列新功能,包括Deep Think,這是一種專為2.5 Pro模型量身定制的實驗性增強推理模式。

在之前的公告中,Google揭露了Gemini 2.5 Pro,這是迄今為止最智慧的模型,並加速發布了I/O更新,以賦予開發人員創建卓越Web應用程式的能力。今天,該公司正在分享Gemini 2.5模型系列的進一步改進,並取得了顯著的成就:

  • Gemini 2.5 Pro已經超越了所有人的期望,在學術基準測試中表現出了卓越的效能。現在,它在WebDev Arena和LMArena排行榜上名列前茅,鞏固了其作為世界領先的程式碼編寫和學習輔助模型的地位。

  • 新功能正在整合到2.5 Pro和2.5 Flash中,包括用於更自然和引人入勝的對話體驗的原生音訊輸出、先進的安全措施以及Project Mariner電腦使用功能的整合。2.5 Pro模型將通過Deep Think進一步增強,這是一種旨在提高複雜數學和程式碼問題推理能力的實驗模式。

  • Google仍然致力於通過在Gemini API和Vertex AI中整合思考摘要來改善開發人員體驗。這些摘要提供了更高的透明度,擴展了2.5 Pro的思考預算以確保更大的控制,並支援Gemini API和SDK中的MCP工具,以便訪問更廣泛的開源工具。

  • 2.5 Flash模型現在可以在Gemini應用程式中普遍訪問。更新版本將很快在Google AI Studio中提供給開發人員,並在Vertex AI中提供給企業,預計在6月初推出,2.5 Pro隨後推出。

這項卓越的進展是Google團隊不懈努力的結果,他們致力於不斷改進其技術並以安全和負責任的方式部署它們。

揭示2.5 Pro的卓越效能

2.5 Pro模型最近已更新,旨在賦予開發人員創建更具互動性和功能更豐富的Web應用程式的能力。我們非常感謝使用者和開發人員收到的正面回饋,並將根據使用者輸入繼續實施持續改進。

除了在學術基準測試中的出色效能之外,最新版本的2.5 Pro還在流行的程式碼編寫排行榜WebDev Arena上名列前茅,其ELO得分高達1415。它還在LMArena的所有排行榜中處於領先地位,LMArena根據各種標準評估人類偏好。此外,配備了100萬個token的上下文窗口,2.5 Pro在長上下文和影片理解方面提供了最先進的效能。

通過整合LearnLM,這是一個與教育專家合作開發的模型系列,2.5 Pro已成為領先的學習模型。在評估其教學法和有效性的直接比較中,教育工作者和專家在各種情況下都偏愛Gemini 2.5 Pro勝過其他模型。它還在學習科學的所有五項原則中超越了頂級模型,這些原則用於構建用於學習的AI系統。這突顯了其在教育環境中的有效性,提供了量身定制且有效的教學策略。

Deep Think:推動推理的界限

Google正在積極探索Gemini認知能力的極限,並開始試驗一種名為Deep Think的增強推理模式。這種創新模式採用了最先進的研究技術,使模型能夠在形成回應之前評估多個假設。這種方法增強了決策過程,從而在複雜的情況下實現更精細和細緻的結果。

Gemini 2.5 Pro Deep Think在2025年美國數學奧林匹克競賽(USAMO)中取得了令人印象深刻的成績,該競賽被廣泛認為是最具挑戰性的數學基準測試之一。它在LiveCodeBench(一項要求嚴格的競賽級別程式碼編寫基準測試)中也表現出色,並且在MMMU(評估多模式推理)中獲得了84.0%的分數。這些結果突顯了Deep Think在處理複雜任務方面的卓越效能,表明了先進AI問題解決的光明前景。

鑑於2.5 Pro Deep Think正在推動可能性的前沿,Google正在花費更多時間進行徹底的安全評估,並徵求安全專家的進一步意見。該公司還將向選定的測試人員提供對Gemini API的訪問權限,以收集回饋,然後再廣泛提供。這種謹慎而深思熟慮的方法旨在確保負責任地部署先進的AI技術。

推出增強型2.5 Flash

2.5 Flash模型以其效率和成本效益而聞名,已在多個層面進行了改進。它在推理、多模式、程式碼處理和長上下文的關鍵基準測試中都顯示出改進,同時變得更加高效,在評估中使用的token減少了20-30%。這突顯了其優化的效能和資源管理.

新的2.5 Flash目前可在Google AI Studio中供開發人員預覽,在Vertex AI中供企業應用程式預覽,並在Gemini應用程式中供一般使用者預覽。它計劃於6月初全面上市,使其可供生產環境使用。

Gemini 2.5的新功能

原生音訊輸出和Live API的增強功能

Live API引入了音訊-視覺輸入和原生音訊輸出對話的預覽版本,使用戶能夠創建具有更自然和更具表現力的Gemini的對話體驗。此功能可以實現更具吸引力和互動性的應用程式。AI生成逼真音訊回應的能力通過創建更直觀的溝通方式顯著增強了使用者互動。

Live API使用戶能夠控制模型的語氣、口音和說話風格。例如,可以指示模型在講述故事時採用戲劇性的聲音。它還支援工具使用,允許它代表使用者執行搜尋。聲音控制的靈活性和對外部工具的訪問使該模型在各種應用場景中都非常通用和有價值。

使用者可以試用各種早期功能,包括:

  • **情感對話:**模型會檢測使用者聲音中的情緒並做出相應的回應。此功能為AI添加了情感智慧層,使互動更加個性化。

  • **主動音訊:**模型會忽略背景對話,並知道何時回應,從而最大限度地減少中斷並提高清晰度。此功能增強了互動的品質,從而可以進行更有效和重點突出的溝通。

  • **在Live API中思考:**該模型利用Gemini的思考能力來支援更複雜的任務。這允許在處理複雜任務時進行更深入的分析和考慮,使其在需要精確和富有洞察力的解決方案的領域中非常有價值。

Google還發布了2.5 Pro和2.5 Flash中文字轉語音功能的新預覽版。這些功能首次支援多個說話者,通過原生音訊輸出以兩種聲音實現文字轉語音。此功能對於在多媒體應用程式中創建引人入勝的敘述和對話特別有價值。

與原生音訊對話一樣,文字轉語音具有表現力,可以捕捉到細微的差別,例如耳語。它支援超過24種語言,並可以在它們之間無縫切換,使其成為全球溝通的多功能工具。語言使用的這些細微之處豐富了使用者體驗,促進了更細緻和個性化的溝通過程。

此文字轉語音功能將於今天晚些時候在Gemini API中提供。

增強的電腦介面

Google正在將Project Mariner的電腦使用功能引入Gemini API和Vertex AI。Automation Anywhere、UiPath、Browserbase、Autotab、The Interaction Company和Cartwheel等具有前瞻性的公司正在探索其潛力。Google期待今年夏天更廣泛地推出,供開發人員試驗此功能,從而為創新專案和解決方案鋪平道路。將AI模型直接與電腦介面整合的能力有助於在各個行業中實現更精簡、高效的工作流程解決方案。

卓越的安全措施

Google顯著加強了其針對安全威脅的保護,例如間接提示注入。這涉及將惡意指令嵌入到AI模型檢索的數據中。Google的新安全方法已大大提高了Gemini在工具使用期間針對間接提示注入攻擊的保護率,使Gemini 2.5成為迄今為止最安全的模型系列。這種增強的安全性向使用者保證了在採用AI驅動的解決方案時的安全、可靠的體驗。

增強的開發人員體驗

思考摘要

現在,2.5 Pro和Flash都將在Gemini API和Vertex AI中包含思考摘要。這些摘要提取模型的原始想法並使用標題、關鍵詳細資訊和有關模型操作(例如它們何時使用工具)的資訊將它們組織成清晰的格式。通過提供對AI分析過程的見解,思考摘要有助於理解和調試AI系統中的問題,從而提高效率和系統設計。

憑借模型思考過程中更結構化、更精簡的格式,開發人員和使用者會發現與Gemini模型的互動更容易理解和調試。

思考預算

Google推出了帶有思考預算的2.5 Flash,使開發人員可以通過平衡延遲和品質來更好地控制成本。此功能現在已擴展到2.5 Pro,為您提供更多的微調選項。通過控制使用的token並優化資源,開發人員可以在計算成本和解決方案有效性之間實現適當的平衡,從而使AI實施既經濟又高效。

這允許完全控制模型在回應之前用於思考的token數量,甚至關閉其思考能力。

帶有預算的Gemini 2.5 Pro將在未來幾周內與通用模型一起普遍可用於穩定的生產用途。

對MCP工具的支援

Google已在Gemini API中添加了對模型上下文協定(MCP)定義的本機SDK支援,以便更輕鬆地與開源工具整合。探索了不同的部署方法,例如MCP伺服器和託管工具,以使用戶更容易構建代理應用程式。這通過更廣泛的工具整合選項和專案協作來改善AI開發環境。

持續創新是持續致力於改進模型和開發人員體驗的關鍵,使其更高效、更具效能並對開發人員回饋做出回應。加倍對基礎研究的廣度和深度,以推動Gemini能力的邊界。未來將有更多驚喜。