Auf der I/O 2025 enthüllte Google eine Reihe bahnbrechender Aktualisierungen für seine Gemini 2.5-Modellreihe sowie eine innovative experimentelle Funktion namens Deep Think, die die Denkfähigkeiten des 2.5 Pro-Modells verbessern soll. Diese Fortschritte markieren einen bedeutenden Sprung nach vorn auf dem Gebiet der künstlichen Intelligenz und bieten Entwicklern und Benutzern gleichermaßen ein beispielloses Maß an Leistung, Effizienz und Vielseitigkeit.
Das Gemini 2.5 Pro-Modell hat bei Entwicklern breite Anerkennung als erstklassige Lösung für Codierungsaufgaben gefunden, während das 2.5 Flash-Modell ein umfangreiches Upgrade erhalten soll. Darüber hinaus führt Google eine Reihe neuer Funktionen in seinen Modellen ein, darunter Deep Think, ein experimenteller, erweiterter Denkmodus, der speziell auf das 2.5 Pro-Modell zugeschnitten ist.
In einer früheren Ankündigung enthüllte Google Gemini 2.5 Pro, sein bisher intelligentestes Modell, und beschleunigte die Veröffentlichung seines I/O-Updates, um Entwickler bei der Erstellung außergewöhnlicher Webanwendungen zu unterstützen. Heute teilt das Unternehmen weitere Verfeinerungen an der Gemini 2.5-Modellreihe mit, die bemerkenswerte Erfolge vorweisen kann:
Gemini 2.5 Pro hat alle Erwartungen übertroffen und eine außergewöhnliche Leistung bei akademischen Benchmarks gezeigt. Es hält nun die Spitzenposition auf den WebDev Arena- und LMArena-Bestenlisten inne und festigt seinen Status als weltweit führendes Modell für Codierung und Lernunterstützung.
Neue Funktionen werden in 2.5 Pro und 2.5 Flash integriert, darunter native Audioausgabe für ein natürlicheres und ansprechendes Gesprächserlebnis, fortschrittliche Sicherheitsmaßnahmen und die Integration der Computernutzungsfunktionen von Project Mariner. Das 2.5 Pro-Modell wird durch Deep Think weiter verbessert, einen experimentellen Modus zur Verbesserung der Denkfähigkeit bei komplizierten mathematischen und Codierungsproblemen.
Google engagiert sich weiterhin für die Verbesserung des Entwicklererlebnisses durch die Einbeziehung von Thought Summaries in die Gemini API und Vertex AI. Diese Zusammenfassungen bieten eine höhere Transparenz, erweiterte Denkbudgets für 2.5 Pro, um eine größere Kontrolle zu gewährleisten, und Unterstützung für MCP-Tools in der Gemini API und SDK für den Zugriff auf eine breitere Palette von Open-Source-Tools.
Das 2.5 Flash-Modell ist jetzt innerhalb der Gemini-App universell zugänglich. Eine aktualisierte Version wird in Kürze im Google AI Studio für Entwickler und in Vertex AI für Unternehmen verfügbar sein, geplant für Anfang Juni, wobei 2.5 Pro kurz darauf folgen wird.
Dieser bemerkenswerte Fortschritt ist das Ergebnis des unermüdlichen Engagements der Google-Teams, die sich der kontinuierlichen Verbesserung ihrer Technologien und deren sicheren und verantwortungsvollen Bereitstellung verschrieben haben.
Enthüllung der überlegenen Leistung von 2.5 Pro
Das 2.5 Pro-Modell wurde kürzlich aktualisiert, um Entwickler bei der Erstellung interaktiverer und funktionsreicherer Webanwendungen zu unterstützen. Das positive Feedback von Benutzern und Entwicklern wird sehr geschätzt, und auf der Grundlage des Benutzerfeedbacks werden weiterhin Verbesserungen vorgenommen.
Zusätzlich zu seiner herausragenden Leistung bei akademischen Benchmarks hat die neueste Iteration von 2.5 Pro den ersten Platz auf der beliebten Codierungs-Bestenliste WebDev Arena mit einer beeindruckenden ELO-Punktzahl von 1415 erobert. Es führt auch alle Bestenlisten der LMArena an, die die menschliche Präferenz anhand verschiedener Kriterien bewertet. Darüber hinaus bietet 2.5 Pro, ausgestattet mit einem 1-Millionen-Token-Kontextfenster, eine hochmoderne Leistung im Langzeitkontext- und Videoverständnis.
Durch die Integration von LearnLM, einer Familie von Modellen, die in Zusammenarbeit mit Bildungsexperten entwickelt wurden, ist 2.5 Pro zum führenden Modell für das Lernen geworden. In direkten Vergleichen zur Bewertung seiner Pädagogik und Effektivität bevorzugten Pädagogen und Experten Gemini 2.5 Pro gegenüber anderen Modellen in einer Vielzahl von Szenarien. Es übertraf auch Top-Modelle in allen fünf Prinzipien der Lernwissenschaft, die zur Erstellung von KI-Systemen für das Lernen verwendet werden. Dies unterstreicht seine Wirksamkeit in pädagogischen Kontexten und bietet maßgeschneiderte und effektive Lehrstrategien.
Deep Think: Verschiebung der Grenzen des Denkens
Google erforscht aktiv die Grenzen der kognitiven Fähigkeiten von Gemini und beginnt mit einem erweiterten Denkmodus namens Deep Think zu experimentieren. Dieser innovative Modus verwendet modernste Forschungstechniken, die es dem Modell ermöglichen, mehrere Hypothesen zu bewerten, bevor es eine Antwort formuliert. Dieser Ansatz verbessert die Entscheidungsprozesse und ermöglicht anspruchsvollere und nuanciertere Ergebnisse in komplexen Situationen.
Gemini 2.5 Pro Deep Think erreichte eine beeindruckende Punktzahl bei der 2025 USAMO, die weithin als einer der anspruchsvollsten mathematischen Benchmarks gilt. Es zeichnet sich auch auf LiveCodeBench aus, einem anspruchsvollen Benchmark für wettbewerbsfähiges Programmieren, und erzielt einen Wert von 84,0 % auf MMMU, das multimodales Denken bewertet. Diese Ergebnisse unterstreichen die außergewöhnliche Leistung von Deep Think bei der Bewältigung komplexer Aufgaben und lassen eine vielversprechende Zukunft für die fortgeschrittene KI-Problemlösung erwarten.
Da 2.5 Pro Deep Think die Grenzen des Möglichen verschiebt, nimmt sich Google zusätzliche Zeit, um gründliche Sicherheitsbewertungen durchzuführen und weiteres Feedback von Sicherheitsexperten einzuholen. Das Unternehmen wird ausgewählten Testern auch Zugang zur Gemini API gewähren, um Feedback zu sammeln, bevor es allgemein verfügbar gemacht wird. Dieser vorsichtige und überlegte Ansatz zielt darauf ab, den verantwortungsvollen Einsatz fortschrittlicher KI-Technologie zu gewährleisten.
Einführung eines verbesserten 2.5 Flash
Das 2.5 Flash-Modell, das für seine Effizienz und Kosteneffektivität bekannt ist, wurde in zahlreichen Dimensionen verfeinert. Es hat Verbesserungen bei kritischen Benchmarks für Denken, Multimodalität, Codebearbeitung und langen Kontext gezeigt und ist gleichzeitig effizienter geworden, indem es bei Bewertungen 20-30 % weniger Tokens verbraucht. Dies unterstreicht seine optimierte Leistung und Ressourcenverwaltung.
Das neue 2.5 Flash ist derzeit zur Vorschau im Google AI Studio für Entwickler, in Vertex AI für Unternehmensanwendungen und in der Gemini-App für allgemeine Benutzer verfügbar. Es ist für Anfang Juni zur allgemeinen Verfügbarkeit geplant, wodurch es für Produktionsumgebungen zugänglich wird.
Neue Fähigkeiten von Gemini 2.5
Verbesserungen der nativen Audioausgabe und der Live API
Die Live API führt eine Vorschauversion der audiovisuellen Eingabe und des nativen Audioausgabe-Dialogs ein, die es Benutzern ermöglicht, Gesprächserlebnisse mit einem natürlicheren und ausdrucksstärkeren Gemini zu erstellen. Diese Funktion ermöglicht ansprechendere und interaktivere Anwendungen. Die Fähigkeit der KI, lebensechte Audioantworten zu erzeugen, verbessert die Benutzerinteraktion erheblich, indem sie eine intuitivere Art der Kommunikation schafft.
Die Live API ermöglicht es Benutzern, den Ton, den Akzent und den Sprechstil des Modells zu steuern. Beispielsweise kann das Modell angewiesen werden, beim Erzählen einer Geschichte eine dramatische Stimme anzunehmen. Es unterstützt auch die Tool-Nutzung, sodass es in Namen des Benutzers Suchanfragen durchführen kann. Die Flexibilität bei der Sprachsteuerung und der Zugriff auf externe Tools machen das Modell außerordentlich vielseitig und wertvoll in verschiedenen Anwendungsszenarien.
Benutzer können mit verschiedenen frühen Funktionen experimentieren, darunter:
Affektiver Dialog: Das Modell erkennt Emotionen in der Stimme des Benutzers und antwortet entsprechend. Diese Funktionalität fügt der KI Ebenen emotionaler Intelligenz hinzu, wodurch die Interaktion persönlicher wird.
Proaktives Audio: Das Modell ignoriert Hintergrundgespräche und weiß, wann es antworten muss, wodurch Unterbrechungen minimiert und die Klarheit verbessert werden. Diese Funktion verbessert die Qualität der Interaktion und ermöglicht eine effizientere und fokussiertere Kommunikation.
Denken in der Live API: Das Modell nutzt die Denkfähigkeiten von Gemini, um komplexere Aufgaben zu unterstützen. Dies ermöglicht eine tiefere Analyse und Berücksichtigung bei der Bewältigung komplexer Aufgaben, was es in Bereichen, die präzise und aufschlussreiche Lösungen erfordern, außerordentlich wertvoll macht.
Google veröffentlicht außerdem neue Vorschauen für die Text-to-Speech-Funktionalität in 2.5 Pro und 2.5 Flash. Diese bieten eine erstmalige Unterstützung für mehrere Sprecher und ermöglichen Text-to-Speech mit zwei Stimmen über native Audioausgabe. Diese Funktion ist besonders wertvoll für die Erstellung ansprechender Erzählungen und Dialoge in Multimedia-Anwendungen.
Wie der Native Audio-Dialog ist auch Text-to-Speech ausdrucksstark und kann subtile Nuancen wie Flüstern erfassen. Es unterstützt über 24 Sprachen und wechselt nahtlos zwischen ihnen, was es zu einem vielseitigen Werkzeug für die globale Kommunikation macht. Diese Feinheiten im Sprachgebrauch bereichern das Benutzererlebnis und erleichtern einen nuancierteren und persönlicheren Kommunikationsprozess.
Diese Text-to-Speech-Funktion wird im Laufe des Tages in der Gemini API verfügbar sein.
Verbesserte Computerschnittstelle
Google führt die Computernutzungsfunktionen von Project Mariner in die Gemini API und Vertex AI ein. Zukunftsweisende Unternehmen wie Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company und Cartwheel untersuchen ihr Potenzial. Google freut sich auf eine breitere Einführung für Entwickler,以尝试此功能this summer, paving the way for innovative projects and solutions. The ability to integrate AI models directly with computer interfaces leads to more streamlined, productive workflow solutions across diverse industries.
Überlegene Sicherheitsmaßnahmen
Google hat seine Schutzmaßnahmen gegen Sicherheitsbedrohungen wie indirekte Prompt-Injections deutlich verstärkt. Dies beinhaltet das Einbetten bösartiger Anweisungen in Daten, die von einem KI-Modell abgerufen werden. Googles neuer Sicherheitsansatz hat die Schutzrate von Gemini gegen indirekte Prompt-Injection-Angriffe während der Tool-Nutzung erheblich erhöht und Gemini 2.5 zu seiner bisher sichersten Modellfamilie gemacht. Diese verbesserte Sicherheit гарантирует Benutzern eine sichere und zuverlässige Erfahrung bei der Einführung KI-gesteuerter Lösungen.
Ein verbessertes Entwicklererlebnis
Thought Summaries
Sowohl 2.5 Pro als auch Flash werden nun Thought Summaries in der Gemini API und in Vertex AI enthalten. Diese Zusammenfassungen nehmen die rohen Gedanken des Modells auf und organisieren sie in einem klaren Format mit Überschriften, Schlüsseldetails und Informationen zu Modellaktionen, z. B. wann Tools verwendet werden. Durch das Anbieten von Einblicken in den Analyseprozess der KI unterstützen Thought Summaries das Verständnis und die Fehlerbehebung von Problemen in KI-Systemen und verbessern die Effizienz und das Systemdesign.
Mit einem strukturierteren, optimierten Format für den Denkprozess des Modells werden Entwickler und Benutzer die Interaktionen mit Gemini-Modellen leichter verstehen und debuggen können.
Thinking Budgets
Google hat 2.5 Flash mit Thinking Budgets eingeführt, um Entwicklern mehr Kontrolle über die Kosten zu geben, indem sie Latenz und Qualität ausgleichen. Diese Funktion wird nun auf 2.5 Pro erweitert, um Ihnen mehr Feinabstimmungsmöglichkeiten zu bieten. Durch die Kontrolle der verwendeten Tokens und die Optimierung der Ressourcen können Entwickler das angemessene Gleichgewicht zwischen Rechenkosten und Lösungseffektivität erreichen, wodurch die KI-Implementierung sowohl wirtschaftlich als auch effizient wird.
Dies ermöglicht die vollständige Kontrolle über die Anzahl der Tokens, die ein Modell zum Denken verwendet, bevor es antwortet, oder sogar die Möglichkeit, seine Denkfähigkeiten abzuschalten.
Gemini 2.5 Pro mit Budgets wird in den kommenden Wochen zusammen mit dem allgemein verfügbaren Modell allgemein für den stabilen Produktionseinsatz verfügbar sein.
Unterstützung für MCP-Tools
Google hat native SDK-Unterstützung für Model Context Protocol (MCP)-Definitionen in der Gemini API hinzugefügt, um die Integration mit Open-Source-Tools zu vereinfachen. Verschiedene Bereitstellungsmethoden wie MCP-Server und gehostete Tools werden untersucht, um Benutzern die Erstellung von Agentic-Anwendungen zu erleichtern. Dies verbessert die KI-Entwicklungsumgebung durch eine größere Auswahl an Optionen für die Tool-Integration und die Zusammenarbeit an Projekten.
Kontinuierliche Innovation ist der Schlüssel zu dem kontinuierlichen Engagement für die Verbesserung der Modelle und des Entwicklererlebnisses, um sie effizienter, leistungsfähiger und reaktionsfähiger auf das Feedback der Entwickler zu machen. Verdoppeln Sie die Breite und Tiefe der Grundlagenforschung, um die Grenzen der Möglichkeiten von Gemini zu erweitern. In der Zukunft wird noch mehr kommen.