Au I/O 2025, Google a dévoilé une série de mises à jour révolutionnaires de sa série de modèles Gemini 2.5, ainsi qu’une fonctionnalité expérimentale innovante connue sous le nom de Deep Think, conçue pour améliorer les capacités de raisonnement du modèle 2.5 Pro. Ces avancées marquent un bond en avant significatif dans le domaine de l’intelligence artificielle, offrant aux développeurs et aux utilisateurs des niveaux sans précédent de performance, d’efficacité et de polyvalence.
Le modèle Gemini 2.5 Pro a été largement salué par les développeurs comme la solution de premier choix pour les tâches de codage, tandis que le modèle 2.5 Flash est sur le point de recevoir une mise à niveau substantielle. De plus, Google introduit une gamme de nouvelles fonctionnalités dans ses modèles, y compris Deep Think, un mode de raisonnement amélioré expérimental spécifiquement adapté au modèle 2.5 Pro.
Dans une annonce précédente, Google a dévoilé Gemini 2.5 Pro, son modèle le plus intelligent à ce jour, et a accéléré la publication de sa mise à jour I/O pour permettre aux développeurs de créer des applications web exceptionnelles. Aujourd’hui, l’entreprise partage d’autres améliorations de la série de modèles Gemini 2.5, se targuant de réalisations remarquables :
Gemini 2.5 Pro a dépassé toutes les attentes, démontrant une performance exceptionnelle sur les bancs d’essai universitaires. Il occupe désormais la première place des classements WebDev Arena et LMArena, consolidant son statut de modèle leader mondial pour le codage et l’assistance à l’apprentissage.
De nouvelles fonctionnalités sont en cours d’intégration dans les modèles 2.5 Pro et 2.5 Flash, notamment une sortie audio native pour une expérience de conversation plus naturelle et engageante, des mesures de sécurité avancées et l’intégration des capacités d’utilisation de l’ordinateur de Project Mariner. Le modèle 2.5 Pro sera encore amélioré avec Deep Think, un mode expérimental conçu pour améliorer le raisonnement pour des problèmes mathématiques et de codage complexes.
Google reste déterminé à améliorer l’expérience des développeurs grâce à l’intégration de résumés de pensée dans l’API Gemini et Vertex AI. Ces résumés offrent une transparence accrue, des budgets de pensée étendus pour 2.5 Pro afin de garantir un meilleur contrôle, et la prise en charge des outils MCP dans l’API Gemini et le SDK pour un accès à une gamme plus large d’outils open source.
Le modèle 2.5 Flash est désormais universellement accessible dans l’application Gemini. Une version mise à jour sera bientôt disponible dans Google AI Studio pour les développeurs et dans Vertex AI pour les entreprises, prévue pour début juin, le modèle 2.5 Pro suivant peu après.
Ce progrès remarquable est le résultat du dévouement incessant des équipes de Google, qui s’engagent à améliorer continuellement ses technologies et à les déployer de manière sûre et responsable.
Révélation de la Performance Supérieure de 2.5 Pro
Le modèle 2.5 Pro a récemment été mis à jour pour permettre aux développeurs de créer des applications web plus interactives et riches en fonctionnalités. Les commentaires positifs reçus des utilisateurs et des développeurs sont grandement appréciés, et des améliorations continues seront mises en œuvre en fonction des commentaires des utilisateurs.
En plus de ses performances exceptionnelles sur les bancs d’essai universitaires, la dernière itération de 2.5 Pro a capturé la première place du classement de codage populaire, WebDev Arena, avec un score ELO impressionnant de 1415. Il est également en tête de tous les classements du LMArena, qui évalue la préférence humaine en fonction de divers critères. De plus, équipé d’une fenêtre de contexte d’un million de jetons, 2.5 Pro offre des performances de pointe dans la compréhension du contexte long et de la vidéo.
En intégrant LearnLM, une famille de modèles développés en collaboration avec des experts en éducation, 2.5 Pro est devenu le modèle leader pour l’apprentissage. Dans des comparaisons directes évaluant sa pédagogie et son efficacité, les éducateurs et les experts ont préféré Gemini 2.5 Pro à d’autres modèles dans un éventail diversifié de scénarios. Il a également surpassé les meilleurs modèles dans les cinq principes de la science de l’apprentissage, qui sont utilisés pour construire des systèmes d’IA pour l’apprentissage. Cela souligne son efficacité dans les contextes éducatifs, offrant des stratégies d’enseignement personnalisées et efficaces.
Deep Think : Repousser les Limites du Raisonnement
Google explore activement les limites des capacités cognitives de Gemini et commence à expérimenter avec un mode de raisonnement amélioré appelé Deep Think. Ce mode innovant utilise des techniques de recherche de pointe, permettant au modèle d’évaluer plusieurs hypothèses avant de formuler une réponse. Cette approche améliore les processus de prise de décision, permettant des résultats plus sophistiqués et nuancés dans des situations complexes.
Gemini 2.5 Pro Deep Think a obtenu un score impressionnant au USAMO 2025, largement reconnu comme l’un des bancs d’essai mathématiques les plus difficiles. Il excelle également sur LiveCodeBench, un banc d’essai exigeant pour le codage de niveau compétition, et obtient un score de 84,0 % sur MMMU, qui évalue le raisonnement multimodal. Ces résultats soulignent la performance exceptionnelle de Deep Think dans la gestion de tâches complexes, suggérant un avenir prometteur pour la résolution de problèmes d’IA avancée.
Étant donné que 2.5 Pro Deep Think repousse les frontières de ce qui est possible, Google prend plus de temps pour effectuer des évaluations de sécurité approfondies et solliciter d’autres commentaires d’experts en sécurité. L’entreprise donnera également à certains testeurs un accès à l’API Gemini pour recueillir des commentaires avant de la rendre largement disponible. Cette approche prudente et délibérée vise à assurer le déploiement responsable de la technologie d’IA avancée.
Présentation d’un 2.5 Flash Amélioré
Le modèle 2.5 Flash, connu pour son efficacité et sa rentabilité, a été affiné dans de nombreuses dimensions. Il a montré des améliorations dans les bancs d’essai critiques pour le raisonnement, la multimodalité, la gestion du code et le contexte long, tout en devenant plus efficace, utilisant entre 20 et 30 % moins de jetons dans les évaluations. Cela souligne ses performances optimisées et sa gestion des ressources.
Le nouveau 2.5 Flash est actuellement disponible en version d’aperçu dans Google AI Studio pour les développeurs, dans Vertex AI pour les applications d’entreprise et dans l’application Gemini pour les utilisateurs généraux. Il est prévu pour la disponibilité générale début juin, le rendant accessible pour les environnements de production.
Nouvelles Capacités de Gemini 2.5
Améliorations de la Sortie Audio Native et de l’API Live
L’API Live introduit une version d’aperçu d’entrée audio-visuelle et de dialogue de sortie audio native, permettant aux utilisateurs de créer des expériences de conversation avec un Gemini plus naturel et expressif. Cette fonctionnalité permet des applications plus engageantes et interactives. La capacité de l’IA à produire des réponses audio réalistes améliore considérablement l’interaction avec l’utilisateur en créant une manière plus intuitive de communiquer.
L’API Live permet aux utilisateurs de diriger le ton, l’accent et le style de parole du modèle. Par exemple, le modèle peut être chargé d’adopter une voix dramatique lors de la narration d’une histoire. Il prend également en charge l’utilisation d’outils, lui permettant d’effectuer des recherches au nom de l’utilisateur. La flexibilité dans le contrôle de la voix et l’accès aux outils externes rendent le modèle extraordinairement polyvalent et précieux dans divers scénarios d’application.
Les utilisateurs peuvent expérimenter avec diverses fonctionnalités précoces, notamment :
Dialogue Affectif : Le modèle détecte l’émotion dans la voix de l’utilisateur et répond en conséquence. Cette fonctionnalité ajoute des couches d’intelligence émotionnelle à l’IA, rendant l’interaction plus personnalisée.
Audio Proactif : Le modèle ignore les conversations de fond et sait quand répondre, minimisant les interruptions et améliorant la clarté. Cette fonctionnalité améliore la qualité de l’interaction, permettant une communication plus efficace et ciblée.
Réflexion dans l’API Live : Le modèle exploite les capacités de réflexion de Gemini pour prendre en charge des tâches plus complexes. Cela permet une analyse et une considération plus approfondies lors de la résolution de tâches complexes, le rendant exceptionnellement précieux dans les domaines nécessitant des solutions précises et perspicaces.
Google publie également de nouveaux aperçus de la fonctionnalité de synthèse vocale dans les modèles 2.5 Pro et 2.5 Flash. Ceux-ci offrent une prise en charge inédite pour plusieurs locuteurs, permettant la synthèse vocale avec deux voix via la sortie audio native. Cette fonctionnalité est particulièrement précieuse pour créer des récits et des dialogues engageants dans les applications multimédias.
Comme le dialogue Audio Natif, la synthèse vocale est expressive et peut capturer des nuances subtiles telles que les chuchotements. Elle prend en charge plus de 24 langues et bascule de manière transparente entre elles, ce qui en fait un outil polyvalent pour la communication mondiale. Ces subtilités dans l’utilisation du langage enrichissent l’expérience utilisateur, facilitant un processus de communication plus nuancé et personnalisé.
Cette capacité de synthèse vocale sera disponible plus tard dans la journée dans l’API Gemini.
Interface Ordinateur Améliorée
Google introduit les capacités d’utilisation de l’ordinateur de Project Mariner dans l’API Gemini et Vertex AI. Des entreprises tournées vers l’avenir telles que Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company et Cartwheel explorent son potentiel. Google se réjouit d’un déploiement plus large pour que les développeurs expérimentent cette capacité cet été, ouvrant la voie à des projets et des solutions innovants. La capacité d’intégrer des modèles d’IA directement avec les interfaces informatiques conduit à des solutions de flux de travail plus rationalisées et productives dans divers secteurs.
Mesures de Sécurité Supérieures
Google a considérablement renforcé ses protections contre les menaces de sécurité, telles que les injections d’invite indirectes. Cela implique d’intégrer des instructions malveillantes dans les données récupérées par un modèle d’IA. La nouvelle approche de sécurité de Google a considérablement augmenté le taux de protection de Gemini contre les attaques d’injection d’invite indirectes lors de l’utilisation d’outils, faisant de Gemini 2.5 sa famille de modèles la plus sécurisée à ce jour. Cette sécurité améliorée assure aux utilisateurs une expérience sûre et fiable lors de l’adoption de solutions basées sur l’IA.
Une Expérience Développeur Améliorée
Résumés de Pensée
Les modèles 2.5 Pro et Flash incluront désormais des résumés de pensée dans l’API Gemini et dans Vertex AI. Ces résumés prennent les pensées brutes du modèle et les organisent dans un format clair avec des en-têtes, des détails clés et des informations sur les actions du modèle, par exemple lorsqu’ils utilisent des outils. En offrant des informations sur le processus analytique de l’IA, les résumés de pensée aident à comprendre et à déboguer les problèmes au sein des systèmes d’IA, améliorant l’efficacité et la conception du système.
Avec un format plus structuré et rationalisé sur le processus de réflexion du modèle, les développeurs et les utilisateurs trouveront les interactions avec les modèles Gemini plus faciles à comprendre et à déboguer.
Budgets de Pensée
Google a lancé 2.5 Flash avec des budgets de pensée pour donner aux développeurs un plus grand contrôle sur les coûts en équilibrant la latence et la qualité. Cette capacité est désormais étendue à 2.5 Pro, vous offrant des options de réglage plus précises. En contrôlant les jetons utilisés et en optimisant les ressources, les développeurs peuvent atteindre l’équilibre approprié entre le coût de calcul et l’efficacité de la solution, rendant la mise en œuvre de l’IA à la fois économique et efficace.
Cela permet un contrôle total sur le nombre de jetons qu’un modèle utilise pour réfléchir avant de répondre, ou même de désactiver ses capacités de réflexion.
Gemini 2.5 Pro avec budgets sera généralement disponible pour une utilisation stable en production dans les semaines à venir, ainsi que le modèle généralement disponible.
Prise en Charge des Outils MCP
Google a ajouté la prise en charge native du SDK pour les définitions du protocole de contexte de modèle (MCP) dans l’API Gemini pour une intégration plus facile avec les outils open source. Différentes méthodes de déploiement, telles que les serveurs MCP et les outils hébergés, sont explorées pour faciliter la création d’applications agentiques pour les utilisateurs. Cela améliore l’environnement de développement de l’IA grâce à un plus large éventail d’options pour l’intégration d’outils et la collaboration sur des projets.
L’innovation continue est essentielle dans l’engagement continu d’améliorer les modèles et l’expérience des développeurs, les rendant plus efficaces, performants et réactifs aux commentaires des développeurs. Redoublez d’efforts sur l’étendue et la profondeur de la recherche fondamentale pour repousser les frontières des capacités de Gemini. Il y a encore plus à venir dans le futur.