En I/O 2025, Google presentó una serie de actualizaciones innovadoras a su serie de modelos Gemini 2.5, junto con una función experimental innovadora conocida como Deep Think, diseñada para mejorar las capacidades de razonamiento del modelo 2.5 Pro. Estos avances marcan un importante salto adelante en el campo de la inteligencia artificial, ofreciendo a los desarrolladores y usuarios niveles sin precedentes de rendimiento, eficiencia y versatilidad.
El modelo Gemini 2.5 Pro ha cosechado un amplio reconocimiento por parte de los desarrolladores como la solución líder para tareas de codificación, mientras que el modelo 2.5 Flash está programado para recibir una mejora sustancial. Además, Google está introduciendo una gama de nuevas capacidades en sus modelos, incluido Deep Think, un modo experimental de razonamiento mejorado específicamente diseñado para el modelo 2.5 Pro.
En un anuncio anterior, Google presentó Gemini 2.5 Pro, su modelo más inteligente hasta la fecha, y aceleró el lanzamiento de su actualización I/O para empoderar a los desarrolladores en la creación de aplicaciones web excepcionales. Hoy, la compañía está compartiendo nuevos refinamientos a la serie de modelos Gemini 2.5, que cuenta con logros notables:
Gemini 2.5 Pro ha superado todas las expectativas, demostrando un rendimiento excepcional en los puntos de referencia académicos. Ahora ocupa el primer puesto en las tablas de clasificación de WebDev Arena y LMArena, solidificando su estatus como el modelo líder mundial para la asistencia en codificación y aprendizaje.
Se están integrando nuevas funciones tanto en 2.5 Pro como en 2.5 Flash, incluida la salida de audio nativa para una experiencia conversacional más natural y atractiva, medidas de seguridad avanzadas y la integración de las capacidades de uso de la computadora de Project Mariner. El modelo 2.5 Pro se mejorará aún más con Deep Think, un modo experimental diseñado para mejorar el razonamiento para problemas matemáticos y de codificación intrincados.
Google sigue comprometido con la mejora de la experiencia del desarrollador a través de la incorporación de resúmenes de pensamiento en Gemini API y Vertex AI. Estos resúmenes ofrecen una mayor transparencia, presupuestos de pensamiento extendidos para 2.5 Pro para asegurar un mayor control, y soporte para herramientas MCP en Gemini API y SDK para el acceso a una gama más amplia de herramientas de código abierto.
El modelo 2.5 Flash es ahora universalmente accesible dentro de la aplicación Gemini. Una versión actualizada pronto estará disponible en Google AI Studio para desarrolladores y en Vertex AI para empresas, programado para principios de junio, con 2.5 Pro siguiendo poco después.
Este notable progreso es el resultado de la implacable dedicación de los equipos de Google, que están comprometidos con la mejora continua de sus tecnologías y su despliegue de una manera segura y responsable.
Revelando el Rendimiento Superior de 2.5 Pro
El modelo 2.5 Pro ha sido actualizado recientemente para empoderar a los desarrolladores en la creación de aplicaciones web más interactivas y ricas en funciones. La retroalimentación positiva recibida de los usuarios y desarrolladores es muy apreciada, y las mejoras continuas seguirán siendo implementadas basándose en la información del usuario.
Además de su excelente rendimiento en los puntos de referencia académicos, la última iteración de 2.5 Pro ha capturado el primer puesto en la popular tabla de clasificación de codificación, WebDev Arena, con una impresionante puntuación ELO de 1415. También lidera en todas las tablas de clasificación de LMArena, que evalúa la preferencia humana basada en varios criterios. Además, equipado con una ventana de contexto de 1 millón de tokens, 2.5 Pro ofrece un rendimiento de vanguardia en la comprensión de contextos largos y vídeos.
Integrando LearnLM, una familia de modelos desarrollados en colaboración con expertos educativos, 2.5 Pro se ha convertido en el modelo líder para el aprendizaje. En comparaciones directas que evalúan su pedagogía y efectividad, los educadores y expertos favorecieron Gemini 2.5 Pro sobre otros modelos en una diversa gama de escenarios. También superó a los mejores modelos en los cinco principios de la ciencia del aprendizaje, que se utilizan para construir sistemas de IA para el aprendizaje. Esto destaca su efectividad en contextos educativos, ofreciendo estrategias de enseñanza personalizadas y efectivas.
Deep Think: Empujando los Límites del Razonamiento
Google está explorando activamente los límites de las capacidades cognitivas de Gemini y comenzando a experimentar con un modo de razonamiento mejorado llamado Deep Think. Este innovador modo emplea técnicas de investigación de vanguardia, permitiendo al modelo evaluar múltiples hipótesis antes de formular una respuesta. Este enfoque mejora los procesos de toma de decisiones, permitiendo resultados más sofisticados y matizados en situaciones complejas.
Gemini 2.5 Pro Deep Think logró una puntuación impresionante en el 2025 USAMO, ampliamente reconocido como uno de los puntos de referencia matemáticos más desafiantes. También sobresale en LiveCodeBench, un exigente punto de referencia para la codificación a nivel de competición, y alcanza una puntuación del 84,0% en MMMU, que evalúa el razonamiento multimodal. Estos resultados subrayan el rendimiento excepcional de Deep Think en el manejo de tareas complejas, sugiriendo un futuro prometedor para la resolución avanzada de problemas de IA.
Dado que 2.5 Pro Deep Think está empujando la frontera de lo que es posible, Google está tomando tiempo adicional para llevar a cabo evaluaciones de seguridad exhaustivas y solicitar información adicional de expertos en seguridad. La compañía también proporcionará a probadores selectos acceso a la Gemini API para recoger comentarios antes de que esté ampliamente disponible. Este enfoque cauteloso y deliberado tiene como objetivo asegurar el despliegue responsable de la tecnología de IA avanzada.
Introduciendo un 2.5 Flash Mejorado
El modelo 2.5 Flash, conocido por su eficiencia y rentabilidad, ha sido refinado a través de numerosas dimensiones. Ha mostrado mejoras en los puntos de referencia críticos para el razonamiento, la multimodalidad, el manejo de código y el contexto largo, mientras que simultáneamente se ha vuelto más eficiente, utilizando entre un 20-30% menos de tokens en las evaluaciones. Esto destaca su rendimiento optimizado y la gestión de recursos.
El nuevo 2.5 Flash está actualmente disponible para la vista previa en Google AI Studio para desarrolladores, en Vertex AI para aplicaciones empresariales y en la aplicación Gemini para usuarios generales. Está programado para la disponibilidad general a principios de junio, haciéndolo accesible para entornos de producción.
Nuevas Capacidades de Gemini 2.5
Mejoras en la Salida de Audio Nativa y la Live API
La Live API introduce una versión preliminar de entrada audiovisual y diálogo de salida de audio nativo, permitiendo a los usuarios crear experiencias de conversación con un Gemini más natural y expresivo. Esta función permite aplicaciones más atractivas e interactivas. La capacidad para que la IA produzca respuestas de audio realistas mejora significativamente la interacción del usuario creando una forma más intuitiva de comunicación.
La Live API permite a los usuarios dirigir el tono, el acento y el estilo de habla del modelo. Por ejemplo, se puede instruir al modelo para que adopte una voz dramática al narrar una historia. También soporta el uso de herramientas, permitiéndole realizar búsquedas en nombre del usuario. La flexibilidad en el control de voz y el acceso a herramientas externas hace que el modelo sea extraordinariamente versátil y valioso en diversos escenarios de aplicación.
Los usuarios pueden experimentar con varias funciones tempranas, incluyendo:
Diálogo Afectivo: El modelo detecta la emoción en la voz del usuario y responde en consecuencia. Esta funcionalidad añade capas de inteligencia emocional a la IA, haciendo la interacción más personalizada.
Audio Proactivo: El modelo ignora las conversaciones de fondo y sabe cuándo responder, minimizando las interrupciones y mejorando la claridad. Esta característica mejora la calidad de la interacción, permitiendo una comunicación más eficiente y enfocada.
Pensamiento en la Live API: El modelo aprovecha las capacidades de pensamiento de Gemini para apoyar tareas más complejas. Esto permite un análisis y una consideración más profundos al abordar tareas complejas, haciéndolo excepcionalmente valioso en campos que requieren soluciones precisas y perspicaces.
Google también está lanzando nuevas vistas previas para la funcionalidad de texto a voz tanto en 2.5 Pro como en 2.5 Flash. Estos proporcionan un soporte único para múltiples oradores, permitiendo texto a voz con dos voces a través de la salida de audio nativa. Esta característica es especialmente valiosa para crear narrativas y diálogos atractivos en aplicaciones multimedia.
Al igual que el diálogo de Audio Nativo, el texto a voz es expresivo y puede capturar matices sutiles como los susurros. Soporta más de 24 idiomas y cambia sin problemas entre ellos, convirtiéndolo en una herramienta versátil para la comunicación global. Estas sutilezas en el uso del lenguaje enriquecen la experiencia del usuario, facilitando un proceso de comunicación más matizado y personalizado.
Esta capacidad de texto a voz estará disponible más tarde hoy en la Gemini API.
Interfaz de Computadora Mejorada
Google está introduciendo las capacidades de uso de la computadora de Project Mariner en la Gemini API y Vertex AI. Empresas con visión de futuro como Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company y Cartwheel están explorando su potencial. Google está esperando con interés un despliegue más amplio para que los desarrolladores experimenten con esta capacidad este verano, allanando el camino para proyectos y soluciones innovadoras. La capacidad de integrar modelos de IA directamente con interfaces de computadora conduce a soluciones de flujo de trabajo más optimizadas y productivas en diversas industrias.
Medidas de Seguridad Superiores
Google ha fortalecido significativamente sus protecciones contra amenazas de seguridad, como las inyecciones indirectas de solicitudes. Esto implica incrustar instrucciones maliciosas en los datos recuperados por un modelo de IA. El nuevo enfoque de seguridad de Google ha aumentado sustancialmente la tasa de protección de Gemini contra ataques de inyección indirecta de solicitudes durante el uso de herramientas, haciendo de Gemini 2.5 su familia de modelos más segura hasta la fecha. Esta seguridad mejorada asegura a los usuarios una experiencia segura y fiable al adoptar soluciones impulsadas por la IA.
Una Experiencia de Desarrollador Mejorada
Resúmenes de Pensamiento
Tanto 2.5 Pro como Flash ahora incluirán resúmenes de pensamiento en la Gemini API y en Vertex AI. Estos resúmenes toman los pensamientos brutos del modelo y los organizan en un formato claro con encabezados, detalles clave e información sobre las acciones del modelo, como cuando usan herramientas. Al ofrecer información sobre el proceso analítico de la IA, los resúmenes de pensamiento ayudan a comprender y depurar problemas dentro de los sistemas de IA, mejorando la eficiencia y el diseño del sistema.
Con un formato más estructurado y optimizado en el proceso de pensamiento del modelo, los desarrolladores y usuarios encontrarán las interacciones con los modelos Gemini más fáciles de entender y depurar.
Presupuestos de Pensamiento
Google lanzó 2.5 Flash con presupuestos de pensamiento para dar a los desarrolladores un mayor control sobre los costes equilibrando la latencia y la calidad. Esta capacidad ahora se extiende a 2.5 Pro, dándole mayores opciones de ajuste fino. Al controlar los tokens utilizados y optimizar los recursos, los desarrolladores pueden lograr el equilibrio adecuado entre el coste computacional y la efectividad de la solución, haciendo que la implementación de la IA sea tanto económica como eficiente.
Esto permite un control total sobre el número de tokens que un modelo utiliza para pensar antes de responder, o incluso para desactivar sus capacidades de pensamiento.
Gemini 2.5 Pro con presupuestos estará generalmente disponible para el uso estable en producción en las próximas semanas, junto con el modelo generalmente disponible.
Soporte para Herramientas MCP
Google ha añadido soporte SDK nativo para definiciones Model Context Protocol (MCP) en la Gemini API para una integración más fácil con herramientas de código abierto. Se exploran diferentes métodos de despliegue, como los servidores MCP y las herramientas alojadas, para que sea más fácil para los usuarios construir aplicaciones agentivas. Esto mejora el entorno de desarrollo de la IA a través de una gama más amplia de opciones para la integración de herramientas y la colaboración en proyectos.
La innovación continua es clave en el compromiso continuo de mejorar los modelos y la experiencia del desarrollador, haciéndolos más eficientes, con mejor rendimiento y más receptivos a los comentarios de los desarrolladores. Duplicar la amplitud y la profundidad de la investigación fundamental para ampliar la frontera de las capacidades de Gemini. Hay más por venir en el futuro.