Na I/O 2025, a Google revelou uma série de atualizações inovadoras para a sua série de modelos Gemini 2.5, juntamente com um recurso experimental inovador conhecido como Deep Think, projetado para aprimorar as capacidades de raciocínio do modelo 2.5 Pro. Esses avanços marcam um salto significativo no campo da inteligência artificial, oferecendo a desenvolvedores e usuários níveis sem precedentes de desempenho, eficiência e versatilidade.
O modelo Gemini 2.5 Pro conquistou aclamação generalizada dos desenvolvedores como a principal solução para tarefas de codificação, enquanto o modelo 2.5 Flash está programado para receber uma atualização substancial. Além disso, o Google está introduzindo uma variedade de novos recursos em seus modelos, incluindo o Deep Think, um modo de raciocínio aprimorado experimental especificamente adaptado para o modelo 2.5 Pro.
Em um anúncio anterior, a Google revelou o Gemini 2.5 Pro, seu modelo mais inteligente até o momento, e acelerou o lançamento de sua atualização da I/O para capacitar os desenvolvedores na criação de aplicativos da web excepcionais. Hoje, a empresa está compartilhando mais refinamentos na série de modelos Gemini 2.5, ostentando conquistas notáveis:
O Gemini 2.5 Pro superou todas as expectativas, demonstrando desempenho excepcional em benchmarks acadêmicos. Agora ocupa a primeira posição nos placares WebDev Arena e LMArena, solidificando seu status como o modelo líder mundial para codificação e assistência ao aprendizado.
Novos recursos estão sendo integrados ao 2.5 Pro e ao 2.5 Flash, incluindo saída de áudio nativa para uma experiência conversacional mais natural e envolvente, medidas de segurança avançadas e a integração dos recursos de uso do computador do Project Mariner. O modelo 2.5 Pro será ainda mais aprimorado com o Deep Think, um modo experimental projetado para melhorar o raciocínio para problemas matemáticos e de codificação complexos.
O Google permanece comprometido em melhorar a experiência do desenvolvedor por meio da incorporação de resumos de pensamento na Gemini API e no Vertex AI. Esses resumos oferecem maior transparência, orçamentos de pensamento estendidos para o 2.5 Pro para garantir maior controle e suporte para ferramentas MCP na Gemini API e SDK para acesso a uma gama mais ampla de ferramentas de código aberto.
O modelo 2.5 Flash agora está universalmente acessível no aplicativo Gemini. Uma versão atualizada estará disponível em breve no Google AI Studio para desenvolvedores e no Vertex AI para empresas, programada para o início de junho, com o 2.5 Pro seguindo logo depois.
Este progresso notável é o resultado da dedicação implacável das equipes do Google, que estão comprometidas em melhorar continuamente suas tecnologias e implantá-las de maneira segura e responsável.
Revelando o Desempenho Superior do 2.5 Pro
O modelo 2.5 Pro foi atualizado recentemente para capacitar os desenvolvedores na criação de aplicativos da web mais interativos e ricos em recursos. O feedback positivo recebido de usuários e desenvolvedores é muito apreciado e melhorias contínuas continuarão a ser implementadas com base no feedback do usuário.
Além de seu excelente desempenho em benchmarks acadêmicos, a iteração mais recente do 2.5 Pro conquistou o primeiro lugar no popular placar de codificação, WebDev Arena, com uma pontuação ELO impressionante de 1415. Ele também lidera todos os placares do LMArena, que avalia a preferência humana com base em vários critérios. Além disso, equipado com uma janela de contexto de 1 milhão de tokens, o 2.5 Pro oferece desempenho de ponta em contexto longo e compreensão de vídeo.
Ao integrar o LearnLM, uma família de modelos desenvolvidos em colaboração com especialistas em educação, o 2.5 Pro se tornou o principal modelo para aprendizado. Em comparações diretas avaliando sua pedagogia e eficácia, educadores e especialistas preferiram o Gemini 2.5 Pro a outros modelos em uma ampla variedade de cenários. Ele também superou os principais modelos em todos os cinco princípios da ciência do aprendizado, que são usados para construir sistemas de IA para aprendizado. Isso destaca sua eficácia em contextos educacionais, oferecendo estratégias de ensino personalizadas e eficazes.
Deep Think: Expandindo os Limites do Raciocínio
O Google está explorando ativamente os limites das capacidades cognitivas do Gemini e começando a experimentar um modo de raciocínio aprimorado chamado Deep Think. Este modo inovador emprega técnicas de pesquisa de ponta, permitindo que o modelo avalie várias hipóteses antes de formular uma resposta. Essa abordagem aprimora os processos de tomada de decisão, permitindo resultados mais sofisticados e diferenciados em situações complexas.
O Gemini 2.5 Pro Deep Think alcançou uma pontuação impressionante no USAMO 2025, amplamente reconhecido como um dos benchmarks de matemática mais desafiadores. Ele também se destaca no LiveCodeBench, um benchmark exigente para codificação em nível de competição, e atinge uma pontuação de 84,0% no MMMU, que avalia o raciocínio multimodal. Esses resultados ressaltam o desempenho excepcional do Deep Think no tratamento de tarefas complexas, sugerindo um futuro promissor para a resolução de problemas de IA avançada.
Dado que o 2.5 Pro Deep Think está expandindo a fronteira do que é possível, o Google está levando tempo adicional para conduzir avaliações de segurança completas e solicitar mais informações de especialistas em segurança. A empresa também fornecerá a testadores selecionados acesso à Gemini API para coletar feedback antes de torná-la amplamente disponível. Essa abordagem cautelosa e deliberada visa garantir a implantação responsável da tecnologia de IA avançada.
Apresentando um 2.5 Flash Aprimorado
O modelo 2.5 Flash, conhecido por sua eficiência e relação custo-benefício, foi refinado em várias dimensões. Ele mostrou melhorias em benchmarks críticos de raciocínio, multimodalidade, tratamento de código e contexto longo, tornando-se simultaneamente mais eficiente, utilizando entre 20-30% menos tokens em avaliações. Isso destaca seu desempenho otimizado e gerenciamento de recursos.
O novo 2.5 Flash está atualmente disponível para visualização no Google AI Studio para desenvolvedores, no Vertex AI para aplicativos empresariais e no aplicativo Gemini para usuários em geral. O lançamento geral está previsto para o início de junho, tornando-o acessível para ambientes de produção.
Novos Recursos do Gemini 2.5
Aprimoramentos na Saída de Áudio Nativa e na Live API
A Live API introduz uma versão de visualização de entrada audiovisual e diálogo de saída de áudio nativa, permitindo que os usuários criem experiências conversacionais com um Gemini mais natural e expressivo. Este recurso permite aplicativos mais envolventes e interativos. A capacidade da IA de produzir respostas de áudio realistas aprimora significativamente a interação do usuário, criando uma maneira mais intuitiva de se comunicar.
A Live API capacita os usuários a dirigir o tom, o sotaque e o estilo de fala do modelo. Por exemplo, o modelo pode ser instruído a adotar uma voz dramática ao narrar uma história. Ele também oferece suporte ao uso de ferramentas, permitindo que ele realize pesquisas em nome do usuário. A flexibilidade no controle de voz e o acesso a ferramentas externas tornam o modelo extraordinariamente versátil e valioso em diversos cenários de aplicação.
Os usuários podem experimentar vários recursos iniciais, incluindo:
Diálogo Afetivo: O modelo detecta a emoção na voz do usuário e responde de acordo. Esta funcionalidade adiciona camadas de inteligência emocional à IA, tornando a interação mais personalizada.
Áudio Proativo: O modelo ignora conversas em segundo plano e sabe quando responder, minimizando interrupções e melhorando a clareza. Este recurso aprimora a qualidade da interação, permitindo uma comunicação mais eficiente e focada.
Pensando na Live API: o modelo aproveita as capacidades de pensamento do Gemini para suportar tarefas mais complexas. Isso permite uma análise e consideração mais profundas ao lidar com tarefas complexas, tornando-o excepcionalmente valioso em campos que exigem soluções precisas e perspicazes.
O Google também está lançando novas visualizações para a funcionalidade de texto para fala em 2.5 Pro e 2.5 Flash. Eles fornecem suporte inédito para vários alto-falantes, permitindo texto para fala com duas vozes via saída de áudio nativa. Este recurso é especialmente valioso para criar narrativas e diálogos envolventes em aplicativos multimídia.
Como o diálogo de Áudio Nativo, o texto para fala é expressivo e pode capturar nuances sutis, como sussurros. Ele suporta mais de 24 idiomas e alterna perfeitamente entre eles, tornando-o uma ferramenta versátil para comunicação global. Essas sutilezas no uso da linguagem enriquecem a experiência do usuário, facilitando um processo de comunicação mais matizado e personalizado.
Esta capacidade de texto para fala estará disponível ainda hoje na Gemini API.
Interface de Computador Aprimorada
O Google está introduzindo os recursos de uso do computador do Project Mariner na Gemini API e no Vertex AI. Empresas inovadoras como Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company e Cartwheel estão explorando seu potencial. O Google está ansioso por um lançamento mais amplo para que os desenvolvedores experimentem esse recurso neste verão, abrindo caminho para projetos e soluções inovadores. A capacidade de integrar modelos de IA diretamente com interfaces de computador leva a soluções de fluxo de trabalho mais simplificadas e produtivas em diversos setores.
Medidas de Segurança Superiores
O Google fortaleceu significativamente suas proteções contra ameaças de segurança, como injeções de prompt indiretas. Isso envolve a incorporação de instruções maliciosas em dados recuperados por um modelo de IA. A nova abordagem de segurança do Google aumentou substancialmente a taxa de proteção do Gemini contra ataques de injeção de prompt indiretos durante o uso de ferramentas, tornando o Gemini 2.5 sua família de modelos mais segura até o momento. Esta segurança aprimorada garante aos usuários uma experiência segura e confiável ao adotar soluções baseadas em IA.
Uma Experiência de Desenvolvedor Aprimorada
Resumos de Pensamento
Tanto o 2.5 Pro quanto o Flash agora incluirão resumos de pensamento na Gemini API e no Vertex AI. Esses resumos pegam os pensamentos brutos do modelo e os organizam em um formato claro com cabeçalhos, detalhes importantes e informações sobre as ações do modelo, como quando eles usam ferramentas. Ao oferecer insights sobre o processo analítico da IA, os resumos de pensamento auxiliam na compreensão e depuração de problemas dentro dos sistemas de IA, melhorando a eficiência e o projeto do sistema.
Com um formato mais estruturado e simplificado no processo de pensamento do modelo, desenvolvedores e usuários acharão as interações com os modelos Gemini mais fáceis de entender e depurar.
Orçamentos de Pensamento
O Google lançou o 2.5 Flash com orçamentos de pensamento para dar aos desenvolvedores maior controle sobre os custos, equilibrando latência e qualidade. Essa capacidade agora é estendida ao 2.5 Pro, oferecendo opções de ajuste mais precisas. Ao controlar os tokens usados e otimizar os recursos, os desenvolvedores podem alcançar o equilíbrio adequado entre custo computacional e eficácia da solução, tornando a implementação da IA econômica e eficiente.
Isso permite o controle total sobre o número de tokens que um modelo usa para pensar antes de responder, ou mesmo para desligar suas capacidades de pensamento.
O Gemini 2.5 Pro com orçamentos estará geralmente disponível para uso em produção estável nas próximas semanas, juntamente com o modelo geralmente disponível.
Suporte para Ferramentas MCP
O Google adicionou suporte SDK nativo para definições de Model Context Protocol (MCP) na Gemini API para facilitar a integração com ferramentas de código aberto. Diferentes métodos de implantação, como servidores MCP e ferramentas hospedadas, são explorados para facilitar a construção de aplicativos agentic pelos usuários. Isso melhora o ambiente de desenvolvimento de IA por meio de uma gama mais ampla de opções para integração de ferramentas e colaboração em projetos.
A inovação contínua é fundamental no compromisso contínuo de melhorar os modelos e a experiência do desenvolvedor, tornando-os mais eficientes, performantes e responsivos ao feedback do desenvolvedor. Dedique-se à amplitude e profundidade da pesquisa fundamental para expandir a fronteira das capacidades do Gemini. Há mais por vir no futuro.