TPU Ironwood do Google: 24x mais rápido!

O cenário do processamento de inteligência artificial (IA) foi significativamente alterado com a revelação da Unidade de Processamento Tensor (TPU) de sétima geração da Google, conhecida como Ironwood. Este acelerador de IA de ponta possui capacidades computacionais que, em implementações de grande escala, superam o supercomputador mais rápido do mundo em mais de 24 vezes.

Este novo chip, revelado na conferência Google Cloud Next ‘25, marca um momento crucial na estratégia de uma década da Google no desenvolvimento de chips de IA. Ao contrário de seus predecessores, que foram projetados principalmente para cargas de trabalho de treinamento e inferência de IA, o Ironwood foi projetado especificamente para inferência, sinalizando uma mudança estratégica em direção à otimização da eficiência da implementação de IA.

Amin Vahdat, Vice-Presidente e Gerente Geral de Aprendizado de Máquina, Sistemas e IA da Nuvem da Google, enfatizou essa transição, afirmando: ‘O Ironwood foi projetado para suportar a próxima fase da IA generativa e suas imensas demandas de computação e comunicação. Isto é o que chamamos de ‘Era da Inferência’, onde os agentes de IA recuperarão e gerarão proativamente dados para fornecer colaborativamente insights e respostas, em vez de simplesmente processar dados.’

Quebrando Barreiras com 42,5 Exaflops de Poder de Computação

As especificações técnicas do Ironwood são verdadeiramente impressionantes. Quando dimensionado para um pod de 9.216 chips, ele fornece incríveis 42,5 exaflops de computação de IA. Para colocar isso em perspectiva, ele supera o supercomputador mais rápido do mundo atualmente, o El Capitan, que opera a 1,7 exaflops. Cada chip Ironwood individual pode atingir uma capacidade de computação de pico de 4614 TFLOPs.

Além do poder de processamento bruto, o Ironwood aprimora significativamente a memória e a largura de banda. Cada chip é equipado com 192 GB de memória de alta largura de banda (HBM), um aumento de seis vezes em comparação com o TPU da geração anterior, Trillium, lançado no ano passado. A largura de banda da memória por chip atinge 7,2 terabits/s, 4,5 vezes maior que a do Trillium.

  • Poder de Computação: 42,5 exaflops (por pod de 9.216 chips)
  • Computação de Pico por Chip: 4614 TFLOPs
  • Memória: 192 GB HBM por chip
  • Largura de Banda da Memória: 7,2 terabits/s por chip

Em uma era em que os data centers estão se expandindo e o consumo de energia é uma preocupação crescente, o Ironwood também demonstra melhorias significativas na eficiência energética. Ele oferece o dobro do desempenho por watt em comparação com o Trillium e quase 30 vezes o do primeiro TPU introduzido em 2018.

Esta otimização para inferência significa um ponto de virada crítico na evolução da IA. Nos últimos anos, os principais laboratórios de IA se concentraram no desenvolvimento de modelos de base cada vez maiores com contagens de parâmetros cada vez maiores. O foco da Google na otimização da inferência sugere uma mudança em direção a um novo paradigma centrado na eficiência da implementação e nas capacidades de inferência.

Embora o treinamento de modelos permaneça essencial, as operações de inferência são muito mais frequentes, ocorrendo bilhões de vezes diariamente à medida que as tecnologias de IA se tornam mais difundidas. Para as empresas que aproveitam a IA, a economia está intrinsecamente ligada aos custos de inferência, à medida que os modelos se tornam mais complexos.

A demanda de computação de IA da Google cresceu dez vezes nos últimos oito anos, atingindo surpreendentes 100 milhões. Sem arquiteturas especializadas como o Ironwood, seria impossível sustentar esta trajetória de crescimento através dos avanços tradicionais na Lei de Moore sozinhos.

Notavelmente, o anúncio da Google enfatizou um foco em ‘modelos de raciocínio’ capazes de executar tarefas de inferência complexas, em vez de simples reconhecimento de padrões. Isto sugere uma crença de que o futuro da IA reside não apenas em modelos maiores, mas também em modelos capazes de decompor problemas, envolver-se em raciocínio de várias etapas e emular processos de pensamento semelhantes aos humanos.

Alimentando Modelos Grandes de Próxima Geração

A Google posiciona o Ironwood como a infraestrutura fundamental para seus modelos de IA mais avançados, incluindo seu próprio Gemini 2.5, que possui ‘habilidades de raciocínio nativas’.

A empresa também introduziu recentemente o Gemini 2.5 Flash, uma versão menor de seu modelo principal, projetado para ‘ajustar a profundidade do raciocínio com base na complexidade do prompt’. Este modelo é voltado para aplicações cotidianas que exigem tempos de resposta rápidos.

A Google apresentou ainda seu conjunto abrangente de modelos de geração multimodal, abrangendo texto para imagem, texto para vídeo e sua recém-revelada capacidade de texto para música, Lyria. Uma demonstração ilustrou como estas ferramentas podem ser combinadas para criar um vídeo promocional completo para um concerto.

O Ironwood é apenas um componente da estratégia mais ampla de infraestrutura de IA da Google. A empresa também anunciou o Cloud WAN, um serviço de rede de longa distância gerenciado que fornece às empresas acesso à infraestrutura de rede privada de escala global da Google.

A Google também está expandindo suas ofertas de software para cargas de trabalho de IA, incluindo o Pathways, um tempo de execução de aprendizado de máquina desenvolvido pelo Google DeepMind. O Pathways agora permite que os clientes dimensionem o fornecimento de modelos em centenas de TPUs.

Apresentando o A2A: Promovendo um Ecossistema de Colaboração Inteligente de Agentes

Além dos avanços de hardware, a Google apresentou sua visão para IA centrada em sistemas multiagentes, revelando um protocolo para facilitar o desenvolvimento de agentes inteligentes: Agent-to-Agent (A2A). Este protocolo foi projetado para promover a comunicação segura e padronizada entre diferentes agentes de IA.

A Google acredita que 2025 marcará um ano transformador para a IA, com a aplicação da IA generativa evoluindo de responder a perguntas únicas para resolver problemas complexos através de sistemas de agentes inteligentes.

O protocolo A2A permite a interoperabilidade entre plataformas e frameworks, fornecendo aos agentes uma ‘linguagem’ comum e canais de comunicação seguros. Este protocolo pode ser visto como a camada de rede para agentes inteligentes, visando simplificar a colaboração de agentes em fluxos de trabalho complexos. Ele capacita agentes de IA especializados a trabalharem juntos em tarefas de complexidade e duração variadas, aprimorando, em última análise, as capacidades gerais através da colaboração.

Como o A2A Funciona

A Google forneceu uma comparação entre os protocolos MCP e A2A em sua postagem no blog:

  • MCP (Protocolo de Contexto do Modelo): Para gerenciamento de ferramentas e recursos
    • Conecta agentes a ferramentas, APIs e recursos através de entrada/saída estruturada.
    • O Google ADK suporta ferramentas MCP, permitindo que vários servidores MCP funcionem com agentes.
  • A2A (Protocolo Agent2Agent): Para colaboração entre agentes
    • Permite a comunicação multimodal dinâmica entre agentes sem compartilhar memória, recursos ou ferramentas.
    • Um padrão aberto impulsionado pela comunidade.
    • Exemplos podem ser visualizados usando ferramentas como Google ADK, LangGraph e Crew.AI.

Em essência, A2A e MCP são complementares. O MCP fornece aos agentes suporte de ferramentas, enquanto o A2A permite que esses agentes equipados se comuniquem e colaborem entre si.

A lista de parceiros anunciada pela Google sugere que o A2A está prestes a receber atenção semelhante à do MCP. A iniciativa já atraiu mais de 50 empresas para sua coorte de colaboração inicial, incluindo empresas de tecnologia líderes e os principais provedores globais de serviços de consultoria e integração de sistemas.

A Google enfatizou a abertura do protocolo, posicionando-o como o método padrão para os agentes colaborarem, independentemente de frameworks de tecnologia ou provedores de serviços subjacentes. A empresa afirmou que aderiu aos seguintes cinco princípios-chave ao projetar o protocolo com seus parceiros:

  1. Abrace as Capacidades do Agente: O A2A se concentra em permitir que os agentes colaborem de suas maneiras naturais e não estruturadas, mesmo que não compartilhem memória, ferramentas e contexto. O objetivo é permitir cenários multiagentes genuínos, sem limitar os agentes a meras ‘ferramentas’.
  2. Construa sobre os Padrões Existentes: O protocolo se baseia em padrões populares existentes, incluindo HTTP, SSE e JSON-RPC, tornando mais fácil a integração com as pilhas de TI existentes usadas pelas empresas.
  3. Seguro por Padrão: O A2A foi projetado para suportar autenticação e autorização de nível empresarial, comparável aos esquemas de autenticação da OpenAPI no lançamento.
  4. Suporte Tarefas de Longa Duração: O A2A foi projetado com flexibilidade para suportar uma ampla gama de cenários, desde tarefas rápidas até pesquisas aprofundadas que podem levar horas ou até dias (quando humanos estão envolvidos). Ao longo do processo, o A2A pode fornecer aos usuários feedback em tempo real, notificações e atualizações de status.
  5. Modalidade Agnostic: O mundo dos agentes não se limita ao texto, razão pela qual o A2A foi projetado para suportar várias modalidades, incluindo fluxos de áudio e vídeo.

Exemplo: Processo de Contratação Simplificado via A2A

Um exemplo fornecido pela Google ilustra como o A2A pode simplificar significativamente o processo de contratação.

Dentro de uma interface unificada como o Agentspace, um gerente de contratação pode atribuir um agente para encontrar candidatos adequados com base nos requisitos do trabalho. Este agente pode interagir com agentes especializados em campos específicos para concluir o fornecimento de candidatos. O usuário também pode instruir o agente a agendar entrevistas e permitir que outros agentes especializados auxiliem nas verificações de antecedentes, permitindo assim uma contratação colaborativa totalmente automatizada e entre sistemas.

Adotando o MCP: Juntando-se ao Ecossistema do Protocolo de Contexto do Modelo

Concorrentemente, a Google também está adotando o MCP. Apenas algumas semanas depois que a OpenAI anunciou sua adoção do Protocolo de Contexto do Modelo (MCP) da Anthropic, a Google seguiu o exemplo e aderiu à iniciativa.

O CEO da Google DeepMind, Demis Hassabis, anunciou no X que a Google adicionará suporte para MCP aos seus modelos e SDKs Gemini, embora um cronograma específico não tenha sido fornecido.

Hassabis afirmou: ‘O MCP é um excelente protocolo que está se tornando rapidamente o padrão aberto para a era dos agentes de IA. Estamos ansiosos para trabalhar com a equipe do MCP e outros parceiros do setor para avançar no desenvolvimento desta tecnologia.’

Desde seu lançamento em novembro de 2024, o MCP ganhou rapidamente popularidade e atenção generalizada, surgindo como uma maneira simples e padronizada de conectar modelos de linguagem com ferramentas e dados.

O MCP permite que os modelos de IA acessem dados de fontes de dados, como ferramentas e software empresariais, para concluir tarefas e acessar bibliotecas de conteúdo e ambientes de desenvolvimento de aplicativos. O protocolo permite que os desenvolvedores estabeleçam conexões bidirecionais entre fontes de dados e aplicativos orientados por IA, como chatbots.

Os desenvolvedores podem expor interfaces de dados através de servidores MCP e construir clientes MCP (como aplicativos e fluxos de trabalho) para se conectar a esses servidores. Como a Anthropic abriu o código-fonte do MCP, várias empresas integraram o suporte do MCP em suas plataformas.

Análise Aprimorada de Conceitos Chave:

Para esclarecer ainda mais o impacto e a importância dos recentes anúncios da Google, vamos nos aprofundar nos componentes principais: Ironwood, A2A e MCP.

Ironwood: Um Mergulho Profundo na Era da Inferência

A mudança de focar principalmente no treinamento de modelos para otimizar a inferência é uma evolução crítica no cenário da IA. O treinamento envolve alimentar grandes quantidades de dados a um modelo para ensiná-lo a reconhecer padrões e fazer previsões. A inferência, por outro lado, é o processo de usar um modelo treinado para fazer previsões sobre dados novos e não vistos.

Embora o treinamento seja um evento com uso intensivo de recursos, único (ou infrequente), a inferência acontece continuamente e em escala em aplicações do mundo real. Considere aplicações como:

  • Chatbots: Respondendo a consultas de usuários em tempo real.
  • Sistemas de Recomendação: Sugerindo produtos ou conteúdo com base nas preferências do usuário.
  • Detecção de Fraude: Identificando transações fraudulentas à medida que ocorrem.
  • Reconhecimento de Imagem: Analisando imagens para identificar objetos, pessoas ou cenas.

Estas aplicações exigem inferência rápida e eficiente para fornecer uma experiência de usuário perfeita. O Ironwood foi projetado especificamente para se destacar nestas tarefas.

Principais Vantagens do Ironwood para Inferência:

  • Alto Rendimento: O poder de computação massivo (42,5 exaflops) permite que o Ironwood lide com um grande volume de solicitações de inferência simultaneamente.
  • Baixa Latência: A memória de alta largura de banda (HBM) e a arquitetura eficiente minimizam o tempo necessário para processar cada solicitação de inferência.
  • Eficiência Energética: O desempenho aprimorado por watt reduz os custos operacionais associados à execução de implementações de inferência em larga escala.

Ao otimizar para inferência, a Google está permitindo que as empresas implementem aplicações alimentadas por IA de forma mais eficiente e econômica.

A2A: A Fundação para a IA Colaborativa

O protocolo Agent-to-Agent (A2A) representa um passo significativo para a criação de sistemas de IA mais sofisticados e colaborativos. Em um sistema multiagente, vários agentes de IA trabalham juntos para resolver um problema complexo. Cada agente pode ter suas próprias habilidades e conhecimentos especializados, e eles se comunicam e se coordenam uns com os outros para alcançar um objetivo comum.

Considere um cenário envolvendo suporte automatizado ao cliente:

  • Agente 1: Entende a consulta inicial do cliente e identifica o problema subjacente.
  • Agente 2: Acessa uma base de conhecimento para encontrar informações relevantes.
  • Agente 3: Agenda uma consulta de acompanhamento com um agente humano, se necessário.

Estes agentes precisam ser capazes de se comunicar e compartilhar informações de forma integrada para fornecer uma experiência de cliente coesa. O A2A fornece a estrutura para este tipo de colaboração.

Principais Benefícios do A2A:

  • Interoperabilidade: Permite que agentes desenvolvidos em diferentes plataformas e frameworks se comuniquem entre si.
  • Padronização: Fornece uma ‘linguagem’ comum e um conjunto de protocolos para a comunicação do agente.
  • Segurança: Garante a comunicação segura entre os agentes, protegendo dados confidenciais.
  • Flexibilidade: Suporta uma ampla gama de modalidades de comunicação, incluindo texto, áudio e vídeo.

Ao promover a colaboração entre agentes de IA, o A2A permite o desenvolvimento de sistemas de IA mais poderosos e versáteis.

MCP: Unindo a Lacuna Entre IA e Dados

O Protocolo de Contexto do Modelo (MCP) aborda o desafio de conectar modelos de IA às vastas quantidades de dados necessários para realizar suas tarefas de forma eficaz. Os modelos de IA precisam de acesso a dados em tempo real de várias fontes, como bancos de dados, APIs e serviços de nuvem, para fazer previsões precisas e tomar decisões informadas.

O MCP fornece uma maneira padronizada para os modelos de IA acessarem e interagirem com estas fontes de dados. Ele define um conjunto de protocolos para:

  • Descoberta de Dados: Identificando as fontes de dados disponíveis.
  • Acesso a Dados: Recuperando dados das fontes de dados.
  • Transformação de Dados: Convertendo os dados em um formato que o modelo de IA possa entender.

Ao fornecer uma interface padronizada para o acesso a dados, o MCP simplifica o processo de integração de modelos de IA com dados do mundo real.

Principais Vantagens do MCP:

  • Integração Simplificada: Facilita a conexão de modelos de IA a fontes de dados.
  • Padronização: Fornece um conjunto comum de protocolos para o acesso a dados.
  • Maior Eficiência: Reduz o tempo e o esforço necessários para acessar e transformar dados.
  • Precisão Aprimorada: Permite que os modelos de IA acessem as informações mais atualizadas, levando a previsões mais precisas.

Ao conectar os modelos de IA aos dados de que precisam, o MCP permite que eles tenham um desempenho mais eficaz e ofereçam maior valor.