Ironwood TPU do Google: Salto Quântico na IA

O cenário da inteligência artificial (IA) está em constante evolução, com os avanços no hardware desempenhando um papel fundamental na abertura de novas possibilidades. O Google, pioneiro na inovação em IA, revelou recentemente sua unidade de processamento tensorial (TPU) de sétima geração, com o codinome Ironwood, marcando um avanço significativo nas capacidades de computação de IA. Este acelerador de IA de ponta possui uma proeza computacional que ultrapassa até mesmo os supercomputadores mais rápidos do mundo em um fator surpreendente de 24 em implantações em larga escala.

Anunciado na conferência Google Cloud Next ‘25, o Ironwood representa uma mudança estratégica na jornada de uma década do Google no desenvolvimento de chips de IA. Ao contrário de seus antecessores, que foram projetados principalmente para cargas de trabalho de treinamento e inferência de IA, o Ironwood é especificamente projetado para se destacar em tarefas de inferência, anunciando uma nova era de aplicações orientadas por IA.

De acordo com Amin Vahdat, vice-presidente e gerente geral de aprendizado de máquina, sistemas e IA em nuvem do Google, ‘O Ironwood foi projetado para dar suporte à próxima fase da IA generativa e seus enormes requisitos de computação e comunicação. É o que chamamos de ‘Era da Inferência’, onde os agentes de IA recuperarão e gerarão dados proativamente para fornecer informações e respostas de forma colaborativa, não apenas dados.’

Revelando as Capacidades Sem Precedentes do Ironwood

As especificações técnicas do Ironwood são nada menos que extraordinárias. Quando dimensionado para um pod de 9.216 chips, ele pode fornecer incríveis 42,5 exaflops de poder de computação de IA. Este número ofusca os 1,7 exaflops oferecidos pelo El Capitan, o atual detentor do título de supercomputador mais rápido do mundo. Cada chip Ironwood individual possui uma capacidade de computação de pico de 4.614 TFLOPs.

Além do puro poder de processamento, o Ironwood também apresenta melhorias significativas em memória e largura de banda. Cada chip é equipado com 192 GB de memória de alta largura de banda (HBM), um aumento de seis vezes em comparação com o TPU de geração anterior, Trillium, que foi lançado no ano passado. Além disso, a largura de banda da memória por chip atinge 7,2 terabits/s, representando uma melhoria de 4,5 vezes em relação ao Trillium.

Em uma era em que os data centers estão se expandindo e o consumo de energia está se tornando uma preocupação crítica, o Ironwood também se destaca por sua eficiência energética. Seu desempenho por watt é duas vezes maior que o do Trillium e quase 30 vezes maior que o do primeiro TPU introduzido em 2018.

A ênfase na otimização da inferência significa uma mudança fundamental no cenário da IA. Nos últimos anos, os principais laboratórios de IA se concentraram principalmente na construção de modelos de fundação cada vez maiores com contagens de parâmetros crescentes. O foco do Google na otimização da inferência sugere uma transição para uma nova fase centrada na eficiência da implantação e nas capacidades de inferência.

Embora o treinamento de modelos permaneça crucial, o número de iterações de treinamento é finito. Em contraste, à medida que as tecnologias de IA se tornam cada vez mais integradas a várias aplicações, espera-se que as operações de inferência ocorram bilhões de vezes por dia. À medida que os modelos crescem em complexidade, a viabilidade econômica dessas aplicações torna-se inextricavelmente ligada aos custos de inferência.

Nos últimos oito anos, a demanda do Google por computação de IA cresceu dez vezes, atingindo impressionantes 100 milhões. Sem arquiteturas especializadas como o Ironwood, mesmo o progresso implacável da Lei de Moore lutaria para acompanhar esse crescimento exponencial.

Notavelmente, o anúncio do Google destaca seu foco em ‘modelos mentais’ capazes de realizar tarefas complexas de raciocínio, em vez de simples reconhecimento de padrões. Isso sugere que o Google prevê um futuro onde a IA se estende além de modelos maiores e abrange modelos que podem decompor problemas, realizar raciocínio de várias etapas e emular processos de pensamento semelhantes aos humanos.

Alimentando a Próxima Geração de Grandes Modelos

O Google posiciona o Ironwood como a infraestrutura básica para seus modelos de IA mais avançados, incluindo o Gemini 2.5, que possui capacidades de raciocínio inerentes.

O Google também introduziu recentemente o Gemini 2.5 Flash, uma variante menor de seu modelo principal projetado para aplicações cotidianas sensíveis à latência. O Gemini 2.5 Flash pode ajustar dinamicamente sua profundidade de raciocínio com base na complexidade do prompt.

O Google também exibiu seu conjunto abrangente de modelos generativos multimodais, incluindo texto para imagem, texto para vídeo e o recurso de texto para música recém-revelado, Lyria. Uma demonstração ilustrou como essas ferramentas poderiam ser combinadas para produzir um vídeo promocional completo para um concerto.

O Ironwood é apenas um componente da estratégia mais ampla de infraestrutura de IA do Google. O Google também anunciou o Cloud WAN, um serviço de rede de longa distância gerenciado que permite que as empresas acessem a infraestrutura de rede privada de escala global do Google.

Além disso, o Google está expandindo suas ofertas de software para cargas de trabalho de IA, incluindo o Pathways, um tempo de execução de aprendizado de máquina desenvolvido pelo Google DeepMind. O Pathways agora permite que os clientes dimensionem o serviço de modelos em centenas de TPUs.

Promovendo a Colaboração de Agentes de IA com A2A

Além dos avanços de hardware, o Google também delineou sua visão para um ecossistema de IA centrado em sistemas multiagente. Para facilitar o desenvolvimento de agentes inteligentes, o Google introduziu o protocolo Agente para Agente (A2A), projetado para permitir a comunicação segura e padronizada entre diferentes agentes de IA.

O Google acredita que 2025 marcará um ano transformador para a IA, com aplicações de IA generativa evoluindo de responder a perguntas únicas para resolver problemas complexos por meio de sistemas de agentes.

O protocolo A2A permite a interoperabilidade entre agentes em diferentes plataformas e frameworks, fornecendo-lhes uma ‘linguagem’ comum e canais de comunicação seguros. Este protocolo pode ser visto como uma camada de rede para agentes inteligentes, visando simplificar a colaboração de agentes em fluxos de trabalho complexos. Ao permitir que agentes de IA especializados trabalhem juntos em tarefas de complexidade e duração variadas, o A2A busca aprimorar as capacidades gerais por meio da colaboração.

O A2A funciona estabelecendo uma maneira padronizada para os agentes trocarem informações e coordenarem ações, sem exigir que eles compartilhem código ou estruturas de dados subjacentes. Isso permite a criação de sistemas de IA mais modulares e flexíveis, onde os agentes podem ser facilmente adicionados, removidos ou reconfigurados conforme necessário.

O Google fez uma comparação entre os protocolos MCP e A2A em uma postagem no blog.

  • MCP (Model Context Protocol) foi projetado para gerenciamento de ferramentas e recursos.
    • Ele conecta agentes a ferramentas, APIs e recursos por meio de entrada/saída estruturada.
    • O Google ADK oferece suporte a ferramentas MCP, permitindo que vários servidores MCP trabalhem com agentes.
  • A2A (Agent2Agent Protocol) foi projetado para colaboração entre agentes.
    • Ele permite comunicação dinâmica e multimodal entre agentes sem compartilhar memória, recursos ou ferramentas.
    • É um padrão aberto impulsionado pela comunidade.
    • Exemplos podem ser vistos usando Google ADK, LangGraph, Crew.AI e outras ferramentas.

Em essência, A2A e MCP são complementares: o MCP fornece aos agentes suporte para ferramentas, enquanto o A2A permite que esses agentes equipados com ferramentas se comuniquem e colaborem entre si.

A julgar pelos parceiros iniciais, o A2A parece pronto para atrair atenção semelhante ao MCP. Mais de 50 empresas aderiram à colaboração inicial, incluindo as principais empresas de tecnologia e os principais provedores globais de serviços de consultoria e integração de sistemas.

O Google enfatiza a abertura do protocolo, posicionando-o como uma forma padrão para os agentes colaborarem, independentemente da estrutura de tecnologia ou provedor de serviços subjacente. O Google delineou cinco princípios-chave que orientaram o design do protocolo em colaboração com seus parceiros:

  1. Abrace as Capacidades do Agente: O A2A se concentra em permitir que os agentes colaborem de sua maneira natural e não estruturada, mesmo que não compartilhem memória, ferramentas e contexto. O protocolo visa habilitar cenários multiagente verdadeiros, em vez de restringir os agentes a serem meras ‘ferramentas’.
  2. Construa com Base em Padrões Existentes: O protocolo se baseia em padrões populares existentes, incluindo HTTP, SSE e JSON-RPC, tornando mais fácil a integração com as pilhas de TI existentes comumente usadas pelas empresas.
  3. Seguro por Padrão: O A2A foi projetado para suportar autenticação e autorização de nível empresarial, comparável aos esquemas de autenticação do OpenAPI no lançamento.
  4. Suporte a Tarefas de Longa Duração: O A2A foi projetado para ser flexível, suportando uma ampla gama de cenários, desde tarefas rápidas até pesquisas aprofundadas que podem levar horas ou até dias (quando os humanos estão envolvidos). Ao longo do processo, o A2A pode fornecer aos usuários feedback em tempo real, notificações e atualizações de status.
  5. Agnóstico à Modalidade: O mundo dos agentes não se limita ao texto, e é por isso que o A2A foi projetado para suportar várias modalidades, incluindo streams de áudio e vídeo.

O Google fornece um exemplo de como o A2A pode simplificar significativamente o processo de contratação.

Em uma interface unificada como o Agentspace, um gerente de contratação pode atribuir um agente para encontrar candidatos adequados com base nos requisitos do trabalho. Este agente pode interagir com agentes especializados para obter candidatos, agendar entrevistas e até mesmo envolver outros agentes especializados para ajudar com verificações de antecedentes, permitindo a automação inteligente de todo o processo de contratação em diferentes sistemas.

Adotando o Protocolo de Contexto do Modelo (MCP)

Além de seus esforços no desenvolvimento do A2A, o Google também está adotando o Protocolo de Contexto do Modelo (MCP). Poucas semanas após a OpenAI anunciar sua adoção do MCP, o Google seguiu o exemplo.

Demis Hassabis, CEO do Google DeepMind, anunciou recentemente no X que o Google adicionará suporte para MCP em seus modelos Gemini e SDKs. No entanto, ele não forneceu um cronograma específico.

Hassabis afirmou que ‘O MCP é um excelente protocolo que está se tornando rapidamente o padrão aberto para a era do agente de IA. Estou ansioso para trabalhar com a equipe do MCP e outros parceiros da indústria para promover esta tecnologia.’

Desde seu lançamento em novembro de 2024, o MCP ganhou força rapidamente, tornando-se uma maneira simples e padronizada de conectar modelos de linguagem com ferramentas e dados.

O MCP permite que os modelos de IA acessem dados de fontes como ferramentas e software empresariais para concluir tarefas, bem como acessar bibliotecas de conteúdo e ambientes de desenvolvimento de aplicações. O protocolo permite que os desenvolvedores estabeleçam conexões bidirecionais entre fontes de dados e aplicações alimentadas por IA, como chatbots.

Os desenvolvedores podem expor interfaces de dados por meio de servidores MCP e construir clientes MCP (como aplicações e fluxos de trabalho) para se conectar a esses servidores. Desde que a Anthropic tornou o MCP de código aberto, várias empresas integraram o suporte ao MCP em suas plataformas.