Ironwood TPU do Google: Salto Quântico em IA

O cenário da inteligência artificial foi redefinido com a apresentação da Unidade de Processamento de Tensor (TPU) de sétima geração da Google, batizada de Ironwood. Este acelerador de IA de ponta possui proezas computacionais que ofuscam até mesmo os supercomputadores mais formidáveis do mundo. Em uma implantação em larga escala, as capacidades do Ironwood excedem as do supercomputador mais rápido em impressionantes 24 vezes.

A apresentação do Ironwood no evento Google Cloud Next ‘25 marca um momento crucial na busca de uma década da Google por inovação em chips de IA. Embora as iterações anteriores do TPU atendessem principalmente às cargas de trabalho de treinamento e inferência de modelos de IA, o Ironwood se destaca como o primeiro chip meticulosamente criado e otimizado para tarefas de inferência.

De acordo com Amin Vahdat, Vice-Presidente e Gerente Geral de Aprendizado de Máquina, Sistemas e IA na Nuvem do Google, ‘O Ironwood foi projetado para impulsionar a próxima fase da IA generativa, abordando suas imensas demandas computacionais e de comunicação. Estamos entrando no que chamamos de ‘Era da Inferência’, onde os agentes de IA recuperarão e gerarão dados proativamente para fornecer insights e respostas colaborativamente, superando as capacidades de mero processamento de dados.’

Liberando Poder Computacional Sem Precedentes: Uma Imersão nas Capacidades do Ironwood

As especificações técnicas do Ironwood são como uma lista de desejos para pesquisadores e desenvolvedores de IA. Escalonando para um pod de 9.216 chips, o Ironwood oferece impressionantes 42,5 exaflops de computação de IA. Para colocar isso em perspectiva, ele supera em muito as capacidades do atual campeão de supercomputadores, El Capitan, que atinge o pico de 1,7 exaflops. Individualmente, cada chip Ironwood possui uma capacidade de computação de pico de 4614 TFLOPs.

Além do poder de processamento bruto, o Ironwood introduz melhorias significativas em memória e largura de banda. Cada chip é equipado com 192 GB de Memória de Alta Largura de Banda (HBM), um aumento de seis vezes em comparação com o TPU da geração anterior, Trillium. A largura de banda da memória também foi drasticamente aprimorada, atingindo 7,2 terabits/s por chip, 4,5 vezes a do Trillium.

Em uma era em que os data centers estão se expandindo e o consumo de energia está se tornando um fator cada vez mais crítico, o Ironwood demonstra uma notável eficiência energética. Seu desempenho por watt é duas vezes maior que o do Trillium e quase 30 vezes melhor do que o TPU inicial introduzido em 2018.

Essa mudança em direção à otimização de inferência representa um marco significativo na evolução da IA. Nos últimos anos, os principais laboratórios de IA se concentraram na construção de modelos de fundação com contagens de parâmetros cada vez maiores. A ênfase do Google na otimização de inferência sinaliza uma mudança em direção à priorização da eficiência de implantação e das capacidades de inferência do mundo real.

Embora o treinamento de modelos de IA seja uma atividade relativamente infrequente, as operações de inferência ocorrem bilhões de vezes diariamente, à medida que as tecnologias de IA se tornam mais generalizadas. A viabilidade econômica dos negócios baseados em IA está intrinsecamente ligada aos custos de inferência, especialmente à medida que os modelos se tornam cada vez mais complexos.

Nos últimos oito anos, a demanda do Google por computação de IA cresceu exponencialmente, aumentando dez vezes e atingindo impressionantes 100 milhões. Sem arquiteturas especializadas como o Ironwood, a Lei de Moore sozinha não pode sustentar essa trajetória de crescimento.

A ênfase do Google em ‘modelos de raciocínio’ capazes de tarefas de inferência complexas, em vez de simples reconhecimento de padrões, é particularmente notável. Isso sugere que o Google prevê um futuro onde a IA se destaca não apenas por meio de modelos maiores, mas também por meio de modelos capazes de dividir problemas, realizar raciocínio em várias etapas e emular processos de pensamento semelhantes aos humanos.

Potencializando a Próxima Geração de Grandes Modelos de Linguagem

O Google posiciona o Ironwood como a infraestrutura fundamental para seus modelos de IA mais avançados, incluindo o Gemini 2.5, que possui ‘capacidades de raciocínio nativas’.

Juntamente com o Ironwood, o Google revelou o Gemini 2.5 Flash, uma versão simplificada de seu modelo principal projetada para aplicações cotidianas sensíveis à latência. O Gemini 2.5 Flash pode ajustar dinamicamente sua profundidade de raciocínio com base na complexidade do prompt.

O Google também apresentou seu conjunto de modelos generativos multimodais, abrangendo texto para imagem, texto para vídeo e a funcionalidade de texto para música recém-introduzida, Lyria. Uma demonstração convincente destacou como essas ferramentas podem ser combinadas para produzir um vídeo promocional completo para um show.

O Ironwood é apenas um componente da abrangente estratégia de infraestrutura de IA do Google. A empresa também introduziu o Cloud WAN, um serviço de rede de longa distância gerenciado que permite às empresas explorar a infraestrutura de rede privada de escala global do Google.

O Google também está expandindo suas ofertas de software para cargas de trabalho de IA, incluindo o Pathways, um tempo de execução de aprendizado de máquina desenvolvido pelo Google DeepMind, que permite aos clientes dimensionar a veiculação de modelos em centenas de TPUs.

Uma Visão de Inteligência Colaborativa: Apresentando o Suporte A2A e MCP

Além dos avanços de hardware, o Google articulou sua visão para a IA centrada em sistemas multiagentes e introduziu o protocolo Agente para Agente (A2A), projetado para promover a comunicação segura e padronizada entre diversos agentes de IA.

O Google antecipa 2025 como um ano transformador para a IA, com aplicações de IA generativas evoluindo de responder a perguntas únicas para resolver problemas complexos por meio de sistemas de agentes interconectados.

O protocolo A2A permite a interoperabilidade entre plataformas e estruturas, fornecendo aos agentes de IA uma ‘linguagem’ comum e canais de comunicação seguros. Pense nisso como uma camada de rede para agentes de IA, simplificando a colaboração em fluxos de trabalho complexos e permitindo que agentes de IA especializados enfrentem coletivamente tarefas de variada complexidade e duração, aprimorando assim as capacidades gerais por meio da cooperação.

Como o A2A Funciona

O Google forneceu uma visão geral comparativa dos protocolos MCP e A2A:

  • MCP (Model Context Protocol): Concentra-se no gerenciamento de ferramentas e recursos.
  • Conecta agentes a ferramentas, APIs e recursos por meio de entrada/saída estruturada.
    • O Google ADK suporta ferramentas MCP, facilitando a interação perfeita entre servidores e agentes MCP.
  • A2A (Agent2Agent Protocol): Facilita a colaboração entre agentes.
    • Permite comunicação dinâmica e multimodal entre agentes sem exigir memória, recursos ou ferramentas compartilhados.
    • É um padrão aberto impulsionado pela comunidade.
    • Exemplos podem ser explorados usando ferramentas como Google ADK, LangGraph e Crew.AI.

A2A e MCP são complementares. O MCP equipa os agentes com ferramentas, enquanto o A2A capacita esses agentes equipados a conversar e colaborar.

A lista inicial de parceiros do Google sugere que o A2A está prestes a receber atenção semelhante ao MCP. A iniciativa já atraiu mais de 50 organizações, incluindo empresas de tecnologia líderes e provedores globais de consultoria e integração de sistemas.

O Google enfatiza a abertura do protocolo, posicionando-o como um padrão para colaboração entre agentes que transcende estruturas de tecnologia ou provedores de serviços subjacentes. O Google destacou cinco princípios orientadores que moldaram o design do protocolo:

  1. Abrace as Capacidades do Agente: O A2A prioriza permitir que os agentes colaborem naturalmente, mesmo sem compartilhar memória, ferramentas ou contexto. O objetivo é permitir cenários multiagentes verdadeiros, não simplesmente limitar os agentes a atuarem como ‘ferramentas’.
  2. Construa sobre os Padrões Existentes: O protocolo aproveita padrões existentes e amplamente adotados, incluindo HTTP, SSE e JSON-RPC, simplificando a integração com as pilhas de TI existentes.
  3. Seguro por Padrão: O A2A foi projetado para suportar autenticação e autorização de nível empresarial, comparável aos esquemas de autenticação do OpenAPI.
  4. Suporte a Tarefas de Longa Duração: A flexibilidade do A2A permite que ele suporte uma ampla gama de cenários, desde tarefas rápidas até pesquisas aprofundadas que podem levar horas ou até dias (especialmente quando o envolvimento humano é necessário). Ao longo do processo, o A2A pode fornecer aos usuários feedback em tempo real, notificações e atualizações de status.
  5. Agnóstico à Modalidade: Reconhecendo que o mundo dos agentes se estende além do texto, o A2A suporta várias modalidades, incluindo fluxos de áudio e vídeo.

O Google forneceu um exemplo de como o A2A simplifica o processo de contratação.

Em uma interface unificada como o Agentspace, um gerente de contratação pode atribuir um agente para identificar candidatos adequados com base nos requisitos do trabalho. Este agente pode interagir com agentes especializados para obter candidatos. Os usuários também podem instruir os agentes a agendar entrevistas e contratar outros agentes especializados para auxiliar nas verificações de antecedentes, permitindo um recrutamento totalmente automatizado e inteligente em todos os sistemas.

Apoiando o Protocolo de Contexto do Modelo (MCP)

O Google também está abraçando o MCP. Pouco depois de a OpenAI anunciar sua adoção do Protocolo de Contexto do Modelo (MCP) da Anthropic, o Google seguiu o exemplo.

Demis Hassabis, CEO do Google DeepMind, anunciou no X (anteriormente Twitter) que o Google adicionaria suporte para MCP em seus modelos e SDKs Gemini, embora não tenha fornecido um cronograma específico.

Hassabis afirmou que ‘O MCP é um excelente protocolo que está rapidamente se tornando um padrão aberto para a era dos agentes de IA. Estamos ansiosos para trabalhar com a equipe do MCP e outros parceiros do setor para promover essa tecnologia.’

Desde seu lançamento em novembro de 2024, o MCP ganhou força significativa como uma maneira simples e padronizada de conectar modelos de linguagem com ferramentas e dados.

O MCP permite que modelos de IA acessem dados de ferramentas e softwares corporativos para concluir tarefas e acessar bibliotecas de conteúdo e ambientes de desenvolvimento de aplicativos. O protocolo permite que os desenvolvedores estabeleçam conexões bidirecionais entre fontes de dados e aplicativos alimentados por IA, como chatbots.

Os desenvolvedores podem expor interfaces de dados por meio de servidores MCP e construir clientes MCP (como aplicativos e fluxos de trabalho) para se conectar a esses servidores. Desde que a Anthropic abriu o código do MCP, várias empresas integraram o suporte ao MCP em suas plataformas.

Ironwood: O Amanhecer de uma Nova Era na IA

O Ironwood TPU do Google representa um avanço significativo na computação de IA. Seu desempenho sem precedentes, arquitetura otimizada e suporte para protocolos emergentes como A2A e MCP o posicionam como um facilitador chave da próxima onda de inovação em IA. À medida que os modelos de IA se tornam mais complexos e exigentes, o Ironwood fornece o poder bruto e a flexibilidade necessários para desbloquear novas possibilidades e transformar indústrias em todo o mundo. Não é apenas um novo chip; é uma base para um futuro alimentado por máquinas inteligentes trabalhando colaborativamente para resolver problemas complexos e melhorar nossas vidas.