Google Ironwood TPU: AI 컴퓨팅 능력의 비약적 발전
인공지능(AI) 환경은 끊임없이 진화하고 있으며, 하드웨어의 발전은 새로운 가능성을 여는 데 중요한 역할을 합니다. AI 혁신의 선두주자인 Google은 최근 7세대 Tensor Processing Unit(TPU)인 코드명 Ironwood를 공개하여 AI 컴퓨팅 능력에서 괄목할 만한 진전을 이루었습니다. 이 최첨단 AI 가속기는 대규모 배포에서 세계에서 가장 빠른 슈퍼컴퓨터보다 무려 24배나 뛰어넘는 컴퓨팅 능력을 자랑합니다.
Google Cloud Next ‘25 컨퍼런스에서 발표된 Ironwood는 Google의 10년간 AI 칩 개발 여정에서 전략적 전환을 의미합니다. 주로 AI 학습 및 추론 워크로드를 위해 설계된 이전 제품과 달리 Ironwood는 추론 작업에서 탁월한 성능을 발휘하도록 특별히 설계되어 AI 기반 애플리케이션의 새로운 시대를 예고합니다.
Google의 머신 러닝, 시스템 및 클라우드 AI 담당 부사장 겸 총괄 관리자인 Amin Vahdat은 ‘Ironwood는 차세대 생성형 AI와 그 막대한 컴퓨팅 및 통신 요구 사항을 지원하도록 설계되었습니다. 이는 AI 에이전트가 단순히 데이터가 아닌 통찰력과 답변을 공동으로 제공하기 위해 데이터를 적극적으로 검색하고 생성하는 ‘추론 시대’라고 부릅니다.’라고 말했습니다.
Ironwood의 전례 없는 기능 공개
Ironwood의 기술 사양은 매우 뛰어납니다. 9,216개의 칩으로 구성된 포드로 확장하면 놀라운 42.5 엑사플롭스의 AI 컴퓨팅 능력을 제공할 수 있습니다. 이 수치는 현재 세계에서 가장 빠른 슈퍼컴퓨터 타이틀을 보유한 El Capitan이 제공하는 1.7 엑사플롭스를 훨씬 능가합니다. 각 Ironwood 칩은 최대 4,614 TFLOPs의 컴퓨팅 용량을 자랑합니다.
Ironwood는 막대한 처리 능력 외에도 메모리 및 대역폭에서도 상당한 개선을 보였습니다. 각 칩에는 이전 세대 TPU인 Trillium(작년에 출시됨)에 비해 6배 증가한 192GB의 고대역폭 메모리(HBM)가 장착되어 있습니다. 또한 칩당 메모리 대역폭은 7.2 테라비트/s에 달하여 Trillium보다 4.5배 향상되었습니다.
데이터 센터가 확장되고 전력 소비가 중요한 문제가 되는 시대에 Ironwood는 에너지 효율성에서도 두각을 나타냅니다. 와트당 성능은 Trillium의 두 배이며 2018년에 도입된 첫 번째 TPU보다 거의 30배 더 높습니다.
추론 최적화에 대한 강조는 AI 환경의 중요한 변화를 의미합니다. 최근 몇 년 동안 주요 AI 연구소는 주로 매개변수 수가 증가하는 더 큰 기반 모델을 구축하는 데 집중했습니다. Google의 추론 최적화에 대한 집중은 배포 효율성 및 추론 기능에 초점을 맞춘 새로운 단계로의 전환을 시사합니다.
모델 학습은 여전히 중요하지만 학습 반복 횟수는 유한합니다. 반면 AI 기술이 다양한 애플리케이션에 점점 더 많이 통합됨에 따라 추론 작업은 매일 수십억 번 발생할 것으로 예상됩니다. 모델이 복잡해짐에 따라 이러한 애플리케이션의 경제적 타당성은 추론 비용과 불가분의 관계가 됩니다.
지난 8년 동안 Google의 AI 컴퓨팅 수요는 10배 증가하여 놀라운 1억에 도달했습니다. Ironwood와 같은 특수 아키텍처가 없었다면 무어의 법칙의 끊임없는 발전조차도 이러한 기하급수적인 성장을 따라잡기 어려웠을 것입니다.
특히 Google의 발표는 단순한 패턴 인식이 아닌 복잡한 추론 작업을 수행할 수 있는 ‘정신 모델’에 대한 초점을 강조합니다. 이는 Google이 더 큰 모델을 넘어 문제를 분해하고 다단계 추론을 수행하며 인간과 유사한 사고 과정을 모방할 수 있는 모델을 포함하는 미래를 구상하고 있음을 시사합니다.
차세대 대규모 모델 지원
Google은 Ironwood를 기본적으로 추론 기능을 내장한 Gemini 2.5를 포함하여 가장 진보된 AI 모델을 위한 기반 인프라로 자리매김하고 있습니다.
Google은 또한 최근 지연 시간에 민감한 일상적인 애플리케이션을 위해 설계된 플래그십 모델의 더 작은 변형인 Gemini 2.5 Flash를 출시했습니다. Gemini 2.5 Flash는 프롬프트의 복잡성에 따라 추론 깊이를 동적으로 조정할 수 있습니다.
Google은 또한 텍스트-이미지, 텍스트-비디오, 새로 공개된 텍스트-음악 기능인 Lyria를 포함한 포괄적인 멀티모달 생성 모델 제품군을 선보였습니다. 데모에서는 이러한 도구를 결합하여 콘서트를 위한 완벽한 홍보 비디오를 제작할 수 있는 방법을 보여주었습니다.
Ironwood는 Google의 광범위한 AI 인프라 전략의 한 구성 요소일 뿐입니다. Google은 또한 기업이 Google의 글로벌 규모의 사설 네트워크 인프라에 액세스할 수 있도록 지원하는 관리형 광역 네트워크 서비스인 Cloud WAN을 발표했습니다.
또한 Google은 Google DeepMind에서 개발한 머신 러닝 런타임인 Pathways를 포함하여 AI 워크로드를 위한 소프트웨어 제품을 확장하고 있습니다. 이제 Pathways를 통해 고객은 수백 개의 TPU에서 모델 서비스를 확장할 수 있습니다.
A2A로 AI 에이전트 협업 육성
하드웨어 발전 외에도 Google은 또한 멀티 에이전트 시스템을 중심으로 하는 AI 생태계에 대한 비전을 제시했습니다. 지능형 에이전트 개발을 촉진하기 위해 Google은 서로 다른 AI 에이전트 간의 안전하고 표준화된 통신을 지원하도록 설계된 Agent-to-Agent(A2A) 프로토콜을 도입했습니다.
Google은 생성형 AI 애플리케이션이 단일 질문에 답변하는 것에서 에이전트 시스템을 통해 복잡한 문제를 해결하는 것으로 진화하면서 2025년이 AI에 혁신적인 해가 될 것이라고 믿습니다.
A2A 프로토콜은 서로 다른 플랫폼과 프레임워크에서 에이전트 간의 상호 운용성을 지원하여 공통 ‘언어’와 안전한 통신 채널을 제공합니다. 이 프로토콜은 지능형 에이전트를 위한 네트워크 레이어로 볼 수 있으며 복잡한 워크플로에서 에이전트 협업을 단순화하는 것을 목표로 합니다. A2A는 전문화된 AI 에이전트가 다양한 복잡성과 기간의 작업에서 협력할 수 있도록 지원함으로써 협업을 통해 전반적인 기능을 향상시키고자 합니다.
A2A는 에이전트가 기본 코드 또는 데이터 구조를 공유하지 않고도 정보를 교환하고 작업을 조정하는 표준화된 방법을 설정하여 작동합니다. 이를 통해 필요에 따라 에이전트를 쉽게 추가, 제거 또는 재구성할 수 있는 보다 모듈화되고 유연한 AI 시스템을 만들 수 있습니다.
Google은 블로그 게시물에서 MCP와 A2A 프로토콜 간의 비교를 제시했습니다.
- **MCP(모델 컨텍스트 프로토콜)**는 도구 및 리소스 관리를 위해 설계되었습니다.
- 구조화된 입력/출력을 통해 에이전트를 도구, API 및 리소스에 연결합니다.
- Google ADK는 MCP 도구를 지원하여 다양한 MCP 서버가 에이전트와 함께 작동할 수 있도록 합니다.
- **A2A(Agent2Agent 프로토콜)**는 에이전트 간의 협업을 위해 설계되었습니다.
- 메모리, 리소스 또는 도구를 공유하지 않고 에이전트 간의 동적 멀티모달 통신을 지원합니다.
- 커뮤니티에서 추진하는 개방형 표준입니다.
- Google ADK, LangGraph, Crew.AI 및 기타 도구를 사용하여 예제를 볼 수 있습니다.
본질적으로 A2A와 MCP는 상호 보완적입니다. MCP는 에이전트에 도구 지원을 제공하는 반면 A2A는 이러한 도구를 갖춘 에이전트가 서로 통신하고 협업할 수 있도록 합니다.
초기 파트너를 판단할 때 A2A는 MCP와 유사한 관심을 받을 것으로 예상됩니다. 주요 기술 회사와 최고의 글로벌 컨설팅 및 시스템 통합 서비스 제공업체를 포함하여 50개 이상의 회사가 초기 협업에 참여했습니다.
Google은 프로토콜의 개방성을 강조하면서 기본 기술 프레임워크 또는 서비스 제공업체에 관계없이 에이전트가 협업할 수 있는 표준 방식으로 자리매김하고 있습니다. Google은 파트너와의 협력을 통해 프로토콜 설계를 안내한 5가지 주요 원칙을 제시했습니다.
- 에이전트 기능 수용: A2A는 에이전트가 메모리, 도구 및 컨텍스트를 공유하지 않더라도 자연스럽고 구조화되지 않은 방식으로 협업할 수 있도록 지원하는 데 중점을 둡니다. 이 프로토콜은 에이전트를 단순한 ‘도구’로 제한하는 대신 진정한 멀티 에이전트 시나리오를 지원하는 것을 목표로 합니다.
- 기존 표준 기반 구축: 이 프로토콜은 HTTP, SSE 및 JSON-RPC를 포함한 기존의 인기 있는 표준을 기반으로 구축되어 기업에서 일반적으로 사용하는 기존 IT 스택과 더 쉽게 통합할 수 있습니다.
- 기본적으로 안전: A2A는 출시 시 OpenAPI의 인증 체계와 비교할 수 있는 엔터프라이즈급 인증 및 권한 부여를 지원하도록 설계되었습니다.
- 장기 실행 작업 지원: A2A는 빠른 작업에서 몇 시간 또는 며칠(사람이 참여하는 경우)이 걸릴 수 있는 심층 연구에 이르기까지 광범위한 시나리오를 지원할 수 있도록 유연하게 설계되었습니다. 전체 프로세스 동안 A2A는 사용자에게 실시간 피드백, 알림 및 상태 업데이트를 제공할 수 있습니다.
- 양식 불가지론적: 에이전트 세계는 텍스트에만 국한되지 않으므로 A2A는 오디오 및 비디오 스트림을 포함한 다양한 양식을 지원하도록 설계되었습니다.
Google은 A2A가 채용 프로세스를 어떻게 크게 간소화할 수 있는지에 대한 예를 제공합니다.
Agentspace와 같은 통합 인터페이스에서 채용 관리자는 작업 요구 사항에 따라 적합한 후보자를 찾도록 에이전트를 할당할 수 있습니다. 이 에이전트는 전문화된 에이전트와 상호 작용하여 후보자를 소싱하고, 인터뷰를 예약하고, 배경 조사에 도움을 줄 수 있는 다른 전문화된 에이전트를 참여시켜 서로 다른 시스템에서 전체 채용 프로세스를 지능적으로 자동화할 수 있습니다.
모델 컨텍스트 프로토콜(MCP) 수용
A2A 개발 노력 외에도 Google은 모델 컨텍스트 프로토콜(MCP)도 수용하고 있습니다. OpenAI가 MCP 채택을 발표한 지 몇 주 후 Google도 따랐습니다.
Google DeepMind의 CEO인 Demis Hassabis는 최근 X에서 Google이 Gemini 모델 및 SDK에 MCP 지원을 추가할 것이라고 발표했습니다. 그러나 그는 구체적인 타임라인을 제공하지 않았습니다.
Hassabis는 ‘MCP는 AI 에이전트 시대를 위한 개방형 표준으로 빠르게 자리 잡고 있는 훌륭한 프로토콜입니다. MCP 팀 및 업계의 다른 파트너와 협력하여 이 기술을 발전시키기를 기대합니다.’라고 말했습니다.
2024년 11월 출시 이후 MCP는 언어 모델을 도구 및 데이터에 연결하는 간단하고 표준화된 방법으로 빠르게 인기를 얻고 있습니다.
MCP를 통해 AI 모델은 엔터프라이즈 도구 및 소프트웨어와 같은 소스의 데이터에 액세스하여 작업을 완료하고 콘텐츠 라이브러리 및 애플리케이션 개발 환경에 액세스할 수 있습니다. 이 프로토콜을 통해 개발자는 데이터 소스와 챗봇과 같은 AI 기반 애플리케이션 간에 양방향 연결을 설정할 수 있습니다.
개발자는 MCP 서버를 통해 데이터 인터페이스를 노출하고 이러한 서버에 연결하기 위해 MCP 클라이언트(예: 애플리케이션 및 워크플로)를 구축할 수 있습니다. Anthropic이 MCP를 오픈 소스로 제공한 이후 여러 회사가 MCP 지원을 플랫폼에 통합했습니다.