구글 Ironwood TPU: AI 컴퓨팅 도약

구글 Ironwood TPU: AI 컴퓨팅 능력의 혁신적 도약

인공지능의 지형이 구글의 7세대 텐서 처리 장치(TPU), 즉 Ironwood의 공개로 재정의되었습니다. 이 최첨단 AI 가속기는 세계에서 가장 강력한 슈퍼컴퓨터조차도 왜소하게 만들 정도로 엄청난 계산 능력을 자랑합니다. 대규모 배포에서 Ironwood의 능력은 가장 빠른 슈퍼컴퓨터의 24배를 능가합니다.

Google Cloud Next ‘25 행사에서 Ironwood의 공개는 구글이 10년 동안 AI 칩 혁신을 추구해 온 여정에서 중추적인 순간을 의미합니다. 이전의 TPU 반복은 주로 AI 모델의 훈련 및 추론 워크로드를 처리했지만, Ironwood는 추론 작업을 위해 세심하게 제작되고 최적화된 최초의 칩으로 두드러집니다.

구글의 머신 러닝, 시스템 및 클라우드 AI 담당 부사장 겸 총괄 관리자인 아민 바흐닷(Amin Vahdat)에 따르면, ‘Ironwood는 생성적 AI의 다음 단계를 추진하도록 설계되었으며, 엄청난 컴퓨팅 및 통신 요구 사항을 해결합니다. 우리는 AI 에이전트가 데이터를 적극적으로 검색하고 생성하여 단순한 데이터 처리 능력을 뛰어넘어 협력적으로 통찰력과 답변을 제공하는 ‘추론 시대’에 접어들고 있습니다.’

전례 없는 컴퓨팅 능력 발휘: Ironwood의 기능 심층 분석

Ironwood의 기술 사양은 AI 연구원과 개발자를 위한 위시리스트와 같습니다. 9,216개의 칩으로 확장되는 Ironwood는 무려 42.5 exaflops의 AI 컴퓨팅을 제공합니다. 이를 관점에서 보면 현재 슈퍼컴퓨터 챔피언인 El Capitan의 최대 1.7 exaflops를 훨씬 능가합니다. 개별적으로 각 Ironwood 칩은 4614 TFLOPs의 최대 컴퓨팅 용량을 자랑합니다.

원시 처리 능력 외에도 Ironwood는 메모리 및 대역폭에서 상당한 개선을 도입했습니다. 각 칩에는 이전 세대 TPU인 Trillium에 비해 6배 증가한 192GB의 고대역폭 메모리(HBM)가 장착되어 있습니다. 메모리 대역폭도 칩당 7.2 terabits/s에 도달하여 Trillium의 4.5배로 대폭 향상되었습니다.

데이터 센터가 확장되고 전력 소비가 점점 더 중요한 요소가 되는 시대에 Ironwood는 놀라운 에너지 효율성을 보여줍니다. 와트당 성능은 Trillium의 두 배이며 2018년에 도입된 초기 TPU보다 거의 30배 더 좋습니다.

추론 최적화를 향한 이러한 변화는 AI 진화의 중요한 이정표를 나타냅니다. 최근 몇 년 동안 주요 AI 연구소는 매개변수 수가 계속 증가하는 기초 모델 구축에 집중해 왔습니다. 구글이 추론 최적화를 강조하는 것은 배포 효율성과 실제 추론 기능을 우선시하는 방향으로 전환되었음을 시사합니다.

AI 모델 훈련은 비교적 드문 활동이지만 AI 기술이 더욱 확산됨에 따라 추론 작업은 매일 수십억 번 발생합니다. AI 기반 비즈니스의 경제적 생존 가능성은 특히 모델이 점점 더 복잡해짐에 따라 추론 비용과 본질적으로 연결되어 있습니다.

지난 8년 동안 구글의 AI 컴퓨팅 수요는 기하급수적으로 증가하여 10배 증가하여 무려 1억에 도달했습니다. Ironwood와 같은 특수 아키텍처가 없으면 무어의 법칙만으로는 이러한 성장 궤적을 유지할 수 없습니다.

구글이 단순한 패턴 인식보다는 복잡한 추론 작업을 수행할 수 있는 ‘추론 모델’을 강조하는 것은 특히 주목할 만합니다. 이는 구글이 AI가 더 큰 모델뿐만 아니라 문제를 분석하고 다단계 추론을 수행하며 인간과 유사한 사고 과정을 모방할 수 있는 모델을 통해 뛰어난 능력을 발휘하는 미래를 구상하고 있음을 시사합니다.

차세대 대규모 언어 모델 강화

구글은 Ironwood를 ‘고유한 추론 기능’을 자랑하는 Gemini 2.5를 포함하여 가장 진보된 AI 모델을 위한 기반 인프라로 자리매김했습니다.

Ironwood와 함께 구글은 대기 시간에 민감한 일상적인 애플리케이션을 위해 설계된 플래그십 모델의 간소화된 버전인 Gemini 2.5 Flash를 공개했습니다. Gemini 2.5 Flash는 프롬프트의 복잡성에 따라 추론 깊이를 동적으로 조정할 수 있습니다.

구글은 또한 텍스트-이미지, 텍스트-비디오, 그리고 새로 도입된 텍스트-음악 기능인 Lyria를 포함하는 멀티모달 생성 모델 스위트를 선보였습니다. 설득력 있는 데모는 이러한 도구를 결합하여 콘서트 홍보 비디오를 완성하는 방법을 강조했습니다.

Ironwood는 구글의 포괄적인 AI 인프라 전략의 한 구성 요소일 뿐입니다. 이 회사는 또한 기업이 구글의 글로벌 규모의 사설 네트워크 인프라를 활용할 수 있도록 하는 관리형 광역 네트워크 서비스인 Cloud WAN을 도입했습니다.

구글은 또한 고객이 수백 개의 TPU에서 모델 서비스를 확장할 수 있도록 하는 Google DeepMind에서 개발한 머신 러닝 런타임인 Pathways를 포함하여 AI 워크로드를 위한 소프트웨어 제품을 확장하고 있습니다.

협업 인텔리전스의 비전: A2A 및 MCP 지원 소개

하드웨어 발전 외에도 구글은 멀티 에이전트 시스템을 중심으로 한 AI 비전을 명확히 하고 다양한 AI 에이전트 간의 안전하고 표준화된 통신을 촉진하도록 설계된 Agent-to-Agent(A2A) 프로토콜을 도입했습니다.

구글은 2025년을 단일 질문에 답변하는 것에서 상호 연결된 에이전트 시스템을 통해 복잡한 문제를 해결하는 것으로 발전하는 생성적 AI 애플리케이션을 통해 AI의 혁신적인 해로 예상합니다.

A2A 프로토콜은 플랫폼 및 프레임워크 간의 상호 운용성을 지원하여 AI 에이전트에게 공통 ‘언어’와 안전한 통신 채널을 제공합니다. 복잡한 워크플로에서 협업을 단순화하고 특수 AI 에이전트가 다양한 복잡성과 기간의 작업을 집단적으로 처리하여 협력을 통해 전반적인 기능을 향상시키는 AI 에이전트를 위한 네트워크 레이어라고 생각하십시오.

A2A 작동 방식

구글은 MCP 및 A2A 프로토콜에 대한 비교 개요를 제공했습니다.

  • MCP(모델 컨텍스트 프로토콜): 도구 및 리소스 관리에 중점을 둡니다.
    • 구조화된 입력/출력을 통해 에이전트를 도구, API 및 리소스에 연결합니다.
    • Google ADK는 MCP 도구를 지원하여 MCP 서버와 에이전트 간의 원활한 상호 작용을 촉진합니다.
  • A2A(Agent2Agent 프로토콜): 에이전트 간의 협업을 촉진합니다.
    • 공유 메모리, 리소스 또는 도구가 필요 없이 에이전트 간의 동적 멀티모달 통신을 지원합니다.
    • 커뮤니티에서 추진하는 개방형 표준입니다.
    • 예는 Google ADK, LangGraph 및 Crew.AI와 같은 도구를 사용하여 탐색할 수 있습니다.

A2A와 MCP는 상호 보완적입니다. MCP는 에이전트에 도구를 제공하고 A2A는 이러한 장착된 에이전트가 대화하고 협업할 수 있도록 지원합니다.

구글의 초기 파트너 목록은 A2A가 MCP와 유사한 관심을 받을 준비가 되어 있음을 시사합니다. 이 이니셔티브는 이미 주요 기술 회사와 글로벌 컨설팅 및 시스템 통합 제공업체를 포함하여 50개 이상의 조직을 유치했습니다.

구글은 이 프로토콜의 개방성을 강조하면서 기본 기술 프레임워크나 서비스 제공업체를 초월하는 에이전트 간 협업을 위한 표준으로 자리매김했습니다. 구글은 프로토콜 설계를 형성한 5가지 지침 원칙을 강조했습니다.

  1. 에이전트 기능 활용: A2A는 에이전트가 메모리, 도구 또는 컨텍스트를 공유하지 않고도 자연스럽게 협업할 수 있도록 지원하는 것을 우선시합니다. 목표는 에이전트를 단순히 ‘도구’로 제한하는 것이 아니라 진정한 멀티 에이전트 시나리오를 지원하는 것입니다.
  2. 기존 표준 기반 구축: 이 프로토콜은 기존의 널리 채택된 표준(HTTP, SSE 및 JSON-RPC 포함)을 활용하여 기존 IT 스택과의 통합을 간소화합니다.
  3. 기본적으로 안전: A2A는 OpenAPI의 인증 체계와 유사하게 엔터프라이즈급 인증 및 권한 부여를 지원하도록 설계되었습니다.
  4. 장기 실행 작업 지원: A2A의 유연성을 통해 빠른 작업부터 몇 시간 또는 며칠이 걸릴 수 있는 심층 연구에 이르기까지 광범위한 시나리오를 지원할 수 있습니다(특히 사람의 참여가 필요한 경우). 프로세스 전반에 걸쳐 A2A는 사용자에게 실시간 피드백, 알림 및 상태 업데이트를 제공할 수 있습니다.
  5. 양식에 구애받지 않음: 에이전트의 세계가 텍스트를 넘어 확장된다는 점을 인식하여 A2A는 오디오 및 비디오 스트림을 포함한 다양한 양식을 지원합니다.

구글은 A2A가 채용 프로세스를 간소화하는 방법을 예시로 제시했습니다.

Agentspace와 같은 통합 인터페이스에서 채용 관리자는 작업 요구 사항에 따라 적합한 후보자를 식별하도록 에이전트를 할당할 수 있습니다. 이 에이전트는 특수 에이전트와 상호 작용하여 후보자를 소싱할 수 있습니다. 사용자는 또한 에이전트에게 인터뷰 일정을 잡고 백그라운드 조사를 지원하기 위해 다른 특수 에이전트를 참여시키도록 지시하여 시스템 전반에 걸쳐 완전 자동화되고 지능적인 채용을 가능하게 할 수 있습니다.

모델 컨텍스트 프로토콜(MCP) 수용

구글은 또한 MCP를 수용하고 있습니다. OpenAI가 Anthropic의 모델 컨텍스트 프로토콜(MCP) 채택을 발표한 직후 구글도 뒤따랐습니다.

Google DeepMind의 CEO인 Demis Hassabis는 X(구 트위터)에서 구글이 Gemini 모델 및 SDK에 MCP 지원을 추가할 것이라고 발표했지만 특정 타임라인은 제공하지 않았습니다.

Hassabis는 ‘MCP는 AI 시대의 에이전트를 위한 오픈 표준으로 빠르게 자리매김하고 있는 훌륭한 프로토콜입니다. 우리는 MCP 팀 및 업계의 다른 파트너와 협력하여 이 기술을 발전시키기를 기대합니다.’라고 말했습니다.

2024년 11월 출시 이후 MCP는 언어 모델을 도구 및 데이터에 연결하는 간단하고 표준화된 방법으로 상당한 관심을 받았습니다.

MCP를 통해 AI 모델은 엔터프라이즈 도구 및 소프트웨어의 데이터에 액세스하여 작업을 완료하고 콘텐츠 라이브러리 및 애플리케이션 개발 환경에 액세스할 수 있습니다. 이 프로토콜을 통해 개발자는 데이터 소스와 챗봇과 같은 AI 기반 애플리케이션 간에 양방향 연결을 설정할 수 있습니다.

개발자는 MCP 서버를 통해 데이터 인터페이스를 노출하고 이러한 서버에 연결하기 위해 MCP 클라이언트(예: 애플리케이션 및 워크플로)를 구축할 수 있습니다. Anthropic이 MCP를 오픈 소스로 공개한 이후 여러 회사에서 MCP 지원을 플랫폼에 통합했습니다.

Ironwood: AI의 새로운 시대의 새벽

구글의 Ironwood TPU는 AI 컴퓨팅의 중요한 도약을 나타냅니다. 전례 없는 성능, 최적화된 아키텍처, A2A 및 MCP와 같은 새로운 프로토콜에 대한 지원은 AI 혁신의 다음 물결을 위한 핵심 동력으로 자리매김하고 있습니다. AI 모델이 더욱 복잡해지고 까다로워짐에 따라 Ironwood는 새로운 가능성을 열고 전 세계 산업을 변화시키는 데 필요한 원시적인 힘과 유연성을 제공합니다. 새로운 칩일 뿐만 아니라 복잡한 문제를 해결하고 삶을 개선하기 위해 협력적으로 작업하는 지능형 기계로 구동되는 미래를 위한 기반입니다.