Google의 새로운 TPU Ironwood, 최고 슈퍼컴퓨터보다 24배 빠른 성능, 에이전트 간 프로토콜 (A2A) 도입
Google의 7세대 Tensor Processing Unit (TPU)인 Ironwood가 공개되면서 인공지능 (AI) 처리 환경이 크게 변화했습니다. 이 최첨단 AI 가속기는 대규모 배포에서 세계에서 가장 빠른 슈퍼컴퓨터보다 24배 이상 뛰어난 계산 능력을 자랑합니다.
Google Cloud Next ‘25 컨퍼런스에서 공개된 이 새로운 칩은 AI 칩 개발에 대한 Google의 10년 전략에서 중요한 순간을 나타냅니다. AI 학습 및 추론 워크로드 모두를 위해 설계된 이전 제품과 달리 Ironwood는 추론을 위해 특별히 설계되어 AI 배포 효율성을 최적화하는 전략적 전환을 나타냅니다.
Google의 머신 러닝, 시스템 및 클라우드 AI 부사장 겸 총괄 관리자인 Amin Vahdat는 이러한 전환을 강조하며 ‘Ironwood는 차세대 생성 AI와 엄청난 컴퓨팅 및 통신 수요를 지원하도록 설계되었습니다. 이것이 우리가 ‘추론 시대’라고 부르는 것으로, AI 에이전트가 데이터를 단순히 처리하는 대신 통찰력과 답변을 공동으로 제공하기 위해 데이터를 사전에 검색하고 생성합니다.’라고 말했습니다.
42.5 Exaflops 컴퓨팅 능력으로 장벽을 허물다
Ironwood의 기술 사양은 정말 인상적입니다. 9,216개의 칩 포드로 확장하면 무려 42.5 exaflops의 AI 컴퓨팅 능력을 제공합니다. 이를 감안할 때 1.7 exaflops로 작동하는 현재 세계에서 가장 빠른 슈퍼컴퓨터인 El Capitan을 능가합니다. 각 Ironwood 칩은 4614 TFLOPs의 최대 컴퓨팅 능력을 달성할 수 있습니다.
원시 처리 능력 외에도 Ironwood는 메모리 및 대역폭을 크게 향상시킵니다. 각 칩에는 작년에 출시된 이전 세대 TPU인 Trillium에 비해 6배 증가한 192GB의 고대역폭 메모리 (HBM)가 장착되어 있습니다. 칩당 메모리 대역폭은 7.2 terabits/s에 도달하여 Trillium의 4.5배입니다.
- 컴퓨팅 능력: 42.5 exaflops (9,216개 칩 포드당)
- 칩당 최대 컴퓨팅: 4614 TFLOPs
- 메모리: 칩당 192GB HBM
- 메모리 대역폭: 칩당 7.2 terabits/s
데이터 센터가 확장되고 전력 소비가 점점 더 큰 문제가 되는 시대에 Ironwood는 에너지 효율성에서도 상당한 개선을 보여줍니다. Trillium에 비해 와트당 성능이 2배 향상되었고 2018년에 도입된 첫 번째 TPU에 비해 거의 30배 향상되었습니다.
추론을 위한 이러한 최적화는 AI 진화의 중요한 전환점을 의미합니다. 최근 몇 년 동안 주요 AI 연구소는 매개변수 수가 계속 증가하는 점점 더 큰 기초 모델을 개발하는 데 집중해 왔습니다. 추론 최적화에 대한 Google의 초점은 배포 효율성 및 추론 기능에 중점을 둔 새로운 패러다임을 향한 움직임을 시사합니다.
모델 학습은 여전히 필수적이지만 AI 기술이 더욱 보편화됨에 따라 추론 작업은 매일 수십억 번 더 자주 발생합니다. AI를 활용하는 기업의 경우 모델이 더 복잡해짐에 따라 경제성은 본질적으로 추론 비용과 관련됩니다.
Google의 AI 컴퓨팅 수요는 지난 8년 동안 10배 증가하여 1억 건에 달했습니다. Ironwood와 같은 특수 아키텍처가 없으면 무어의 법칙의 전통적인 발전을 통해서는 이러한 성장 궤적을 유지할 수 없습니다.
특히 Google의 발표는 단순한 패턴 인식이 아닌 복잡한 추론 작업을 실행할 수 있는 ‘추론 모델’에 중점을 두었습니다. 이는 AI의 미래가 더 큰 모델뿐만 아니라 문제를 해결하고 다단계 추론을 수행하며 인간과 유사한 사고 과정을 에뮬레이션할 수 있는 모델에도 있다는 믿음을 시사합니다.
차세대 대규모 모델 강화
Google은 Ironwood를 ‘기본 추론 능력’을 자랑하는 자체 Gemini 2.5를 포함하여 가장 진보된 AI 모델을 위한 기본 인프라로 포지셔닝합니다.
또한 Google은 최근 ‘프롬프트의 복잡성에 따라 추론 깊이를 조정’하도록 설계된 플래그십 모델의 더 작은 버전인 Gemini 2.5 Flash를 도입했습니다. 이 모델은 빠른 응답 시간이 필요한 일상적인 애플리케이션에 적합합니다.
Google은 또한 텍스트-이미지, 텍스트-비디오 및 새로 공개된 텍스트-음악 기능인 Lyria를 포함하는 포괄적인 멀티모달 생성 모델 스위트를 선보였습니다. 데모에서는 이러한 도구를 결합하여 콘서트 홍보 비디오를 만드는 방법을 보여주었습니다.
Ironwood는 Google의 광범위한 AI 인프라 전략의 한 구성 요소일 뿐입니다. 또한 Google은 기업이 Google의 글로벌 규모 사설 네트워크 인프라에 액세스할 수 있도록 하는 관리형 광역 네트워크 서비스인 Cloud WAN을 발표했습니다.
Google은 또한 Google DeepMind에서 개발한 머신 러닝 런타임인 Pathways를 포함하여 AI 워크로드를 위한 소프트웨어 제품을 확장하고 있습니다. 이제 Pathways를 통해 고객은 수백 개의 TPU에서 모델 서비스를 확장할 수 있습니다.
A2A 소개: 지능형 에이전트 협업 생태계 육성
하드웨어 발전 외에도 Google은 멀티 에이전트 시스템을 중심으로 AI에 대한 비전을 제시하여 지능형 에이전트 개발을 촉진하는 프로토콜인 Agent-to-Agent (A2A)를 공개했습니다. 이 프로토콜은 서로 다른 AI 에이전트 간의 안전하고 표준화된 통신을 촉진하도록 설계되었습니다.
Google은 2025년이 생성 AI의 적용이 단일 질문에 답변하는 것에서 지능형 에이전트 시스템을 통해 복잡한 문제를 해결하는 방향으로 진화하면서 AI에 혁신적인 해가 될 것이라고 믿습니다.
A2A 프로토콜은 플랫폼과 프레임워크 간의 상호 운용성을 가능하게 하여 에이전트에 공통 ‘언어’와 안전한 통신 채널을 제공합니다. 이 프로토콜은 복잡한 워크플로에서 에이전트 협업을 단순화하는 것을 목표로 하는 지능형 에이전트의 네트워크 계층으로 볼 수 있습니다. 이를 통해 전문화된 AI 에이전트가 다양한 복잡성과 기간의 작업에서 함께 작업하여 협업을 통해 전반적인 기능을 향상시킬 수 있습니다.
A2A 작동 방식
Google은 블로그 게시물에서 MCP와 A2A 프로토콜 간의 비교를 제공했습니다.
- MCP (모델 컨텍스트 프로토콜): 도구 및 리소스 관리를 위한 프로토콜
- 구조화된 입력/출력을 통해 에이전트를 도구, API 및 리소스에 연결합니다.
- Google ADK는 MCP 도구를 지원하여 다양한 MCP 서버가 에이전트와 함께 작동할 수 있도록 합니다.
- A2A (Agent2Agent 프로토콜): 에이전트 간 협업을 위한 프로토콜
- 메모리, 리소스 또는 도구를 공유하지 않고 에이전트 간의 동적 멀티모달 통신을 가능하게 합니다.
- 커뮤니티가 주도하는 오픈 스탠더드입니다.
- 예제는 Google ADK, LangGraph 및 Crew.AI와 같은 도구를 사용하여 볼 수 있습니다.
본질적으로 A2A와 MCP는 상호 보완적입니다. MCP는 에이전트에 도구 지원을 제공하고 A2A는 이러한 장착된 에이전트가 서로 통신하고 협업할 수 있도록 합니다.
Google에서 발표한 파트너 목록은 A2A가 MCP와 유사한 관심을 받을 준비가 되었음을 시사합니다. 이 이니셔티브는 이미 주요 기술 회사와 최고의 글로벌 컨설팅 및 시스템 통합 서비스 제공업체를 포함하여 50개 이상의 회사를 초기 협력 코호트에 유치했습니다.
Google은 프로토콜의 개방성을 강조하여 기본 기술 프레임워크 또는 서비스 제공업체와 관계없이 에이전트가 협업할 수 있는 표준 방법으로 자리매김했습니다. 회사는 파트너와 함께 프로토콜을 설계할 때 다음과 같은 5가지 핵심 원칙을 준수했다고 밝혔습니다.
- 에이전트 기능 수용: A2A는 에이전트가 메모리, 도구 및 컨텍스트를 공유하지 않더라도 자연스럽고 구조화되지 않은 방식으로 협업할 수 있도록 하는 데 중점을 둡니다. 목표는 에이전트를 단순한 ‘도구’로 제한하지 않고 진정한 멀티 에이전트 시나리오를 가능하게 하는 것입니다.
- 기존 표준 기반: 이 프로토콜은 HTTP, SSE 및 JSON-RPC를 포함한 기존의 널리 사용되는 표준을 기반으로 구축되어 기업에서 사용하는 기존 IT 스택과 더 쉽게 통합할 수 있습니다.
- 기본적으로 안전: A2A는 출시 시 OpenAPI의 인증 체계와 비교할 수 있는 엔터프라이즈급 인증 및 권한 부여를 지원하도록 설계되었습니다.
- 장기 실행 작업 지원: A2A는 빠른 작업에서 몇 시간 또는 며칠 (사람이 관련된 경우)이 걸릴 수 있는 심층 연구에 이르기까지 광범위한 시나리오를 지원할 수 있도록 유연하게 설계되었습니다. 전체 프로세스에서 A2A는 사용자에게 실시간 피드백, 알림 및 상태 업데이트를 제공할 수 있습니다.
- 모달리티에 구애받지 않음: 에이전트의 세계는 텍스트에만 국한되지 않으므로 A2A는 오디오 및 비디오 스트림을 포함한 다양한 모달리티를 지원하도록 설계되었습니다.
예: A2A를 통한 간소화된 채용 프로세스
Google에서 제공한 예는 A2A가 채용 프로세스를 얼마나 간소화할 수 있는지 보여줍니다.
Agentspace와 같은 통합 인터페이스 내에서 채용 관리자는 직무 요구 사항에 따라 적합한 후보자를 찾도록 에이전트를 지정할 수 있습니다. 이 에이전트는 특정 분야의 전문 에이전트와 상호 작용하여 후보자 소싱을 완료할 수 있습니다. 사용자는 에이전트에게 인터뷰 일정을 예약하고 다른 전문 에이전트가 배경 조사에 도움을 줄 수 있도록 지시하여 완전 자동화된 교차 시스템 협업 채용을 가능하게 할 수도 있습니다.
MCP 수용: 모델 컨텍스트 프로토콜 생태계 가입
동시에 Google은 MCP도 수용하고 있습니다. OpenAI가 Anthropic의 모델 컨텍스트 프로토콜 (MCP) 채택을 발표한 지 몇 주 후 Google도 이 이니셔티브에 참여했습니다.
Google DeepMind CEO Demis Hassabis는 Google이 특정 타임라인은 제공되지 않았지만 Gemini 모델 및 SDK에 대한 MCP 지원을 추가할 것이라고 X에서 발표했습니다.
Hassabis는 ‘MCP는 AI 에이전트 시대의 개방형 표준으로 빠르게 자리 잡고 있는 훌륭한 프로토콜입니다. MCP 팀 및 업계의 다른 파트너와 협력하여 이 기술 개발을 발전시키기를 기대합니다.’라고 말했습니다.
2024년 11월에 출시된 이후 MCP는 빠르게 인기를 얻고 널리 주목을 받아 언어 모델을 도구 및 데이터에 연결하는 간단하고 표준화된 방법으로 부상했습니다.
MCP를 통해 AI 모델은 기업 도구 및 소프트웨어와 같은 데이터 소스에서 데이터를 액세스하여 작업을 완료하고 콘텐츠 라이브러리 및 애플리케이션 개발 환경에 액세스할 수 있습니다. 이 프로토콜을 통해 개발자는 데이터 소스와 챗봇과 같은 AI 기반 애플리케이션 간에 양방향 연결을 설정할 수 있습니다.
개발자는 MCP 서버를 통해 데이터 인터페이스를 노출하고 이러한 서버에 연결하기 위해 MCP 클라이언트 (예: 애플리케이션 및 워크플로)를 구축할 수 있습니다. Anthropic이 MCP를 오픈 소스로 전환한 이후 여러 회사에서 MCP 지원을 플랫폼에 통합했습니다.
주요 개념의 향상된 분석:
Google의 최근 발표의 영향과 중요성을 더욱 명확히 하기 위해 핵심 구성 요소인 Ironwood, A2A 및 MCP에 대해 자세히 살펴보겠습니다.
Ironwood: 추론 시대에 대한 심층 분석
모델 학습에 주로 집중하는 것에서 추론에 최적화하는 것으로의 전환은 AI 환경에서 중요한 진화입니다. 학습에는 모델이 패턴을 인식하고 예측을 수행하도록 가르치기 위해 방대한 양의 데이터를 모델에 공급하는 것이 포함됩니다. 반면에 추론은 학습된 모델을 사용하여 새롭고 보이지 않는 데이터에 대한 예측을 수행하는 프로세스입니다.
학습은 리소스 집약적이고 일회성 (또는 드문) 이벤트인 반면 추론은 실제 애플리케이션에서 지속적으로 대규모로 발생합니다. 다음과 같은 애플리케이션을 고려해 보십시오.
- 챗봇: 사용자 쿼리에 실시간으로 응답합니다.
- 추천 시스템: 사용자 기본 설정을 기반으로 제품 또는 콘텐츠를 제안합니다.
- 사기 탐지: 사기 거래가 발생할 때 식별합니다.
- 이미지 인식: 이미지 분석을 통해 객체, 사람 또는 장면을 식별합니다.
이러한 애플리케이션은 원활한 사용자 경험을 제공하기 위해 빠르고 효율적인 추론이 필요합니다. Ironwood는 이러한 작업을 특별히 수행하도록 설계되었습니다.
추론을 위한 Ironwood의 주요 장점:
- 높은 처리량: 엄청난 컴퓨팅 능력 (42.5 exaflops)을 통해 Ironwood는 많은 양의 추론 요청을 동시에 처리할 수 있습니다.
- 낮은 대기 시간: 고대역폭 메모리 (HBM)와 효율적인 아키텍처는 각 추론 요청을 처리하는 데 걸리는 시간을 최소화합니다.
- 에너지 효율성: 와트당 향상된 성능은 대규모 추론 배포 실행과 관련된 운영 비용을 줄입니다.
추론에 최적화함으로써 Google은 기업이 AI 기반 애플리케이션을 보다 효율적이고 비용 효율적으로 배포할 수 있도록 지원합니다.
A2A: 협업 AI를 위한 기반
Agent-to-Agent (A2A) 프로토콜은 보다 정교하고 협업적인 AI 시스템을 만드는 데 중요한 단계입니다. 멀티 에이전트 시스템에서 여러 AI 에이전트가 함께 협력하여 복잡한 문제를 해결합니다. 각 에이전트는 고유한 전문 기술과 지식을 가질 수 있으며 공통 목표를 달성하기 위해 서로 통신하고 조정합니다.
자동화된 고객 지원과 관련된 시나리오를 고려해 보십시오.
- 에이전트 1: 고객의 초기 쿼리를 이해하고 기본 문제를 식별합니다.
- 에이전트 2: 관련 정보를 찾기 위해 지식 기반에 액세스합니다.
- 에이전트 3: 필요한 경우 인간 에이전트와의 후속 약속을 예약합니다.
이러한 에이전트는 일관된 고객 경험을 제공하기 위해 원활하게 통신하고 정보를 공유할 수 있어야 합니다. A2A는 이러한 유형의 협업을 위한 프레임워크를 제공합니다.
A2A의 주요 이점:
- 상호 운용성: 서로 다른 플랫폼과 프레임워크에서 개발된 에이전트가 서로 통신할 수 있도록 합니다.
- 표준화: 에이전트 통신을 위한 공통 ‘언어’와 프로토콜 세트를 제공합니다.
- 보안: 에이전트 간의 안전한 통신을 보장하여 중요한 데이터를 보호합니다.
- 유연성: 텍스트, 오디오 및 비디오를 포함한 광범위한 통신 모달리티를 지원합니다.
AI 에이전트 간의 협업을 촉진함으로써 A2A는 보다 강력하고 다재다능한 AI 시스템 개발을 가능하게 합니다.
MCP: AI와 데이터 간의 격차 해소
모델 컨텍스트 프로토콜 (MCP)은 AI 모델이 작업을 효과적으로 수행하는 데 필요한 방대한 양의 데이터에 연결하는 문제를 해결합니다. AI 모델은 정확한 예측과 정보에 입각한 결정을 내리기 위해 데이터베이스, API 및 클라우드 서비스와 같은 다양한 소스에서 실시간 데이터에 액세스해야 합니다.
MCP는 AI 모델이 이러한 데이터 소스에 액세스하고 상호 작용할 수 있는 표준화된 방법을 제공합니다. 다음과 같은 프로토콜 세트를 정의합니다.
- 데이터 검색: 사용 가능한 데이터 소스를 식별합니다.
- 데이터 액세스: 데이터 소스에서 데이터를 검색합니다.
- 데이터 변환: AI 모델이 이해할 수 있는 형식으로 데이터를 변환합니다.
데이터 액세스를 위한 표준화된 인터페이스를 제공함으로써 MCP는 AI 모델을 실제 데이터와 통합하는 프로세스를 단순화합니다.
MCP의 주요 장점:
- 간소화된 통합: AI 모델을 데이터 소스에 더 쉽게 연결할 수 있도록 합니다.
- 표준화: 데이터 액세스를 위한 공통 프로토콜 세트를 제공합니다.
- 효율성 향상: 데이터 액세스 및 변환에 필요한 시간과 노력을 줄입니다.
- 정확도 향상: AI 모델이 최신 정보에 액세스할 수 있도록 하여 보다 정확한 예측으로 이어집니다.
AI 모델을 필요한 데이터에 연결함으로써 MCP는 모델이 보다 효과적으로 수행하고 더 큰 가치를 제공할 수 있도록 지원합니다.