Google Ironwood TPU: Bước nhảy lượng tử AI

Sự phát triển của trí tuệ nhân tạo (AI) không ngừng tiến triển, với những tiến bộ trong phần cứng đóng vai trò then chốt trong việc mở ra những khả năng mới. Google, một công ty tiên phong trong lĩnh vực đổi mới AI, gần đây đã công bố Bộ xử lý Tensor (TPU) thế hệ thứ bảy của mình, có mật danh là Ironwood, đánh dấu một bước tiến đáng kể về khả năng tính toán AI. Bộ tăng tốc AI tiên tiến này tự hào có sức mạnh tính toán vượt trội hơn cả siêu máy tính nhanh nhất thế giới với hệ số đáng kinh ngạc là 24 trong các triển khai quy mô lớn.

Được công bố tại hội nghị Google Cloud Next ‘25, Ironwood đại diện cho một sự thay đổi chiến lược trong hành trình phát triển chip AI kéo dài một thập kỷ của Google. Không giống như những người tiền nhiệm, vốn được thiết kế chủ yếu cho khối lượng công việc đào tạo và suy luận AI, Ironwood được thiết kế đặc biệt để vượt trội trong các tác vụ suy luận, báo hiệu một kỷ nguyên mới của các ứng dụng dựa trên AI.

Theo Amin Vahdat, Phó Chủ tịch kiêm Tổng Giám đốc phụ trách Học máy, Hệ thống và AI Đám mây tại Google, ‘Ironwood được thiết kế để hỗ trợ giai đoạn tiếp theo của AI tạo sinh và các yêu cầu tính toán và giao tiếp khổng lồ của nó. Đây là những gì chúng tôi gọi là ‘Kỷ nguyên Suy luận’, nơi các tác nhân AI sẽ chủ động truy xuất và tạo dữ liệu để cộng tác cung cấp thông tin chi tiết và câu trả lời, không chỉ dữ liệu.’

Khám phá những khả năng chưa từng có của Ironwood

Thông số kỹ thuật của Ironwood là không có gì đáng ngạc nhiên. Khi được mở rộng quy mô thành một nhóm gồm 9.216 chip, nó có thể cung cấp sức mạnh tính toán AI đáng kinh ngạc là 42,5 exaflop. Con số này làm lu mờ 1,7 exaflop do El Capitan cung cấp, chủ nhân hiện tại của danh hiệu siêu máy tính nhanh nhất thế giới. Mỗi chip Ironwood riêng lẻ tự hào có công suất tính toán tối đa là 4.614 TFLOP.

Ngoài sức mạnh xử lý đơn thuần, Ironwood còn có những cải tiến đáng kể về bộ nhớ và băng thông. Mỗi chip được trang bị 192GB bộ nhớ băng thông cao (HBM), tăng gấp sáu lần so với TPU thế hệ trước, Trillium, được phát hành vào năm ngoái. Hơn nữa, băng thông bộ nhớ trên mỗi chip đạt 7,2 terabit/s, thể hiện sự cải thiện gấp 4,5 lần so với Trillium.

Trong một kỷ nguyên mà các trung tâm dữ liệu đang mở rộng và tiêu thụ điện năng đang trở thành một mối quan tâm quan trọng, Ironwood cũng nổi bật về hiệu quả năng lượng. Hiệu suất trên mỗi watt của nó gấp đôi so với Trillium và cao hơn gần 30 lần so với TPU đầu tiên được giới thiệu vào năm 2018.

Việc nhấn mạnh vào tối ưu hóa suy luận biểu thị một sự thay đổi then chốt trong bối cảnh AI. Trong những năm gần đây, các phòng thí nghiệm AI hàng đầu chủ yếu tập trung vào việc xây dựng các mô hình nền tảng ngày càng lớn hơn với số lượng tham số ngày càng tăng. Việc Google tập trung vào tối ưu hóa suy luận cho thấy một sự chuyển đổi sang một giai đoạn mới tập trung vào hiệu quả triển khai và khả năng suy luận.

Mặc dù đào tạo mô hình vẫn rất quan trọng, nhưng số lượng lần lặp lại đào tạo là hữu hạn. Ngược lại, khi các công nghệ AI ngày càng được tích hợp vào nhiều ứng dụng khác nhau, các hoạt động suy luận dự kiến ​​sẽ xảy ra hàng tỷ lần mỗi ngày. Khi các mô hình phát triển về độ phức tạp, khả năng tồn tại về mặt kinh tế của các ứng dụng này sẽ gắn liền với chi phí suy luận.

Trong tám năm qua, nhu cầu về tính toán AI của Google đã tăng gấp mười lần, đạt mức đáng kinh ngạc là 100 triệu. Nếu không có các kiến ​​trúc chuyên dụng như Ironwood, ngay cả sự tiến bộ không ngừng của Định luật Moore cũng sẽ khó theo kịp sự tăng trưởng theo cấp số nhân này.

Đáng chú ý, thông báo của Google nhấn mạnh sự tập trung của họ vào ‘các mô hình tinh thần’ có khả năng thực hiện các tác vụ suy luận phức tạp hơn là nhận dạng mẫu đơn giản. Điều này cho thấy rằng Google hình dung một tương lai nơi AI mở rộng ra ngoài các mô hình lớn hơn và bao gồm các mô hình có thể phân tích các vấn đề, thực hiện suy luận đa bước và mô phỏng các quá trình tư duy giống như con người.

Cung cấp sức mạnh cho thế hệ mô hình lớn tiếp theo

Google định vị Ironwood là cơ sở hạ tầng nền tảng cho các mô hình AI tiên tiến nhất của mình, bao gồm Gemini 2.5, tự hào có các khả năng suy luận được tích hợp sẵn.

Google cũng gần đây đã giới thiệu Gemini 2.5 Flash, một biến thể nhỏ hơn của mô hình hàng đầu của mình được thiết kế cho các ứng dụng hàng ngày, nhạy cảm với độ trễ. Gemini 2.5 Flash có thể điều chỉnh động độ sâu suy luận của nó dựa trên độ phức tạp của lời nhắc.

Google cũng giới thiệu bộ mô hình tạo sinh đa phương thức toàn diện của mình, bao gồm văn bản thành hình ảnh, văn bản thành video và tính năng văn bản thành âm nhạc mới được giới thiệu, Lyria. Một bản demo minh họa cách các công cụ này có thể được kết hợp để tạo ra một video quảng cáo hoàn chỉnh cho một buổi hòa nhạc.

Ironwood chỉ là một thành phần trong chiến lược cơ sở hạ tầng AI rộng lớn hơn của Google. Google cũng đã công bố Cloud WAN, một dịch vụ mạng diện rộng được quản lý cho phép các doanh nghiệp truy cập cơ sở hạ tầng mạng riêng quy mô toàn cầu của Google.

Hơn nữa, Google đang mở rộng các dịch vụ phần mềm của mình cho khối lượng công việc AI, bao gồm Pathways, một thời gian chạy học máy do Google DeepMind phát triển. Pathways hiện cho phép khách hàng mở rộng quy mô phục vụ mô hình trên hàng trăm TPU.

Thúc đẩy cộng tác đại lý AI với A2A

Ngoài những tiến bộ về phần cứng, Google cũng đã vạch ra tầm nhìn của mình về một hệ sinh thái AI tập trung vào các hệ thống đa tác nhân. Để tạo điều kiện phát triển các tác nhân thông minh, Google đã giới thiệu giao thức Agent-to-Agent (A2A), được thiết kế để cho phép giao tiếp an toàn và tiêu chuẩn giữa các tác nhân AI khác nhau.

Google tin rằng năm 2025 sẽ đánh dấu một năm mang tính chuyển đổi đối với AI, với các ứng dụng AI tạo sinh phát triển từ việc trả lời các câu hỏi đơn lẻ đến giải quyết các vấn đề phức tạp thông qua các hệ thống tác nhân.

Giao thức A2A cho phép khả năng tương tác giữa các tác nhân trên các nền tảng và khung khác nhau, cung cấp cho họ một ‘ngôn ngữ’ chung và các kênh liên lạc an toàn. Giao thức này có thể được xem như một lớp mạng cho các tác nhân thông minh, nhằm mục đích đơn giản hóa sự cộng tác của tác nhân trong các quy trình làm việc phức tạp. Bằng cách cho phép các tác nhân AI chuyên biệt làm việc cùng nhau trong các tác vụ có độ phức tạp và thời gian khác nhau, A2A tìm cách nâng cao khả năng tổng thể thông qua sự cộng tác.

A2A hoạt động bằng cách thiết lập một cách tiêu chuẩn để các tác nhân trao đổi thông tin và phối hợp hành động, mà không yêu cầu họ chia sẻ mã hoặc cấu trúc dữ liệu cơ bản. Điều này cho phép tạo ra các hệ thống AI mô-đun và linh hoạt hơn, nơi các tác nhân có thể dễ dàng được thêm, xóa hoặc cấu hình lại khi cần thiết.

Google đã đưa ra so sánh giữa các giao thức MCP và A2A trong một bài đăng trên blog.

  • MCP (Model Context Protocol) được thiết kế để quản lý công cụ và tài nguyên.
    • Nó kết nối các tác nhân với các công cụ, API và tài nguyên thông qua đầu vào/đầu ra có cấu trúc.
    • Google ADK hỗ trợ các công cụ MCP, cho phép nhiều máy chủ MCP khác nhau hoạt động với các tác nhân.
  • A2A (Agent2Agent Protocol) được thiết kế để cộng tác giữa các tác nhân.
    • Nó cho phép giao tiếp đa phương thức, động giữa các tác nhân mà không cần chia sẻ bộ nhớ, tài nguyên hoặc công cụ.
    • Đây là một tiêu chuẩn mở do cộng đồng thúc đẩy.
    • Các ví dụ có thể được xem bằng Google ADK, LangGraph, Crew.AI và các công cụ khác.

Về bản chất, A2A và MCP là bổ sung cho nhau: MCP cung cấp cho các tác nhân hỗ trợ công cụ, trong khi A2A cho phép các tác nhân được trang bị công cụ này giao tiếp và cộng tác với nhau.

Đánh giá theo các đối tác ban đầu, A2A dường như sẵn sàng thu hút sự chú ý tương tự như MCP. Hơn 50 công ty đã tham gia hợp tác ban đầu, bao gồm các công ty công nghệ hàng đầu và các nhà cung cấp dịch vụ tích hợp hệ thống và tư vấn toàn cầu hàng đầu.

Google nhấn mạnh tính cởi mở của giao thức, định vị nó như một cách tiêu chuẩn để các tác nhân cộng tác, bất kể khung công nghệ hoặc nhà cung cấp dịch vụ cơ bản. Google đã vạch ra năm nguyên tắc chính hướng dẫn việc thiết kế giao thức khi hợp tác với các đối tác của mình:

  1. Nắm bắt khả năng của đại lý: A2A tập trung vào việc cho phép các đại lý cộng tác theo cách tự nhiên, phi cấu trúc của họ, ngay cả khi họ không chia sẻ bộ nhớ, công cụ và ngữ cảnh. Giao thức nhằm mục đích cho phép các tình huống đa đại lý thực sự, thay vì hạn chế các đại lý chỉ là ‘công cụ’.
  2. Xây dựng trên các tiêu chuẩn hiện có: Giao thức xây dựng trên các tiêu chuẩn phổ biến hiện có, bao gồm HTTP, SSE và JSON-RPC, giúp dễ dàng tích hợp với các ngăn xếp CNTT hiện có thường được các doanh nghiệp sử dụng.
  3. Bảo mật theo mặc định: A2A được thiết kế để hỗ trợ xác thực và ủy quyền cấp doanh nghiệp, tương đương với các lược đồ xác thực của OpenAPI khi ra mắt.
  4. Hỗ trợ các tác vụ chạy dài: A2A được thiết kế linh hoạt, hỗ trợ nhiều tình huống khác nhau, từ các tác vụ nhanh chóng đến nghiên cứu chuyên sâu có thể mất hàng giờ hoặc thậm chí hàng ngày (khi có sự tham gia của con người). Trong suốt quá trình, A2A có thể cung cấp cho người dùng phản hồi, thông báo và cập nhật trạng thái theo thời gian thực.
  5. Khả năng chống phương thức: Thế giới của các đại lý không giới hạn ở văn bản, đó là lý do tại sao A2A được thiết kế để hỗ trợ các phương thức khác nhau, bao gồm cả luồng âm thanh và video.

Google cung cấp một ví dụ về cách A2A có thể hợp lý hóa đáng kể quy trình tuyển dụng.

Trong một giao diện thống nhất như Agentspace, người quản lý tuyển dụng có thể chỉ định một tác nhân tìm kiếm các ứng viên phù hợp dựa trên các yêu cầu công việc. Tác nhân này có thể tương tác với các tác nhân chuyên biệt để tìm nguồn ứng viên, lên lịch phỏng vấn và thậm chí thu hút các tác nhân chuyên biệt khác để hỗ trợ kiểm tra lý lịch, cho phép tự động hóa thông minh toàn bộ quy trình tuyển dụng trên các hệ thống khác nhau.

Nắm bắt Giao thức ngữ cảnh mô hình (MCP)

Ngoài những nỗ lực phát triển A2A, Google cũng đang nắm bắt Giao thức ngữ cảnh mô hình (MCP). Chỉ vài tuần sau khi OpenAI công bố việc áp dụng MCP, Google đã làm theo.

Demis Hassabis, Giám đốc điều hành của Google DeepMind, gần đây đã thông báo trên X rằng Google sẽ thêm hỗ trợ cho MCP vào các mô hình và SDK Gemini của mình. Tuy nhiên, ông không đưa ra mốc thời gian cụ thể.

Hassabis tuyên bố rằng ‘MCP là một giao thức tuyệt vời đang nhanh chóng trở thành tiêu chuẩn mở cho kỷ nguyên đại lý AI. Tôi mong được làm việc với nhóm MCP và các đối tác khác trong ngành để nâng cao công nghệ này.’

Kể từ khi phát hành vào tháng 11 năm 2024, MCP đã nhanh chóng đạt được sức hút, trở thành một cách đơn giản và tiêu chuẩn để kết nối các mô hình ngôn ngữ với các công cụ và dữ liệu.

MCP cho phép các mô hình AI truy cập dữ liệu từ các nguồn như công cụ và phần mềm doanh nghiệp để hoàn thành các tác vụ, cũng như truy cập các thư viện nội dung và môi trường phát triển ứng dụng. Giao thức này cho phép các nhà phát triển thiết lập các kết nối hai chiều giữa các nguồn dữ liệu và các ứng dụng được hỗ trợ bởi AI, chẳng hạn như chatbot.

Các nhà phát triển có thể hiển thị các giao diện dữ liệu thông qua các máy chủ MCP và xây dựng các máy khách MCP (chẳng hạn như ứng dụng và quy trình làm việc) để kết nối với các máy chủ này. Kể từ khi Anthropic mở nguồn MCP, nhiều công ty đã tích hợp hỗ trợ MCP vào nền tảng của họ.