Sự phát triển của trí tuệ nhân tạo đã được định hình lại với việc Google ra mắt Bộ xử lý Tensor thế hệ thứ bảy (TPU), được đặt tên là Ironwood. Bộ tăng tốc AI tiên tiến này tự hào có sức mạnh tính toán vượt xa cả những siêu máy tính mạnh nhất thế giới. Trong một triển khai quy mô lớn, khả năng của Ironwood vượt quá khả năng của siêu máy tính nhanh nhất tới 24 lần.
Việc ra mắt Ironwood tại sự kiện Google Cloud Next ‘25 đánh dấu một thời điểm quan trọng trong hành trình kéo dài một thập kỷ của Google về đổi mới chip AI. Trong khi các phiên bản TPU trước đây chủ yếu phục vụ cho khối lượng công việc đào tạo và suy luận của các mô hình AI, Ironwood nổi bật là chip đầu tiên được chế tạo và tối ưu hóa tỉ mỉ cho các tác vụ suy luận.
Theo Amin Vahdat, Phó Chủ tịch kiêm Tổng Giám đốc Học máy, Hệ thống và AI đám mây tại Google, ‘Ironwood được thiết kế để thúc đẩy giai đoạn tiếp theo của AI tạo sinh, giải quyết các nhu cầu tính toán và giao tiếp to lớn của nó. Chúng ta đang bước vào cái mà chúng tôi gọi là ‘Kỷ nguyên Suy luận’, nơi các tác nhân AI sẽ chủ động truy xuất và tạo dữ liệu để cộng tác cung cấp thông tin chi tiết và câu trả lời, vượt qua khả năng chỉ xử lý dữ liệu.’
Giải Phóng Sức Mạnh Tính Toán Chưa Từng Có: Đi Sâu Vào Khả Năng Của Ironwood
Các thông số kỹ thuật của Ironwood giống như một danh sách mong muốn cho các nhà nghiên cứu và phát triển AI. Mở rộng quy mô lên một pod gồm 9.216 chip, Ironwood cung cấp 42,5 exaflop đáng kinh ngạc về khả năng tính toán AI. Để đưa điều này vào quan điểm, nó vượt xa khả năng của nhà vô địch siêu máy tính hiện tại, El Capitan, với đỉnh điểm là 1,7 exaflop. Về mặt cá nhân, mỗi chip Ironwood tự hào có công suất tính toán cực đại là 4614 TFLOP.
Ngoài sức mạnh xử lý thô, Ironwood còn giới thiệu những cải tiến đáng kể về bộ nhớ và băng thông. Mỗi chip được trang bị 192GB Bộ nhớ Băng thông Cao (HBM), tăng gấp sáu lần so với TPU thế hệ trước, Trillium. Băng thông bộ nhớ cũng đã được cải thiện đáng kể, đạt 7,2 terabit/s trên mỗi chip, gấp 4,5 lần so với Trillium.
Trong một kỷ nguyên mà các trung tâm dữ liệu đang mở rộng và mức tiêu thụ điện năng ngày càng trở thành một yếu tố quan trọng, Ironwood thể hiện hiệu quả năng lượng đáng kể. Hiệu suất trên mỗi watt của nó gấp đôi Trillium và gần gấp 30 lần so với TPU ban đầu được giới thiệu vào năm 2018.
Sự thay đổi hướng tới tối ưu hóa suy luận này thể hiện một cột mốc quan trọng trong sự phát triển của AI. Trong những năm gần đây, các phòng thí nghiệm AI hàng đầu đã tập trung vào việc xây dựng các mô hình nền tảng với số lượng tham số ngày càng mở rộng. Việc Google nhấn mạnh vào tối ưu hóa suy luận báo hiệu một sự thay đổi hướng tới ưu tiên hiệu quả triển khai và khả năng suy luận thực tế.
Trong khi đào tạo mô hình AI là một hoạt động tương đối không thường xuyên, các hoạt động suy luận xảy ra hàng tỷ lần mỗi ngày khi các công nghệ AI trở nên phổ biến hơn. Tính khả thi kinh tế của các doanh nghiệp do AI cung cấp có liên quan mật thiết đến chi phí suy luận, đặc biệt khi các mô hình ngày càng trở nên phức tạp.
Trong tám năm qua, nhu cầu của Google về tính toán AI đã tăng theo cấp số nhân, tăng gấp mười lần và đạt mức đáng kinh ngạc là 100 triệu. Nếu không có các kiến trúc chuyên dụng như Ironwood, chỉ riêng Định luật Moore không thể duy trì quỹ đạo tăng trưởng này.
Việc Google nhấn mạnh vào ‘các mô hình lý luận’ có khả năng thực hiện các tác vụ suy luận phức tạp, thay vì chỉ nhận dạng mẫu đơn giản, đặc biệt đáng chú ý. Điều này cho thấy rằng Google hình dung ra một tương lai nơi AI vượt trội không chỉ thông qua các mô hình lớn hơn mà còn thông qua các mô hình có khả năng chia nhỏ các vấn đề, thực hiện suy luận nhiều bước và mô phỏng các quy trình tư duy giống như con người.
Cung Cấp Sức Mạnh Cho Thế Hệ Mô Hình Ngôn Ngữ Lớn Tiếp Theo
Google định vị Ironwood là cơ sở hạ tầng nền tảng cho các mô hình AI tiên tiến nhất của mình, bao gồm Gemini 2.5, vốn tự hào có ‘khả năng lý luận gốc’.
Cùng với Ironwood, Google đã ra mắt Gemini 2.5 Flash, một phiên bản tinh giản của mô hình hàng đầu của mình được thiết kế cho các ứng dụng hàng ngày, nhạy cảm với độ trễ. Gemini 2.5 Flash có thể tự động điều chỉnh độ sâu lý luận của nó dựa trên độ phức tạp của lời nhắc.
Google cũng giới thiệu bộ mô hình tạo sinh đa phương thức của mình, bao gồm chuyển văn bản thành hình ảnh, chuyển văn bản thành video và chức năng chuyển văn bản thành nhạc mới được giới thiệu, Lyria. Một bản demo hấp dẫn đã làm nổi bật cách những công cụ này có thể được kết hợp để tạo ra một video quảng cáo hoàn chỉnh cho một buổi hòa nhạc.
Ironwood chỉ là một thành phần trong chiến lược cơ sở hạ tầng AI toàn diện của Google. Công ty cũng giới thiệu Cloud WAN, một dịch vụ mạng diện rộng được quản lý cho phép các doanh nghiệp khai thác cơ sở hạ tầng mạng riêng quy mô toàn cầu của Google.
Google cũng đang mở rộng các dịch vụ phần mềm của mình cho khối lượng công việc AI, bao gồm Pathways, một thời gian chạy học máy được phát triển bởi Google DeepMind, cho phép khách hàng mở rộng quy mô phục vụ mô hình trên hàng trăm TPU.
Tầm Nhìn Về Trí Thông Minh Cộng Tác: Giới Thiệu Hỗ Trợ A2A và MCP
Ngoài những tiến bộ về phần cứng, Google còn trình bày rõ tầm nhìn của mình về AI tập trung vào các hệ thống đa tác nhân và giới thiệu giao thức Agent-to-Agent (A2A), được thiết kế để thúc đẩy giao tiếp an toàn và tiêu chuẩn giữa các tác nhân AI khác nhau.
Google dự đoán năm 2025 là một năm chuyển đổi đối với AI, với các ứng dụng AI tạo sinh phát triển từ việc trả lời các câu hỏi đơn lẻ sang giải quyết các vấn đề phức tạp thông qua các hệ thống tác nhân được kết nối với nhau.
Giao thức A2A cho phép khả năng tương tác trên các nền tảng và khung, cung cấp cho các tác nhân AI một ‘ngôn ngữ’ chung và các kênh liên lạc an toàn. Hãy nghĩ về nó như một lớp mạng cho các tác nhân AI, đơn giản hóa sự cộng tác trong các quy trình làm việc phức tạp và cho phép các tác nhân AI chuyên biệt cùng nhau giải quyết các nhiệm vụ có độ phức tạp và thời lượng khác nhau, từ đó nâng cao khả năng tổng thể thông qua hợp tác.
Cách A2A Hoạt Động
Google đã cung cấp một cái nhìn tổng quan so sánh về các giao thức MCP và A2A:
- MCP (Giao thức Ngữ cảnh Mô hình): Tập trung vào quản lý công cụ và tài nguyên.
- Kết nối các tác nhân với các công cụ, API và tài nguyên thông qua đầu vào/đầu ra có cấu trúc.
- Google ADK hỗ trợ các công cụ MCP, tạo điều kiện tương tác liền mạch giữa các máy chủ và tác nhân MCP.
- A2A (Giao thức Agent2Agent): Tạo điều kiện cộng tác giữa các tác nhân.
- Cho phép giao tiếp đa phương thức, động giữa các tác nhân mà không yêu cầu bộ nhớ, tài nguyên hoặc công cụ được chia sẻ.
- Đây là một tiêu chuẩn mở do cộng đồng thúc đẩy.
- Các ví dụ có thể được khám phá bằng các công cụ như Google ADK, LangGraph và Crew.AI.
A2A và MCP là bổ sung cho nhau. MCP trang bị cho các tác nhân các công cụ, trong khi A2A trao quyền cho các tác nhân được trang bị này để trò chuyện và cộng tác.
Danh sách đối tác ban đầu của Google cho thấy A2A sẵn sàng nhận được sự chú ý tương tự như MCP. Sáng kiến này đã thu hút hơn 50 tổ chức, bao gồm các công ty công nghệ hàng đầu và các nhà cung cấp tích hợp hệ thống và tư vấn toàn cầu.
Google nhấn mạnh tính mở của giao thức, định vị nó như một tiêu chuẩn cho sự cộng tác giữa các tác nhân vượt qua các khung công nghệ hoặc nhà cung cấp dịch vụ cơ bản. Google đã nêu bật năm nguyên tắc chỉ đạo hình thành thiết kế của giao thức:
- Nắm Bắt Khả Năng Của Tác Nhân: A2A ưu tiên cho phép các tác nhân cộng tác một cách tự nhiên, ngay cả khi không chia sẻ bộ nhớ, công cụ hoặc ngữ cảnh. Mục tiêu là cho phép các kịch bản đa tác nhân thực sự, không chỉ giới hạn các tác nhân hoạt động như ‘công cụ’.
- Xây Dựng Trên Các Tiêu Chuẩn Hiện Có: Giao thức tận dụng các tiêu chuẩn hiện có, được áp dụng rộng rãi, bao gồm HTTP, SSE và JSON-RPC, đơn giản hóa việc tích hợp với các ngăn xếp CNTT hiện có.
- Bảo Mật Theo Mặc Định: A2A được thiết kế để hỗ trợ xác thực và ủy quyền cấp doanh nghiệp, tương đương với các lược đồ xác thực của OpenAPI.
- Hỗ Trợ Các Nhiệm Vụ Dài Hạn: Tính linh hoạt của A2A cho phép nó hỗ trợ một loạt các kịch bản, từ các tác vụ nhanh chóng đến nghiên cứu chuyên sâu có thể mất hàng giờ hoặc thậm chí nhiều ngày (đặc biệt khi cần có sự tham gia của con người). Trong suốt quá trình, A2A có thể cung cấp cho người dùng phản hồi, thông báo và cập nhật trạng thái theo thời gian thực.
- Bất Khả Tri Phương Thức: Nhận thấy rằng thế giới của các tác nhân mở rộng ra ngoài văn bản, A2A hỗ trợ nhiều phương thức khác nhau, bao gồm luồng âm thanh và video.
Google đã cung cấp một ví dụ về cách A2A hợp lý hóa quy trình tuyển dụng.
Trong một giao diện thống nhất như Agentspace, một người quản lý tuyển dụng có thể chỉ định một tác nhân để xác định các ứng cử viên phù hợp dựa trên yêu cầu công việc. Tác nhân này có thể tương tác với các tác nhân chuyên biệt để tìm nguồn ứng viên. Người dùng cũng có thể hướng dẫn các tác nhân lên lịch phỏng vấn và thuê các tác nhân chuyên biệt khác để hỗ trợ kiểm tra lý lịch, cho phép tuyển dụng thông minh và hoàn toàn tự động trên các hệ thống.
Nắm Bắt Giao Thức Ngữ Cảnh Mô Hình (MCP)
Google cũng đang nắm bắt MCP. Ngay sau khi OpenAI công bố việc áp dụng Giao thức Ngữ cảnh Mô hình (MCP) của Anthropic, Google đã làm theo.
Demis Hassabis, Giám đốc điều hành của Google DeepMind, đã thông báo trên X (trước đây là Twitter) rằng Google sẽ thêm hỗ trợ cho MCP trong các mô hình và SDK Gemini của mình, mặc dù ông không cung cấp mốc thời gian cụ thể.
Hassabis tuyên bố rằng ‘MCP là một giao thức tuyệt vời đang nhanh chóng trở thành một tiêu chuẩn mở cho kỷ nguyên của các tác nhân AI. Chúng tôi mong muốn được làm việc với nhóm MCP và các đối tác khác trong ngành để nâng cao công nghệ này.’
Kể từ khi phát hành vào tháng 11 năm 2024, MCP đã đạt được sức hút đáng kể như một cách đơn giản, tiêu chuẩn để kết nối các mô hình ngôn ngữ với các công cụ và dữ liệu.
MCP cho phép các mô hình AI truy cập dữ liệu từ các công cụ và phần mềm doanh nghiệp để hoàn thành các tác vụ và truy cập các thư viện nội dung và môi trường phát triển ứng dụng. Giao thức cho phép các nhà phát triển thiết lập các kết nối hai chiều giữa các nguồn dữ liệu và các ứng dụng do AI cung cấp như chatbot.
Các nhà phát triển có thể hiển thị các giao diện dữ liệu thông qua máy chủ MCP và xây dựng các máy khách MCP (chẳng hạn như các ứng dụng và quy trình làm việc) để kết nối với các máy chủ này. Kể từ khi Anthropic mở nguồn MCP, một số công ty đã tích hợp hỗ trợ MCP vào nền tảng của họ.
Ironwood: Bình Minh Của Một Kỷ Nguyên Mới Trong AI
Ironwood TPU của Google đại diện cho một bước tiến đáng kể trong tính toán AI. Hiệu suất chưa từng có, kiến trúc được tối ưu hóa và hỗ trợ cho các giao thức mới nổi như A2A và MCP định vị nó như một yếu tố then chốt cho làn sóng đổi mới AI tiếp theo. Khi các mô hình AI ngày càng trở nên phức tạp và đòi hỏi khắt khe hơn, Ironwood cung cấp sức mạnh thô và tính linh hoạt cần thiết để mở ra những khả năng mới và chuyển đổi các ngành công nghiệp trên toàn cầu. Nó không chỉ là một con chip mới; nó là nền tảng cho một tương lai được cung cấp bởi các máy thông minh làm việc cộng tác để giải quyết các vấn đề phức tạp và cải thiện cuộc sống của chúng ta.