TPU Ironwood của Google: Vượt trội 24 lần!

TPU Ironwood của Google Vượt trội Siêu Máy Tính 24 Lần, Giới Thiệu Giao Thức Agent-to-Agent (A2A)

Bối cảnh xử lý trí tuệ nhân tạo (AI) đã thay đổi đáng kể với sự ra mắt của Bộ xử lý Tensor (TPU) thế hệ thứ bảy của Google, được gọi là Ironwood. Bộ tăng tốc AI tiên tiến này tự hào có khả năng tính toán, trong các triển khai quy mô lớn, vượt trội hơn 24 lần so với siêu máy tính nhanh nhất thế giới.

Con chip mới này, được tiết lộ tại hội nghị Google Cloud Next ‘25, đánh dấu một thời điểm quan trọng trong chiến lược kéo dài một thập kỷ của Google trong việc phát triển chip AI. Không giống như các phiên bản tiền nhiệm, được thiết kế chủ yếu cho cả khối lượng công việc huấn luyện và suy luận AI, Ironwood được thiết kế đặc biệt cho suy luận, báo hiệu một sự thay đổi chiến lược hướng tới tối ưu hóa hiệu quả triển khai AI.

Amin Vahdat, Phó Chủ tịch kiêm Tổng Giám đốc Hệ thống Học máy và AI trên Đám mây của Google, nhấn mạnh sự chuyển đổi này, nói rằng: ‘Ironwood được thiết kế để hỗ trợ giai đoạn tiếp theo của AI tạo sinh và nhu cầu tính toán và giao tiếp to lớn của nó. Đây là những gì chúng tôi gọi là ‘Kỷ nguyên Suy luận’, nơi các tác nhân AI sẽ chủ động truy xuất và tạo dữ liệu để cộng tác cung cấp thông tin chi tiết và câu trả lời, thay vì chỉ đơn thuần xử lý dữ liệu.’

Phá vỡ Rào cản với 42,5 Exaflops Sức mạnh Tính toán

Thông số kỹ thuật của Ironwood thực sự rất ấn tượng. Khi mở rộng quy mô thành một pod gồm 9.216 chip, nó cung cấp 42,5 exaflops đáng kinh ngạc cho tính toán AI. Để so sánh, nó làm lu mờ siêu máy tính nhanh nhất thế giới hiện tại, El Capitan, hoạt động ở mức 1,7 exaflops. Mỗi chip Ironwood riêng lẻ có thể đạt được khả năng tính toán tối đa là 4614 TFLOPs.

Ngoài sức mạnh xử lý thô, Ironwood còn tăng cường đáng kể bộ nhớ và băng thông. Mỗi chip được trang bị 192GB bộ nhớ băng thông cao (HBM), tăng gấp sáu lần so với TPU thế hệ trước, Trillium, được phát hành vào năm ngoái. Băng thông bộ nhớ trên mỗi chip đạt 7,2 terabit/s, gấp 4,5 lần so với Trillium.

  • Sức mạnh Tính toán: 42,5 exaflops (mỗi pod gồm 9.216 chip)
  • Tính toán Đỉnh cao trên mỗi Chip: 4614 TFLOPs
  • Bộ nhớ: 192GB HBM trên mỗi chip
  • Băng thông Bộ nhớ: 7,2 terabit/s trên mỗi chip

Trong một kỷ nguyên mà các trung tâm dữ liệu đang mở rộng và mức tiêu thụ điện năng là một mối lo ngại ngày càng tăng, Ironwood cũng chứng minh những cải tiến đáng kể về hiệu quả năng lượng. Nó cung cấp hiệu suất trên mỗi watt gấp đôi so với Trillium và gần gấp 30 lần so với TPU đầu tiên được giới thiệu vào năm 2018.

Việc tối ưu hóa cho suy luận này biểu thị một bước ngoặt quan trọng trong sự phát triển của AI. Trong những năm gần đây, các phòng thí nghiệm AI hàng đầu đã tập trung vào việc phát triển các mô hình nền tảng ngày càng lớn với số lượng tham số ngày càng mở rộng. Việc Google tập trung vào tối ưu hóa suy luận cho thấy một sự di chuyển hướng tới một mô hình mới tập trung vào hiệu quả triển khai và khả năng suy luận.

Mặc dù huấn luyện mô hình vẫn rất cần thiết, nhưng các hoạt động suy luận thường xuyên hơn nhiều, xảy ra hàng tỷ lần mỗi ngày khi các công nghệ AI trở nên phổ biến hơn. Đối với các doanh nghiệp tận dụng AI, nền kinh tế gắn liền với chi phí suy luận khi các mô hình trở nên phức tạp hơn.

Nhu cầu tính toán AI của Google đã tăng gấp mười lần trong tám năm qua, đạt mức đáng kinh ngạc là 100 triệu. Nếu không có các kiến trúc chuyên dụng như Ironwood, sẽ không thể duy trì quỹ đạo tăng trưởng này thông qua những tiến bộ truyền thống trong Định luật Moore.

Đáng chú ý, thông báo của Google nhấn mạnh sự tập trung vào ‘các mô hình lý luận’ có khả năng thực hiện các nhiệm vụ suy luận phức tạp thay vì chỉ nhận dạng mẫu đơn giản. Điều này cho thấy một niềm tin rằng tương lai của AI không chỉ nằm ở các mô hình lớn hơn mà còn ở các mô hình có khả năng phân tích các vấn đề, tham gia vào lý luận đa bước và mô phỏng các quá trình suy nghĩ giống như con người.

Cung cấp Năng lượng cho Các Mô hình Lớn Thế hệ Tiếp theo

Google định vị Ironwood là cơ sở hạ tầng nền tảng cho các mô hình AI tiên tiến nhất của mình, bao gồm cả Gemini 2.5 của riêng mình, tự hào có ‘khả năng lý luận tự nhiên’.

Công ty gần đây cũng đã giới thiệu Gemini 2.5 Flash, một phiên bản nhỏ hơn của mô hình hàng đầu của mình được thiết kế để ‘điều chỉnh độ sâu lý luận dựa trên độ phức tạp của lời nhắc’. Mô hình này hướng đến các ứng dụng hàng ngày đòi hỏi thời gian phản hồi nhanh chóng.

Google tiếp tục giới thiệu bộ mô hình tạo đa phương thức toàn diện của mình, bao gồm văn bản thành hình ảnh, văn bản thành video và khả năng văn bản thành âm nhạc mới được ra mắt, Lyria. Một bản demo minh họa cách các công cụ này có thể được kết hợp để tạo ra một video quảng cáo hoàn chỉnh cho một buổi hòa nhạc.

Ironwood chỉ là một thành phần trong chiến lược cơ sở hạ tầng AI rộng lớn hơn của Google. Công ty cũng đã công bố Cloud WAN, một dịch vụ mạng diện rộng được quản lý, cung cấp cho các doanh nghiệp quyền truy cập vào cơ sở hạ tầng mạng riêng quy mô toàn cầu của Google.

Google cũng đang mở rộng các dịch vụ phần mềm của mình cho khối lượng công việc AI, bao gồm Pathways, một thời gian chạy học máy được phát triển bởi Google DeepMind. Pathways hiện cho phép khách hàng mở rộng quy mô phục vụ mô hình trên hàng trăm TPU.

Giới thiệu A2A: Thúc đẩy một Hệ sinh thái Cộng tác Tác nhân Thông minh

Ngoài những tiến bộ về phần cứng, Google đã trình bày tầm nhìn của mình về AI tập trung vào các hệ thống đa tác nhân, công bố một giao thức để tạo điều kiện phát triển các tác nhân thông minh: Agent-to-Agent (A2A). Giao thức này được thiết kế để thúc đẩy giao tiếp an toàn và tiêu chuẩn hóa giữa các tác nhân AI khác nhau.

Google tin rằng năm 2025 sẽ đánh dấu một năm chuyển đổi đối với AI, với việc ứng dụng AI tạo sinh phát triển từ việc trả lời các câu hỏi đơn lẻ sang giải quyết các vấn đề phức tạp thông qua các hệ thống tác nhân thông minh.

Giao thức A2A cho phép khả năng tương tác trên các nền tảng và khung, cung cấp cho các tác nhân một ‘ngôn ngữ’ chung và các kênh liên lạc an toàn. Giao thức này có thể được xem như lớp mạng cho các tác nhân thông minh, nhằm mục đích đơn giản hóa sự hợp tác của tác nhân trong các quy trình làm việc phức tạp. Nó trao quyền cho các tác nhân AI chuyên biệt làm việc cùng nhau trong các nhiệm vụ có độ phức tạp và thời lượng khác nhau, cuối cùng nâng cao khả năng tổng thể thông qua sự hợp tác.

Cách A2A Hoạt động

Google đã cung cấp một so sánh giữa các giao thức MCP và A2A trong bài đăng trên blog của mình:

  • MCP (Giao thức Bối cảnh Mô hình): Để quản lý công cụ và tài nguyên
    • Kết nối các tác nhân với các công cụ, API và tài nguyên thông qua đầu vào/đầu ra có cấu trúc.
    • Google ADK hỗ trợ các công cụ MCP, cho phép các máy chủ MCP khác nhau hoạt động với các tác nhân.
  • A2A (Giao thức Agent2Agent): Để cộng tác giữa các tác nhân
    • Cho phép giao tiếp đa phương thức động giữa các tác nhân mà không cần chia sẻ bộ nhớ, tài nguyên hoặc công cụ.
    • Một tiêu chuẩn mở được thúc đẩy bởi cộng đồng.
    • Các ví dụ có thể được xem bằng các công cụ như Google ADK, LangGraph và Crew.AI.

Về bản chất, A2A và MCP là bổ sung cho nhau. MCP cung cấp cho các tác nhân hỗ trợ công cụ, trong khi A2A cho phép các tác nhân được trang bị này giao tiếp và cộng tác với nhau.

Danh sách các đối tác được Google công bố cho thấy rằng A2A có khả năng nhận được sự chú ý tương tự như MCP. Sáng kiến này đã thu hút hơn 50 công ty tham gia vào nhóm cộng tác ban đầu, bao gồm các công ty công nghệ hàng đầu và các nhà cung cấp dịch vụ tích hợp hệ thống và tư vấn toàn cầu hàng đầu.

Google nhấn mạnh tính cởi mở của giao thức, định vị nó là phương pháp tiêu chuẩn để các tác nhân cộng tác, độc lập với các khung công nghệ hoặc nhà cung cấp dịch vụ cơ bản. Công ty tuyên bố rằng họ tuân thủ năm nguyên tắc chính sau đây khi thiết kế giao thức với các đối tác của mình:

  1. Nắm bắt Khả năng của Tác nhân: A2A tập trung vào việc cho phép các tác nhân cộng tác theo những cách tự nhiên, phi cấu trúc của họ, ngay cả khi họ không chia sẻ bộ nhớ, công cụ và ngữ cảnh. Mục tiêu là cho phép các kịch bản đa tác nhân thực sự mà không giới hạn các tác nhân chỉ là ‘công cụ’.
  2. Xây dựng dựa trên Các tiêu chuẩn Hiện hành: Giao thức xây dựng dựa trên các tiêu chuẩn phổ biến hiện có, bao gồm HTTP, SSE và JSON-RPC, giúp tích hợp dễ dàng hơn với các ngăn xếp CNTT hiện có được sử dụng bởi các doanh nghiệp.
  3. Bảo mật theo Mặc định: A2A được thiết kế để hỗ trợ xác thực và ủy quyền cấp doanh nghiệp, tương đương với các lược đồ xác thực của OpenAPI khi ra mắt.
  4. Hỗ trợ Các nhiệm vụ Dài hạn: A2A được thiết kế với tính linh hoạt để hỗ trợ một loạt các kịch bản, từ các nhiệm vụ nhanh chóng đến các nghiên cứu chuyên sâu có thể mất hàng giờ hoặc thậm chí hàng ngày (khi có sự tham gia của con người). Trong suốt quá trình, A2A có thể cung cấp cho người dùng phản hồi, thông báo và cập nhật trạng thái theo thời gian thực.
  5. Tính linh hoạt theo Phương thức: Thế giới của các tác nhân không giới hạn ở văn bản, đó là lý do tại sao A2A được thiết kế để hỗ trợ các phương thức khác nhau, bao gồm cả luồng âm thanh và video.

Ví dụ: Quy trình Tuyển dụng Hợp lý hóa thông qua A2A

Một ví dụ do Google cung cấp minh họa cách A2A có thể hợp lý hóa đáng kể quy trình tuyển dụng.

Trong một giao diện thống nhất như Agentspace, người quản lý tuyển dụng có thể chỉ định một tác nhân để tìm ứng viên phù hợp dựa trên yêu cầu công việc. Tác nhân này có thể tương tác với các tác nhân chuyên biệt trong các lĩnh vực cụ thể để hoàn thành việc tìm nguồn ứng viên. Người dùng cũng có thể hướng dẫn tác nhân lên lịch phỏng vấn và cho phép các tác nhân chuyên biệt khác hỗ trợ kiểm tra lý lịch, do đó cho phép tuyển dụng hợp tác, hoàn toàn tự động, trên toàn hệ thống.

Nắm bắt MCP: Tham gia Hệ sinh thái Giao thức Bối cảnh Mô hình

Đồng thời, Google cũng đang nắm bắt MCP. Chỉ vài tuần sau khi OpenAI công bố việc áp dụng Giao thức Bối cảnh Mô hình (MCP) của Anthropic, Google đã làm theo và tham gia sáng kiến này.

Giám đốc điều hành Google DeepMind Demis Hassabis đã thông báo trên X rằng Google sẽ thêm hỗ trợ cho MCP vào các mô hình và SDK Gemini của mình, mặc dù thời gian biểu cụ thể chưa được cung cấp.

Hassabis tuyên bố, ‘MCP là một giao thức tuyệt vời đang nhanh chóng trở thành tiêu chuẩn mở cho kỷ nguyên của các tác nhân AI. Chúng tôi mong muốn được làm việc với nhóm MCP và các đối tác khác trong ngành để thúc đẩy sự phát triển của công nghệ này.’

Kể từ khi phát hành vào tháng 11 năm 2024, MCP đã nhanh chóng trở nên phổ biến và được chú ý rộng rãi, nổi lên như một cách đơn giản và tiêu chuẩn hóa để kết nối các mô hình ngôn ngữ với các công cụ và dữ liệu.

MCP cho phép các mô hình AI truy cập dữ liệu từ các nguồn dữ liệu như các công cụ và phần mềm của doanh nghiệp để hoàn thành các nhiệm vụ và truy cập các thư viện nội dung và môi trường phát triển ứng dụng. Giao thức cho phép các nhà phát triển thiết lập các kết nối hai chiều giữa các nguồn dữ liệu và các ứng dụng do AI điều khiển, chẳng hạn như chatbot.

Các nhà phát triển có thể hiển thị các giao diện dữ liệu thông qua các máy chủ MCP và xây dựng các máy khách MCP (chẳng hạn như các ứng dụng và quy trình làm việc) để kết nối với các máy chủ này. Kể từ khi Anthropic mở nguồn MCP, một số công ty đã tích hợp hỗ trợ MCP vào nền tảng của họ.

Phân tích Nâng cao về Các Khái niệm Chính:

Để làm rõ hơn tác động và tầm quan trọng của các thông báo gần đây của Google, chúng ta hãy đi sâu hơn vào các thành phần cốt lõi: Ironwood, A2A và MCP.

Ironwood: Đi sâu vào Kỷ nguyên Suy luận

Sự thay đổi từ việc tập trung chủ yếu vào việc huấn luyện các mô hình sang tối ưu hóa cho suy luận là một sự phát triển quan trọng trong bối cảnh AI. Huấn luyện bao gồm việc cung cấp một lượng lớn dữ liệu cho một mô hình để dạy nó nhận ra các mẫu và đưa ra các dự đoán. Mặt khác, suy luận là quá trình sử dụng một mô hình đã được huấn luyện để đưa ra các dự đoán trên dữ liệu mới, chưa từng thấy.

Trong khi huấn luyện là một sự kiện tốn nhiều tài nguyên, một lần (hoặc không thường xuyên), suy luận xảy ra liên tục và ở quy mô lớn trong các ứng dụng thực tế. Hãy xem xét các ứng dụng như:

  • Chatbot: Trả lời các truy vấn của người dùng trong thời gian thực.
  • Hệ thống Đề xuất: Đề xuất sản phẩm hoặc nội dung dựa trên sở thích của người dùng.
  • Phát hiện Gian lận: Xác định các giao dịch gian lận khi chúng xảy ra.
  • Nhận dạng Hình ảnh: Phân tích hình ảnh để xác định đối tượng, người hoặc cảnh.

Các ứng dụng này yêu cầu suy luận nhanh chóng, hiệu quả để mang lại trải nghiệm người dùng liền mạch. Ironwood được thiết kế đặc biệt để vượt trội trong các nhiệm vụ này.

Ưu điểm Chính của Ironwood cho Suy luận:

  • Thông lượng Cao: Sức mạnh tính toán lớn (42,5 exaflops) cho phép Ironwood xử lý một lượng lớn các yêu cầu suy luận đồng thời.
  • Độ trễ Thấp: Bộ nhớ băng thông cao (HBM) và kiến trúc hiệu quả giảm thiểu thời gian cần thiết để xử lý từng yêu cầu suy luận.
  • Hiệu quả Năng lượng: Hiệu suất trên mỗi watt được cải thiện làm giảm chi phí vận hành liên quan đến việc chạy các triển khai suy luận quy mô lớn.

Bằng cách tối ưu hóa cho suy luận, Google đang cho phép các doanh nghiệp triển khai các ứng dụng do AI cung cấp một cách hiệu quả và tiết kiệm chi phí hơn.

A2A: Nền tảng cho AI Cộng tác

Giao thức Agent-to-Agent (A2A) đại diện cho một bước tiến quan trọng hướng tới việc tạo ra các hệ thống AI tinh vi và hợp tác hơn. Trong một hệ thống đa tác nhân, nhiều tác nhân AI làm việc cùng nhau để giải quyết một vấn đề phức tạp. Mỗi tác nhân có thể có các kỹ năng và kiến thức chuyên môn của riêng mình và chúng giao tiếp và phối hợp với nhau để đạt được một mục tiêu chung.

Hãy xem xét một kịch bản liên quan đến hỗ trợ khách hàng tự động:

  • Tác nhân 1: Hiểu truy vấn ban đầu của khách hàng và xác định vấn đề cơ bản.
  • Tác nhân 2: Truy cập cơ sở kiến thức để tìm thông tin liên quan.
  • Tác nhân 3: Lên lịch một cuộc hẹn theo dõi với một tác nhân là con người nếu cần thiết.

Các tác nhân này cần có khả năng giao tiếp và chia sẻ thông tin liền mạch để mang lại trải nghiệm khách hàng gắn kết. A2A cung cấp khuôn khổ cho loại cộng tác này.

Lợi ích Chính của A2A:

  • Khả năng tương tác: Cho phép các tác nhân được phát triển trên các nền tảng và khung khác nhau giao tiếp với nhau.
  • Tiêu chuẩn hóa: Cung cấp một ‘ngôn ngữ’ chung và một tập hợp các giao thức cho giao tiếp giữa các tác nhân.
  • Bảo mật: Đảm bảo giao tiếp an toàn giữa các tác nhân, bảo vệ dữ liệu nhạy cảm.
  • Tính linh hoạt: Hỗ trợ một loạt các phương thức giao tiếp, bao gồm văn bản, âm thanh và video.

Bằng cách thúc đẩy sự hợp tác giữa các tác nhân AI, A2A cho phép phát triển các hệ thống AI mạnh mẽ và linh hoạt hơn.

MCP: Thu hẹp Khoảng cách giữa AI và Dữ liệu

Giao thức Bối cảnh Mô hình (MCP) giải quyết thách thức kết nối các mô hình AI với lượng lớn dữ liệu cần thiết để thực hiện các nhiệm vụ của chúng một cách hiệu quả. Các mô hình AI cần truy cập vào dữ liệu thời gian thực từ nhiều nguồn khác nhau, chẳng hạn như cơ sở dữ liệu, API và dịch vụ đám mây, để đưa ra các dự đoán chính xác và các quyết định sáng suốt.

MCP cung cấp một cách tiêu chuẩn hóa để các mô hình AI truy cập và tương tác với các nguồn dữ liệu này. Nó xác định một tập hợp các giao thức cho:

  • Khám phá Dữ liệu: Xác định các nguồn dữ liệu có sẵn.
  • Truy cập Dữ liệu: Truy xuất dữ liệu từ các nguồn dữ liệu.
  • Chuyển đổi Dữ liệu: Chuyển đổi dữ liệu thành một định dạng mà mô hình AI có thể hiểu được.

Bằng cách cung cấp một giao diện tiêu chuẩn hóa để truy cập dữ liệu, MCP đơn giản hóa quá trình tích hợp các mô hình AI với dữ liệu thực tế.

Ưu điểm Chính của MCP:

  • Tích hợp Đơn giản: Giúp kết nối các mô hình AI với các nguồn dữ liệu dễ dàng hơn.
  • Tiêu chuẩn hóa: Cung cấp một tập hợp các giao thức chung để truy cập dữ liệu.
  • Tăng cường Hiệu quả: Giảm thời gian và công sức cần thiết để truy cập và chuyển đổi dữ liệu.
  • Cải thiện Độ chính xác: Cho phép các mô hình AI truy cập thông tin cập nhật nhất, dẫn đến các dự đoán chính xác hơn.

Bằng cách kết nối các mô hình AI với dữ liệu họ cần, MCP cho phép họ thực hiện hiệu quả hơn và mang lại giá trị lớn hơn.