Giao thức Agent2Agent của Google: Phân tích sâu | vi

Thế giới Trí tuệ Nhân tạo (Artificial Intelligence) đang phát triển nhanh chóng, với AI Agent nổi lên như một thành phần then chốt. Một AI Agent về cơ bản kết hợp sức mạnh nhận thức của một Mô hình Ngôn ngữ Lớn (LLM) với một bộ công cụ cho phép nó thực hiện các lệnh, truy xuất thông tin và hoàn thành các tác vụ một cách tự động. Các agent này phản hồi các yêu cầu từ người dùng hoặc tương tác với các agent khác. Tiềm năng của AI agent nằm ở khả năng mở rộng quy mô hoạt động, tự động hóa các quy trình phức tạp và nâng cao hiệu quả trên nhiều chức năng kinh doanh khác nhau, giúp tăng đáng kể năng suất cá nhân.

Có một sự đồng thuận rằng một agent ‘một kích thước phù hợp với tất cả’ không thể xử lý hiệu quả các tác vụ đa dạng và phức tạp mà AI agent được kỳ vọng. Giải pháp nằm ở Quy trình làm việc Agentic. Chúng được tạo ra bởi các mạng lưới AI Agent tự trị có thể đưa ra quyết định, thực hiện các hành động và điều phối các tác vụ với sự giám sát tối thiểu của con người.

Tầm nhìn của Google về Khả năng Tương tác giữa các Agent: Giao thức Agent2Agent (A2A)

Google đã giới thiệu giao thức Agent2Agent (A2A) vào ngày 9 tháng 4 năm 2025. Nó được thiết kế để tạo điều kiện giao tiếp liền mạch giữa các AI agent, cho phép họ trao đổi dữ liệu một cách an toàn và tự động hóa các quy trình làm việc kinh doanh phức tạp. Điều này đạt được thông qua tương tác với các hệ thống doanh nghiệp và các nền tảng của bên thứ ba.

Giao thức A2A là kết quả của sự hợp tác giữa Google và hơn 50 đối tác trong ngành, tất cả đều chia sẻ một tầm nhìn chung về tương lai của sự hợp tác giữa các AI Agent. Điều quan trọng là, sự hợp tác này vượt qua các công nghệ cụ thể và được xây dựng trên các tiêu chuẩn mở và an toàn.

Các Nguyên tắc Thiết kế Cốt lõi của A2A

Trong quá trình phát triển giao thức A2A, Google và các đối tác của mình đã được hướng dẫn bởi một số nguyên tắc cơ bản:

Mở và Không phụ thuộc vào Nhà cung cấp: Giao thức A2A phải mở, có nghĩa là các thông số kỹ thuật của nó có thể truy cập công khai. Điều này đảm bảo rằng bất kỳ nhà phát triển hoặc tổ chức nào cũng có thể triển khai giao thức mà không có các hạn chế độc quyền. Không phụ thuộc vào nhà cung cấp có nghĩa là giao thức không bị ràng buộc với công nghệ của bất kỳ nhà cung cấp cụ thể nào. Điều này thúc đẩy một sân chơi bình đẳng cho tất cả những người tham gia.
Phương thức Tự nhiên cho Sự hợp tác: A2A cho phép các agent cộng tác bằng cách sử dụng các phương pháp giao tiếp vốn có, phi cấu trúc của chúng. Điều này phân biệt các agent với các công cụ và phân biệt A2A với Giao thức Ngữ cảnh Mô hình (MCP).
Được xây dựng trên các Tiêu chuẩn Hiện có: Để đơn giản hóa việc tích hợp với các cơ sở hạ tầng CNTT hiện có, giao thức được xây dựng trên các tiêu chuẩn đã được thiết lập như HTTP, Server-Sent Events (SSE) và JSON-RPC.
Bảo mật theo Mặc định: Bảo mật là một mối quan tâm hàng đầu. A2A kết hợp các cơ chế xác thực và ủy quyền cấp doanh nghiệp để bảo vệ dữ liệu nhạy cảm và đảm bảo các tương tác an toàn.
Không phụ thuộc vào Phương thức Dữ liệu: A2A không giới hạn trong giao tiếp dựa trên văn bản. Nó có thể xử lý nhiều loại dữ liệu khác nhau, bao gồm hình ảnh, âm thanh và video.

Các Chức năng của A2A: Trao quyền cho Sự hợp tác giữa các Agent

A2A cung cấp một loạt các chức năng tích hợp để hợp lý hóa các tương tác giữa các agent:

Khám phá Khả năng: Điều này cho phép các agent quảng cáo khả năng của họ. Khách hàng có thể dễ dàng xác định agent nào phù hợp nhất cho một tác vụ cụ thể. Hãy nghĩ về nó như một thị trường kỹ thuật số nơi các agent trưng bày các kỹ năng và chuyên môn của họ.
Quản lý Tác vụ và Trạng thái: Giao tiếp giữa khách hàng và agent xoay quanh việc thực hiện Tác vụ. Các tác vụ này được xác định bởi giao thức và có một vòng đời được xác định rõ. Kết quả của một tác vụ được gọi là một Artifact. Việc quản lý cả tác vụ và trạng thái của chúng đảm bảo một quy trình làm việc đáng tin cậy và có thể theo dõi.
Hợp tác An toàn: Các agent có thể trao đổi thông điệp một cách an toàn để chia sẻ ngữ cảnh, cung cấp phản hồi, cung cấp artifact hoặc chuyển tiếp hướng dẫn của người dùng. Điều này tạo điều kiện cho một môi trường hợp tác nơi các agent có thể làm việc cùng nhau một cách liền mạch.
Đàm phán Trải nghiệm Người dùng: Mọi thông điệp đều bao gồm ‘các phần’, là các phần nội dung khép kín, chẳng hạn như một hình ảnh được tạo. Mỗi phần có một loại nội dung được chỉ định, cho phép cả khách hàng và agent từ xa đồng ý về định dạng cần thiết. Tính năng này cũng bao gồm việc đàm phán các khả năng giao diện người dùng của người dùng, chẳng hạn như iframe, video và biểu mẫu web.

Các tính năng Khám phá Khả năng và Đàm phán Trải nghiệm Người dùng đặc biệt hấp dẫn vì chúng mở đường cho việc tạo ra các Thị trường Agent. Trong các thị trường này, các nhà cung cấp có thể liệt kê các agent của họ và khách hàng có thể chọn agent phù hợp nhất để thực hiện các tác vụ cụ thể.

Mặc dù khái niệm này cực kỳ hứa hẹn và có khả năng cần thiết cho sự tăng trưởng của thị trường AI Agent, nhưng việc hiện thực hóa tầm nhìn này đòi hỏi nhiều hơn là chỉ xác định một giao thức tương tác.

Giải mã các Khái niệm về Giao thức Agent2Agent

Hiểu các khái niệm cốt lõi làm nền tảng cho giao thức là rất quan trọng để triển khai và sử dụng hiệu quả. Các khái niệm này sẽ quen thuộc với nhiều nhà phát triển AI Agent:

Thẻ Agent: Đây là một tệp siêu dữ liệu công khai trình bày chi tiết khả năng, kỹ năng, URL điểm cuối và yêu cầu xác thực của agent. Thẻ Agent đóng một vai trò quan trọng trong giai đoạn khám phá, cho phép người dùng chọn agent phù hợp và hiểu cách tương tác với nó.
Máy chủ: Một agent triển khai các phương thức giao thức A2A, như được xác định trong đặc tả JSON. Về cơ bản, Máy chủ là agent cung cấp các dịch vụ của mình thông qua giao thức A2A.
Khách hàng: Đây có thể là một ứng dụng hoặc một agent khác tiêu thụ các dịch vụ A2A. Khách hàng khởi tạo các yêu cầu và sử dụng các khả năng do Máy chủ cung cấp.
Tác vụ: Đơn vị công việc cơ bản cho Agent. Được Khách hàng khởi tạo và được Máy chủ thực hiện, nó tiến triển qua các trạng thái khác nhau trong suốt vòng đời của nó.
Thông điệp: Đại diện cho các trao đổi giao tiếp giữa Khách hàng và Agent. Mỗi Thông điệp có một vai trò được xác định và bao gồm Các phần.
Phần: Đây là đơn vị nội dung cơ bản trong một Thông điệp hoặc một Artifact. Một phần có thể là văn bản, một tệp hoặc dữ liệu có cấu trúc. Điều này cho phép giao tiếp linh hoạt các loại dữ liệu khác nhau.
Artifact: Đại diện cho các đầu ra được tạo bởi agent trong khi hoàn thành một Tác vụ. Giống như Thông điệp, Artifact chứa Các phần.
Phát trực tuyến: Giao thức hỗ trợ phát trực tuyến, cho phép Máy chủ cập nhật cho Khách hàng về trạng thái của các tác vụ chạy dài trong thời gian thực. Điều này nâng cao trải nghiệm người dùng bằng cách cung cấp phản hồi liên tục.

Tình hình Hiện tại của Dự án Agent2Agent

A2A chỉ mới được giới thiệu ra công chúng gần đây và các thông số kỹ thuật của nó hiện có sẵn trên GitHub. Tính đến thời điểm hiện tại, không có lộ trình chính thức hoặc triển khai sẵn sàng cho sản xuất của giao thức. Tuy nhiên, Google đang tích cực hợp tác với các đối tác để ra mắt phiên bản sẵn sàng cho sản xuất vào cuối năm 2025.

Kho lưu trữ A2A GitHub cung cấp một số ví dụ mã bằng cả TypeScript và Python, cùng với một ứng dụng demo toàn diện. Ứng dụng này giới thiệu sự tương tác giữa các agent được phát triển bằng các Bộ Phát triển Agent (ADK) khác nhau.

Mặc dù điều này cung cấp một nền tảng cho thử nghiệm, A2A phải được tích hợp vào hệ sinh thái hiện có của các khuôn khổ và công cụ được sử dụng để triển khai Quy trình làm việc Agentic trước khi nó có thể được áp dụng trong các ứng dụng quan trọng.

Sự hỗ trợ từ một số lượng lớn các công ty lớn (đáng chú ý là không có công ty nào cung cấp các mô hình nền tảng) làm việc với Google về định nghĩa giao thức cho thấy mạnh mẽ rằng các công cụ cần thiết sẽ sớm có sẵn và A2A sẽ được tích hợp vào các khuôn khổ agent hàng đầu.

A2A so với Giao thức Ngữ cảnh Mô hình (MCP): Hiểu sự Khác biệt

Giao thức Ngữ cảnh Mô hình (MCP), được phát triển bởi Anthropic, cho phép các ứng dụng cung cấp ngữ cảnh cho các Mô hình Ngôn ngữ Lớn. Anthropic mô tả MCP là ‘cổng USB-C cho các ứng dụng AI’, cung cấp một cách tiêu chuẩn để kết nối LLM với các nguồn dữ liệu và công cụ, giống như USB kết nối các thiết bị ngoại vi khác nhau với các thiết bị.

Theo Google, A2A không nhằm mục đích thay thế MCP. Có rất ít sự trùng lặp giữa hai giao thức; chúng giải quyết các vấn đề khác nhau và hoạt động ở các mức độ trừu tượng khác nhau. A2A tạo điều kiện tương tác giữa các Agent, trong khi MCP kết nối các Mô hình Ngôn ngữ Lớn với các công cụ, đến lượt chúng kết nối chúng với các dịch vụ và dữ liệu. Do đó, hai giao thức bổ sung cho nhau.

Agent2Agent và Giao thức Ngữ cảnh Mô hình là hai mảnh ghép cho cùng một câu đố và cả hai sẽ cần thiết để hiện thực hóa tầm nhìn tương lai cho quy trình làm việc agentic và AI phổ biến.

cập nhật lúc 2025-04-19

# Google # Gemini # Agent