Giao thức Agent2Agent của Google

Google đã công bố giao thức Agent2Agent (A2A), một động thái có khả năng định hình lại bối cảnh trí tuệ nhân tạo. Sáng kiến mã nguồn mở này được thiết kế để thúc đẩy sự cộng tác liền mạch và an toàn giữa các AI agent hoạt động trong các hệ sinh thái đa dạng, giải phóng chúng khỏi những ràng buộc của các framework hoặc nhà cung cấp cụ thể. Giao thức A2A tạo điều kiện cho giao tiếp, khám phá khả năng, đàm phán nhiệm vụ và nỗ lực hợp tác trên các nền tảng, trao quyền cho các doanh nghiệp xây dựng các nhóm AI agent chuyên biệt có khả năng quản lý các quy trình làm việc phức tạp.

Giới thiệu Giao thức Agent2Agent: Một mô hình mới cho sự hợp tác AI

Việc giới thiệu giao thức A2A đánh dấu một thời điểm quan trọng trong quá trình phát triển của AI, giải quyết nhu cầu ngày càng tăng về khả năng tương tác và hợp tác trong một thế giới nơi các AI agent ngày càng được triển khai trên nhiều nền tảng và môi trường khác nhau. Bằng cách thiết lập một framework tiêu chuẩn cho giao tiếp và tương tác giữa các agent, Google đặt mục tiêu khai thác toàn bộ tiềm năng của các hệ thống đa tác tử và thúc đẩy sự đổi mới trong một loạt các ngành công nghiệp.

Giao thức A2A cho phép các AI agent được xây dựng trên các nền tảng khác nhau giao tiếp hiệu quả, khám phá khả năng của nhau, đàm phán nhiệm vụ và cộng tác liền mạch. Khả năng tương tác này trao quyền cho các doanh nghiệp tập hợp các nhóm agent chuyên biệt có thể xử lý các quy trình làm việc phức tạp với hiệu quả và tính linh hoạt cao hơn.

Hãy xem xét ví dụ về một kịch bản tuyển dụng. Sử dụng giao diện thống nhất Google Agentspace, người quản lý tuyển dụng có thể ủy thác các nhiệm vụ cho AI agent của họ, hướng dẫn nó xác định các ứng viên phù hợp với mô tả công việc, địa điểm và yêu cầu kỹ năng được chỉ định. Sau đó, agent tương tác với các agent chuyên biệt khác để xác định vị trí các ứng viên tiềm năng. Người quản lý tuyển dụng nhận được danh sách các đề xuất được tuyển chọn và có thể hướng dẫn agent của họ lên lịch phỏng vấn. Sau khi các cuộc phỏng vấn hoàn tất, một agent khác có thể được tham gia để hỗ trợ kiểm tra lý lịch.

Ví dụ này nêu bật tiềm năng biến đổi của giao thức A2A trong việc hợp lý hóa và tự động hóa các quy trình phức tạp, giải phóng nhân viên để tập trung vào các nhiệm vụ chiến lược và sáng tạo hơn.

Các nguyên tắc thiết kế chính của Giao thức A2A

Giao thức A2A được xây dựng dựa trên năm nguyên tắc thiết kế cốt lõi:

  • Tận dụng khả năng của Agent: Giao thức ưu tiên cho phép các agent cộng tác một cách tự nhiên, không cấu trúc, ngay cả khi chúng thiếu bộ nhớ, công cụ hoặc thông tin ngữ cảnh dùng chung. Cách tiếp cận này thúc đẩy các kịch bản đa tác tử thực sự, tránh giới hạn các agent ở trạng thái ‘công cụ’ đơn thuần. Giao thức A2A nhận ra rằng sức mạnh thực sự của AI nằm ở khả năng các agent làm việc cùng nhau một cách thông minh, tận dụng các thế mạnh cá nhân của họ để đạt được các mục tiêu chung.

  • Xây dựng dựa trên các tiêu chuẩn hiện có: Giao thức được xây dựng dựa trên các tiêu chuẩn hiện có, được áp dụng rộng rãi như HTTP, SSE và JSON-RPC. Cách tiếp cận này tạo điều kiện cho việc tích hợp liền mạch với cơ sở hạ tầng CNTT hiện có, giúp các doanh nghiệp dễ dàng áp dụng và triển khai giao thức A2A mà không gây ra sự gián đoạn đáng kể cho các hệ thống hiện tại của họ.

  • Bảo mật theo mặc định: Giao thức kết hợp các cơ chế xác thực và ủy quyền cấp doanh nghiệp, đảm bảo rằng nó đáp ứng các tiêu chuẩn bảo mật nghiêm ngặt ngay từ đầu. Các tính năng bảo mật của giao thức A2A tuân thủ các tiêu chuẩn chứng nhận cấp OpenAPI, cung cấp cho các doanh nghiệp sự đảm bảo rằng dữ liệu và tương tác của họ được bảo vệ.

  • Hỗ trợ các tác vụ chạy dài: Giao thức được thiết kế để chứa một loạt các tác vụ, từ các hoạt động nhanh chóng, rời rạc đến các dự án nghiên cứu chuyên sâu có thể kéo dài hàng giờ hoặc thậm chí hàng ngày. Trong suốt các tác vụ chạy dài này, giao thức A2A cung cấp cho người dùng phản hồi, thông báo và cập nhật trạng thái theo thời gian thực, giúp họ nắm được tiến trình và mọi diễn biến liên quan.

  • Không phụ thuộc vào phương thức: Giao thức hỗ trợ các phương thức khác nhau, bao gồm âm thanh và video, cho phép các agent tương tác và trao đổi thông tin ở định dạng phù hợp nhất cho tác vụ đang thực hiện. Tính linh hoạt này đảm bảo rằng giao thức A2A có thể được áp dụng cho một loạt các trường hợp sử dụng, bất kể các yêu cầu đầu vào hoặc đầu ra cụ thể.

Áp dụng và hỗ trợ A2A trên toàn ngành

Giao thức A2A đã nhận được sự hỗ trợ đáng kể từ các đối tác công nghệ và nhà cung cấp dịch vụ hàng đầu, bao gồm Atlassian, Box, Cohere, Intuit, Langchain, Accenture, BCG, Capgemini và Cognizant. Sự hỗ trợ của hơn 50 tổ chức nhấn mạnh sự công nhận của ngành về tiềm năng của giao thức A2A trong việc cách mạng hóa sự hợp tác AI và thúc đẩy sự đổi mới trên nhiều lĩnh vực khác nhau.

Việc áp dụng rộng rãi giao thức A2A sẽ thúc đẩy một hệ sinh thái sôi động các AI agent có khả năng tương tác, cho phép các doanh nghiệp tận dụng trí thông minh tập thể của nhiều agent để giải quyết các vấn đề phức tạp và đạt được các mục tiêu chiến lược của họ.

Cách thức hoạt động của Giao thức A2A: Tìm hiểu sâu hơn

Giao thức A2A tạo điều kiện giao tiếp giữa một agent ‘khách hàng’ và một agent ‘từ xa’. Agent khách hàng khởi tạo và truyền đạt các tác vụ, trong khi agent từ xa thực hiện các tác vụ đó, cung cấp thông tin hoặc thực hiện hành động thích hợp. Tương tác này bao gồm một số khả năng chính:

  • Khám phá khả năng: Các agent sử dụng ‘Thẻ Agent’ ở định dạng JSON để giới thiệu khả năng của chúng. Điều này cho phép các agent khách hàng xác định agent phù hợp nhất cho một tác vụ cụ thể và giao tiếp với nó thông qua giao thức A2A. Thẻ Agent cung cấp một cách tiêu chuẩn để các agent quảng cáo các kỹ năng và kiến thức chuyên môn của họ, giúp các agent khác dễ dàng khám phá và sử dụng dịch vụ của họ hơn.

  • Quản lý tác vụ: Giao tiếp giữa agent khách hàng và agent từ xa hướng đến tác vụ, với các agent cộng tác để đáp ứng các yêu cầu của người dùng cuối. Đối tượng ‘tác vụ’, được xác định bởi giao thức, có một vòng đời. Nó có thể được hoàn thành ngay lập tức hoặc, đối với các tác vụ chạy dài, các agent có thể giao tiếp để duy trì đồng bộ hóa về trạng thái mới nhất. Đầu ra của một tác vụ được gọi là ‘artifact’. Các tính năng quản lý tác vụ của giao thức A2A đảm bảo rằng các agent tập trung vào việc đạt được các mục tiêu cụ thể và các tương tác của họ có cấu trúc và hiệu quả.

  • Hợp tác: Các agent có thể gửi tin nhắn cho nhau, trao đổi ngữ cảnh, trả lời, artifact hoặc hướng dẫn người dùng. Khả năng hợp tác này cho phép các agent chia sẻ thông tin, phối hợp nỗ lực của họ và làm việc cùng nhau để đạt được các mục tiêu phức tạp.

  • Đàm phán trải nghiệm người dùng: Mỗi tin nhắn chứa ‘các phần’, là các đoạn nội dung hoàn chỉnh như hình ảnh được tạo. Mỗi phần có một loại nội dung được chỉ định, cho phép agent khách hàng và agent từ xa đàm phán định dạng chính xác. Điều này bao gồm đàm phán các tính năng giao diện người dùng như iframe, video, biểu mẫu web và hơn thế nữa. Các tính năng đàm phán trải nghiệm người dùng của giao thức A2A đảm bảo rằng các tương tác giữa các agent liền mạch và thân thiện với người dùng.

A2A như một bổ sung cho MCP

Google nhấn mạnh rằng giao thức A2A bổ sung cho MCP (Giao thức Meta-Config). Trong khi MCP cung cấp cho các agent các công cụ thực tế và thông tin ngữ cảnh, giao thức A2A giải quyết các thách thức gặp phải khi triển khai các hệ thống đa tác tử quy mô lớn.

Giao thức A2A cung cấp một cách tiếp cận tiêu chuẩn để quản lý các agent trên các nền tảng và môi trường đám mây khác nhau. Khả năng tương tác phổ quát này là rất quan trọng để tối đa hóa tiềm năng của các AI agent hợp tác.

So sánh trực quan giữa A2A và MCP

Một hình ảnh trực quan minh họa hiệu quả mối quan hệ giữa A2A và MCP. MCP tạo điều kiện kết nối các công cụ và tài nguyên khác nhau, trong khi A2A cho phép giao tiếp giữa các agent.

Sự chứng thực của Google DeepMind đối với MCP

Đồng sáng lập và Giám đốc điều hành của Google DeepMind, Demis Hassabis, đã công khai chứng thực MCP, nói rằng nó đang nhanh chóng trở thành một tiêu chuẩn mở cho kỷ nguyên AI agent. DeepMind có kế hoạch hỗ trợ MCP cho các mô hình và SDK Gemini của mình, báo hiệu một cam kết mạnh mẽ đối với khả năng tương tác và tiêu chuẩn hóa các công nghệ AI agent.

Alibaba Cloud áp dụng MCP

Alibaba Cloud đã tích hợp một dịch vụ MCP vòng đời đầy đủ vào nền tảng Pailian của mình. Nền tảng này kết hợp khả năng tính toán hàm của Alibaba Cloud với hơn 200 mô hình quy mô lớn hàng đầu và hơn 50 dịch vụ MCP chính thống. Nền tảng này cung cấp tất cả các tài nguyên tính toán, tài nguyên mô hình lớn và chuỗi công cụ ứng dụng cần thiết cho quá trình phát triển agent, cho phép người dùng nhanh chóng xây dựng các agent MCP của riêng họ với nỗ lực tối thiểu.

Bình minh của kỷ nguyên Agent

Những phát triển gần đây từ các công ty công nghệ lớn nhấn mạnh sự xuất hiện của ‘Kỷ nguyên Agent’. Giao thức A2A, cùng với các sáng kiến khác như MCP, đang mở đường cho một tương lai nơi các AI agent cộng tác liền mạch để giải quyết các vấn đề phức tạp và tăng cường khả năng của con người. Khả năng là rất lớn và tác động tiềm tàng đối với các ngành công nghiệp khác nhau là rất đáng kể.