Gần đây, Google đã công bố một giao thức mở mới cho Agents có tên là Agent2Agent, hay viết tắt là A2A. Đồng thời, Bailian của Alibaba Cloud cũng đã công bố tham gia vào MCP. Hãy cùng đi sâu vào A2A và MCP là gì.
Để hiểu các giao thức này, hãy xem xét phép loại suy về ngoại giao giữa các quốc gia. Hãy tưởng tượng mỗi AI agent như một quốc gia nhỏ với ngôn ngữ và phong tục riêng. Các ‘quốc gia’ này có các đại sứ quán đặt trong cùng một tòa nhà, cố gắng giao tiếp, buôn bán và trao đổi thông tin.
Trong một kịch bản lý tưởng, các quốc gia này sẽ duy trì quan hệ hữu nghị và tuân thủ một tập hợp các quy tắc ngoại giao rõ ràng, cho phép họ tương tác liền mạch, ký kết thỏa thuận và cộng tác trong các dự án quốc tế xung quanh một bàn hội nghị.
Tuy nhiên, thực tế là mỗi đại sứ quán hoạt động độc lập với các giao thức khác nhau. Do đó, việc bắt đầu một thỏa thuận thương mại đơn giản với ‘Quốc gia A’ đòi hỏi phải đáp ứng vô số yêu cầu, bao gồm các điều khoản, chứng nhận, bản dịch và khóa chuyên dụng. Việc tham gia với ‘Quốc gia B’ và ‘Quốc gia C’ đòi hỏi phải lặp lại các quy trình tương tự nhiều lần. Cách tiếp cận đặc biệt, rời rạc và nhiều mặt này làm tăng chi phí liên lạc, với mỗi tương tác phát sinh thêm ‘thuế thông tin’.
Trong quá khứ, các AI agent gặp phải những tình huống tương tự khi cố gắng cộng tác.
Ví dụ: bạn có thể có một agent tự động trả lời email và một agent khác được tích hợp vào ứng dụng lịch để hỗ trợ lên lịch. Tuy nhiên, các thực thể AI này gặp khó khăn trong việc giao tiếp trực tiếp, đòi hỏi phải sao chép và dán thông tin thủ công hoặc dựa vào các giao diện được xây dựng tùy chỉnh.
Do đó, các AI agent hoạt động biệt lập, thể hiện khả năng tương tác kém. Sự phân mảnh này làm người dùng thất vọng vì họ phải điều hướng giữa nhiều ứng dụng AI và hạn chế tiềm năng của AI. Các tác vụ phức tạp có thể được thực hiện thông qua cộng tác đa agent bị giới hạn một cách giả tạo trong các silo riêng lẻ.
Tình huống này phản ánh bối cảnh sau Thế chiến II, nơi mỗi AI agent hành động độc lập, thiếu các quy tắc thống nhất và phải đối mặt với các rào cản giao tiếp. Hệ sinh thái AI hiện tại giống như một vùng đất hoang sau chiến tranh, đòi hỏi phải tuân thủ các giao diện và giao thức cụ thể để truy cập dữ liệu và chức năng. Việc thiếu các tiêu chuẩn áp đặt thêm ‘thuế’ với mỗi quan hệ hợp tác mới, dẫn đến một hệ sinh thái AI rời rạc và kém hiệu quả, đặc trưng bởi sự cô lập và tư lợi.
Ngành công nghiệp AI đang khám phá khả năng thiết lập một giao thức được chấp nhận rộng rãi để tạo điều kiện giao tiếp liền mạch giữa các agent và các công cụ bên ngoài. Google và Anthropic đã nổi lên như những người đi đầu, mỗi người đề xuất một giải pháp: giao thức A2A và giao thức MCP.
Giao Thức A2A
Giao thức A2A, viết tắt của Agent2Agent, cho phép các AI agent giao tiếp và cộng tác trực tiếp.
Mục tiêu chính của giao thức A2A là cho phép các agent từ các nguồn gốc và nhà cung cấp khác nhau hiểu và hợp tác với nhau, tương tự như những nỗ lực của Tổ chức Thương mại Thế giới để giảm các rào cản thương mại.
Bằng cách áp dụng A2A, các agent từ các nhà cung cấp và khuôn khổ khác nhau có thể tham gia vào một khu vực thương mại tự do, giao tiếp bằng một ngôn ngữ chung và cộng tác liền mạch để hoàn thành các tác vụ phức tạp vượt quá khả năng của các agent riêng lẻ.
Để minh họa cách A2A hoạt động, hãy xem xét các phép loại suy sau:
1. Agent = Nhà Ngoại Giao Quốc Gia
Mỗi agent hoạt động như một nhà ngoại giao đại diện cho đại sứ quán của một quốc gia. Giao thức A2A nhằm mục đích thiết lập nghi thức ngoại giao và quy trình giao tiếp thống nhất. Trước đây, các nhà ngoại giao từ ‘Quốc gia A’ giao tiếp độc quyền bằng tiếng Pháp, trong khi những người từ ‘Quốc gia B’ sử dụng chữ Kirin và ‘Quốc gia C’ yêu cầu thư từ qua thư bằng lá vàng cổ. Giao thức A2A đảm bảo rằng tất cả những người tham gia có thể giao tiếp bằng một ngôn ngữ đã thỏa thuận trước, gửi tài liệu ở cùng một định dạng và thực hiện các kết quả đã thỏa thuận.
2. Agent Card = Chứng Chỉ Ngoại Giao / Danh Thiếp Của Đại Sứ
Trong khuôn khổ A2A, mỗi agent được yêu cầu xuất bản một ‘Agent Card’, tương tự như danh thiếp của một nhà ngoại giao, chứa các chi tiết như tên, phiên bản, khả năng và các ngôn ngữ hoặc định dạng được hỗ trợ của agent.
Tương tự như cách danh thiếp của một nhà ngoại giao xác định vai trò và sự liên kết của họ, Agent Card liệt kê các kỹ năng, phương pháp xác thực và định dạng đầu vào/đầu ra của agent. Điều này cho phép các nhà ngoại giao khác nhanh chóng xác định và hiểu các khả năng, giảm thiểu các rào cản giao tiếp.
3. Task = Dự Án Ngoại Giao Song Phương Hoặc Đa Phương
Khái niệm Task là trung tâm của A2A. Khi một agent có ý định ủy thác một nhiệm vụ cho một agent khác, nó sẽ phát hành một ‘thư bày tỏ ý định dự án hợp tác’. Sau khi được chấp nhận, cả hai bên sẽ ghi lại Task ID để theo dõi tiến độ và trao đổi thông tin cho đến khi hoàn thành.
Về mặt ngoại giao, một quốc gia có thể đề xuất với một quốc gia khác, ‘Chúng tôi muốn cộng tác xây dựng một tuyến đường sắt cao tốc xuyên biên giới; vui lòng cử nhóm kỹ thuật của bạn’. Điều này phản ánh một A2A Task, nơi bên khởi xướng vạch ra các yêu cầu, agent từ xa chấp nhận và cả hai bên thường xuyên cập nhật tiến độ trong suốt dự án.
Tin nhắn đại diện cho các thông tin liên lạc được trao đổi trong giai đoạn ban đầu hoặc trung gian của dự án, tương tự như điện tín ngoại giao, ghi chú và trao đổi phái viên.
4. Thông Báo Đẩy = Bản Tin Đại Sứ Quán Ngoại Giao
Trong A2A, nếu một Task là một dự án dài hạn đòi hỏi thời gian hoàn thành kéo dài, agent từ xa có thể cập nhật cho bên khởi xướng thông qua thông báo đẩy, tương tự như một quốc gia cung cấp các cập nhật định kỳ về một dự án cơ sở hạ tầng dài hạn. Điều này tăng cường khả năng hợp tác không đồng bộ.
5. Xác Thực và Bảo Mật = Đặc Quyền và Giao Thức Ngoại Giao
A2A sử dụng các chiến lược xác thực cấp doanh nghiệp, yêu cầu cả hai bên giao tiếp phải xác minh thông tin xác thực để ngăn chặn hành vi mạo danh hoặc nghe lén độc hại. Cơ chế này song song với các đặc quyền và giao thức ngoại giao.
Về bản chất, A2A phản ánh động lực của ngoại giao quốc tế hoặc hợp tác kinh doanh, nhấn mạnh giao tiếp và bảo mật tiêu chuẩn hóa.
Giao Thức MCP
Giao thức MCP, hay Giao thức Ngữ Cảnh Mô Hình (Model Context Protocol), là một tiêu chuẩn được giới thiệu và mã nguồn mở bởi Anthropic vào tháng 11 năm 2024.
Trong khi A2A giải quyết quá trình giao tiếp giữa các nhà ngoại giao AI, một thách thức dai dẳng vẫn còn: sự vắng mặt của các nguồn thông tin đáng tin cậy. Ngay cả nhà ngoại giao hoặc giám đốc điều hành kinh doanh hùng biện nhất cũng không được trang bị tốt để hoạt động hiệu quả nếu không có thông tin chính xác về bối cảnh quốc tế và phân bổ nguồn lực.
Các nhà ngoại giao hiện đại dựa vào các công cụ bên ngoài, chẳng hạn như hệ thống thị thực, hệ thống thanh toán quốc tế và cơ sở dữ liệu tình báo, để thực hiện nhiệm vụ của họ. Tương tự, một agent đảm nhận các trách nhiệm phức tạp phải kết nối với nhiều cơ sở dữ liệu, hệ thống tài liệu, ứng dụng doanh nghiệp và thậm chí cả thiết bị phần cứng.
Điều này có thể được so sánh với việc thành lập một cơ quan tình báo toàn diện cho các nhà ngoại giao và cấp cho họ quyền truy cập vào các công cụ để tạo điều kiện thuận lợi cho công việc của họ.
Trước đây, các agent phải phát triển các plugin tùy chỉnh và tích hợp sâu với các công cụ khác nhau, điều này vừa tốn công vừa tốn thời gian. Tuy nhiên, MCP hiện đã có sẵn để hợp lý hóa quy trình.
MCP tiêu chuẩn hóa các tương tác giữa các mô hình ngôn ngữ lớn và các nguồn dữ liệu và công cụ bên ngoài. Anthropic so sánh MCP với một cổng USB-C cho các ứng dụng AI.
USB-C đóng vai trò là một giao diện phổ quát cho các thiết bị, xử lý việc sạc và truyền dữ liệu thông qua một cổng duy nhất. MCP nhằm mục đích tạo ra một giao diện phổ quát trong lĩnh vực AI, cho phép các mô hình và hệ thống bên ngoài khác nhau kết nối bằng cùng một giao thức, thay vì phát triển các giải pháp tích hợp tùy chỉnh mỗi lần.
Các mô hình AI kết nối với cơ sở dữ liệu, công cụ tìm kiếm hoặc ứng dụng của bên thứ ba có thể giao tiếp liền mạch nếu tất cả chúng đều hỗ trợ MCP.
MCP sử dụng kiến trúc máy khách-máy chủ:
1. MCP Server = Cơ Quan Tình Báo Hợp Nhất
Các tổ chức hoặc cá nhân có thể đóng gói cơ sở dữ liệu, hệ thống tệp, lịch và các dịch vụ của bên thứ ba vào các MCP Server. Các máy chủ này tuân thủ giao thức MCP, hiển thị các điểm cuối truy cập được định dạng thống nhất, cho phép bất kỳ agent nào tuân thủ các tiêu chuẩn máy khách MCP gửi yêu cầu, truy xuất thông tin hoặc thực hiện các thao tác.
2. MCP Client = Thiết Bị Đầu Cuối Được Sử Dụng Bởi Các Nhà Ngoại Giao
Một nhà ngoại giao agent mang theo thiết bị đầu cuối chuyên dụng, cho phép họ nhập lệnh, chẳng hạn như ‘Truy xuất dữ liệu hàng tồn kho từ hệ thống tài chính’, ‘Gửi yêu cầu đến API’ hoặc ‘Truy xuất tài liệu PDF’.
Nếu không có MCP, việc tích hợp với các hệ thống khác nhau đòi hỏi phải viết các mã truy cập khác nhau, điều này rất phức tạp. Tuy nhiên, với MCP, các máy khách hỗ trợ giao thức có thể dễ dàng chuyển đổi giữa các MCP server khác nhau, truy xuất thông tin và thực hiện các quy trình nghiệp vụ.
Về bản chất, MCP tạo điều kiện tích hợp liền mạch giữa các AI agent và các tài nguyên bên ngoài.
Sự Khác Biệt Giữa A2A và MCP
Để làm rõ sự khác biệt giữa A2A và MCP, hãy xem xét một hội nghị thượng đỉnh quốc tế giả định nơi các nguyên thủ quốc gia (đại diện cho các AI Agent của các công ty) tập trung để cộng tác trong một nhiệm vụ xuyên quốc gia, chẳng hạn như sản xuất một báo cáo phân tích kinh tế toàn cầu.
Nếu không có một giao thức phổ quát, một cuộc họp như vậy sẽ hầu như không thể, vì mỗi đại diện nói một ngôn ngữ khác nhau. Tuy nhiên, với giao thức A2A, tất cả các đại diện ký ‘Công ước Ngoại giao Vienna A2A’ trước khi vào cuộc họp, đồng ý giao tiếp bằng một định dạng thống nhất, xác định bản thân, nêu rõ ý định của họ và trích dẫn ID phát ngôn trước đó khi trả lời.
Điều này cho phép ‘Agent G’ gửi một tin nhắn đến ‘Agent O’ ở định dạng A2A và ‘Agent O’ trả lời tương ứng. Điều này đánh dấu trường hợp giao tiếp không bị cản trở đầu tiên giữa các AI agent từ các công ty khác nhau.
Trong các cuộc thảo luận, các đại diện AI cần tham khảo dữ liệu hoặc sử dụng các công cụ để phân tích. ‘Agent A’ từ Anthropic đề xuất sử dụng hệ thống MCP để hỗ trợ dữ liệu hoặc công cụ bên ngoài.
Một ‘phòng thông dịch đồng thời MCP’ được thiết lập bên cạnh hội trường hội nghị, có nhân viên là các chuyên gia có thể trả lời bằng một ngôn ngữ thống nhất thông qua MCP khi nhận được yêu cầu.
Ví dụ: ‘Agent Q’ cần truy cập cơ sở dữ liệu đám mây của họ để tính toán. Thay vì gửi ai đó trở lại quốc gia, họ gửi một yêu cầu MCP để lấy dữ liệu từ cơ sở dữ liệu X. Quản trị viên cơ sở dữ liệu MCP dịch yêu cầu, truy xuất kết quả và trả lời ‘Agent Q’ bằng ngôn ngữ MCP. Toàn bộ quá trình là minh bạch đối với các agent khác, những người hiểu dữ liệu được trích dẫn bởi ‘Agent Q’ vì bản dịch MCP ở định dạng được công nhận.
Khi quá trình viết báo cáo tiến triển, ‘Agent G’ và ‘Agent A’ nhận ra rằng họ cần tích hợp các đóng góp tương ứng của họ. ‘Agent G’ chuyên về phân tích số, trong khi ‘Agent A’ vượt trội trong việc tóm tắt ngôn ngữ.
‘Agent G’ truyền đạt dữ liệu tỷ lệ tăng trưởng GDP qua A2A và ‘Agent A’ kết nối với một plugin bảng tính Excel qua MCP, xác minh xu hướng dữ liệu và phản hồi bằng một đoạn tóm tắt.
Trong kịch bản này, A2A tạo điều kiện giao tiếp giữa các agent, trong khi MCP cho phép các agent truy cập các công cụ và thông tin bên ngoài. Cùng nhau, các giao thức tạo ra một thỏa thuận giao tiếp phù hợp cho một phiên bản AI của Liên Hợp Quốc. Với các giao thức này, các AI agent có thể cộng tác hiệu quả, hình thành một hệ sinh thái AI được kết nối với nhau.
A2A giống như một đường dây nóng chuyên dụng cho giao tiếp ngoại giao, giải quyết giao tiếp trực tiếp giữa các agent. MCP tương tự như một hệ thống thông dịch đồng thời và chia sẻ tài nguyên, giải quyết vấn đề các thực thể thông minh kết nối với thông tin bên ngoài.
Sự trỗi dậy của A2A và MCP báo hiệu sự phát triển của ngành công nghiệp AI theo hướng hợp tác hơn là cạnh tranh. Vô số AI agent sẽ được triển khai như các trang web, khám phá và giao tiếp thông qua A2A và truy cập tài nguyên và chia sẻ kiến thức thông qua MCP.