Kỷ nguyên Agent: MCP & A2A dẫn đầu

Sự trỗi dậy của khái niệm Agent

Trong những năm gần đây, lĩnh vực Agent (tác nhân thông minh) đang nhận được sự quan tâm chưa từng có từ thị trường, với một loạt sự kiện như Microsoft ra mắt máy chủ GitHub MCP, Google công bố giao thức giao tiếp giữa các tác nhân thông minh A2A và Alipay ra mắt máy chủ MCP. Mặc dù hiện tại vẫn chưa có sự thống nhất hoàn toàn về định nghĩa của Agent, nhưng ba thành phần cốt lõi ‘lập kế hoạch’, ‘ghi nhớ’ và ‘sử dụng công cụ’ do cựu nhà nghiên cứu OpenAI Lilian Weng đề xuất đã được công nhận rộng rãi, trở thành yếu tố then chốt để hiểu về Agent.

Trong lĩnh vực trí tuệ nhân tạo, khái niệm Agent không phải là điều mới mẻ, nhưng với sự phát triển nhanh chóng của các mô hình ngôn ngữ lớn (LLM), triển vọng ứng dụng của Agent đã có những bước đột phá mới. Agent có thể được coi là một hệ thống thông minh có khả năng cảm nhận môi trường, tự lập kế hoạch và thực hiện nhiệm vụ. Điểm cốt lõi của nó là khả năng mô phỏng quá trình ra quyết định của con người và sử dụng các công cụ và tài nguyên khác nhau để đạt được các mục tiêu đã định.

Tình hình phát triển Agent hiện tại: Tiềm năng to lớn, tỷ lệ thâm nhập cần được cải thiện

Là một phiên bản nâng cao của chatbot, các ứng dụng Agent hiện tại chủ yếu được tích hợp vào các dịch vụ trả phí của các mô hình lớn. Chỉ có một số ít Agent như Manus và Devin cung cấp các dịch vụ trả phí độc lập. Mặc dù vậy, những Agent có khả năng tự lập kế hoạch như Deep Research và Manus vẫn còn nhiều hạn chế trong quá trình sử dụng. Số lượng người dùng thực sự có thể trải nghiệm có thể không nhiều và vẫn còn một khoảng cách lớn để xuất hiện một ứng dụng ‘bom tấn’.

Tuy nhiên, với sự cải thiện không ngừng về khả năng suy luận của các mô hình lớn, Agent đang dần trở thành tâm điểm của đổi mới ứng dụng. Ngày càng có nhiều nhà phát triển và nhà nghiên cứu bắt đầu khám phá các ứng dụng của Agent trong các lĩnh vực khác nhau, chẳng hạn như trợ lý thông minh, quy trình tự động hóa, phân tích dữ liệu, v.v. Tiềm năng của Agent đang dần được khai thác và không gian phát triển trong tương lai là vô cùng rộng lớn.

Ứng dụng quy mô lớn của Agent sắp diễn ra: Được thúc đẩy bởi nhiều điều kiện thuận lợi

Đột phá ở khâu đào tạo mô hình

  • Cửa sổ ngữ cảnh tăng trưởng nhanh chóng: Cửa sổ ngữ cảnh (Context Window) của các mô hình lớn là độ dài văn bản tối đa mà mô hình có thể xem xét khi xử lý văn bản. Với sự tiến bộ của công nghệ, cửa sổ ngữ cảnh của mô hình đang tăng lên nhanh chóng. Điều này có nghĩa là mô hình có thể hiểu rõ hơn ngữ cảnh của văn bản dài, từ đó đưa ra các quyết định chính xác hơn.
  • Ứng dụng sâu rộng của học tăng cường: Học tăng cường là một phương pháp đào tạo Agent thông qua phần thưởng và hình phạt. Trong những năm gần đây, học tăng cường đã được ứng dụng rộng rãi trong quá trình đào tạo Agent, cho phép Agent thích ứng tốt hơn với môi trường phức tạp và học được các chiến lược tối ưu.
  • Mô hình suy luận ngày càng hoàn thiện: Mô hình suy luận là thành phần cốt lõi của Agent, chịu trách nhiệm suy luận và phán đoán dựa trên thông tin đầu vào. Với sự nghiên cứu sâu rộng, mô hình suy luận đang trở nên ngày càng hoàn thiện, có thể hỗ trợ tốt hơn các ứng dụng khác nhau của Agent.

Hệ sinh thái phát triển mạnh mẽ

  • Các giao thức như MCP và A2A phát triển nhanh chóng: MCP (Model Communication Protocol) và A2A (Agent-to-Agent) là hai giao thức giao tiếp Agent quan trọng. Sự phát triển nhanh chóng của các giao thức này cho phép Agent dễ dàng gọi các công cụ và dịch vụ khác nhau hơn, từ đó thực hiện các chức năng phức tạp hơn.
  • Agent gọi công cụ ngày càng thuận tiện: Với sự tiến bộ của công nghệ, cách Agent gọi các công cụ và dịch vụ bên ngoài đang trở nên ngày càng thuận tiện. Ví dụ: thông qua API (giao diện lập trình ứng dụng), Agent có thể dễ dàng truy cập các nguồn dữ liệu và dịch vụ trực tuyến khác nhau, từ đó mở rộng khả năng của mình.

Vào tháng 11 năm 2024, Anthropic đã phát hành và mở mã nguồn giao thức MCP, nhằm mục đích chuẩn hóa cách dữ liệu và công cụ bên ngoài cung cấp ngữ cảnh cho mô hình. Động thái này sẽ thúc đẩy mạnh mẽ sự phát triển của hệ sinh thái Agent, cho phép Agent sử dụng tốt hơn các tài nguyên bên ngoài.

MCP và A2A: Chìa khóa kết nối Agent

Giao thức MCP: Kết nối Agent với thế giới bên ngoài

Mục tiêu chính của giao thức MCP là hiện thực hóa ‘kết nối một chạm’ giữa Agent và dữ liệu và công cụ bên ngoài. Thông qua giao thức MCP, Agent có thể dễ dàng truy cập các tài nguyên bên ngoài khác nhau, chẳng hạn như cơ sở dữ liệu, API, dịch vụ Web, v.v. Điều này cho phép Agent hiểu rõ hơn về môi trường và đưa ra các quyết định sáng suốt hơn.

Giao thức A2A: Xây dựng cầu nối giao tiếp giữa các Agent

Mục tiêu của giao thức A2A là hiện thực hóa giao tiếp giữa các Agent. Thông qua giao thức A2A, Agent có thể hợp tác với nhau để cùng nhau hoàn thành các nhiệm vụ phức tạp. Điều này có ý nghĩa quan trọng đối với việc xây dựng các hệ thống thông minh phân tán.

Mặc dù mục tiêu của giao thức A2A là giao tiếp giữa các Agent và MCP là cho Agent với các công cụ và dữ liệu bên ngoài, nhưng trong tình hình phức tạp ‘công cụ cũng có thể được đóng gói thành Agent’, chức năng của cả hai có thể trùng lặp. Tuy nhiên, sự cạnh tranh này giúp giảm chi phí gọi các công cụ bên ngoài và chi phí giao tiếp của mô hình lớn. Sự cạnh tranh này sẽ thúc đẩy sự tiến bộ của công nghệ và cuối cùng mang lại lợi ích cho toàn bộ hệ sinh thái Agent.

Triển vọng phát triển Agent

Agent đầu cuối: Không cần sự can thiệp của con người

Hiện tại, có rất nhiều ‘tác nhân thông minh’ trên thị trường, nhưng một phần đáng kể trong số đó được phát triển dựa trên các nền tảng như Coze, Dify, v.v. và cần con người viết quy trình làm việc trước. Những Agent này giống như sự chồng chất của kỹ thuật prompt và thuộc về Agent sơ cấp hơn.

Và Agent cao cấp hơn là ‘đầu cuối’, có nghĩa là ‘đầu vào nhiệm vụ cho Agent, Agent tự động hoàn thành kết quả nhiệm vụ mà con người cần’. Ví dụ: người dùng chỉ cần nhập một mục tiêu cho Agent, Agent có thể tự lập kế hoạch và thực hiện nhiệm vụ, cuối cùng hoàn thành mục tiêu. Các Agent cao cấp hơn như L3/L4/L5 phù hợp hơn với nhu cầu của con người và sẽ trở thành một hướng phát triển quan trọng của Agent trong tương lai.

Agent hỗ trợ robot và lái xe tự động

Khi áp dụng định nghĩa của Agent vào trí tuệ nhúng, người ta sẽ thấy rằng robot và xe cộ do mô hình lớn chi phối cũng là Agent. Đặc biệt là robot, nút thắt trong sự phát triển robot hiện tại không nằm ở ‘cách thực hiện các hành động vật lý’ của ‘tiểu não’, mà nằm ở việc suy nghĩ ‘thực hiện loại hành động vật lý nào’ của ‘đại não’, và điều này đang nằm trong tầm ngắm của Agent.

Trong lĩnh vực robot, Agent có thể giúp robot hiểu rõ hơn về môi trường và đưa ra các quyết định hợp lý hơn. Ví dụ: Agent có thể tự lập kế hoạch đường đi của robot và thực hiện các nhiệm vụ khác nhau dựa trên các vật thể và người trong môi trường.

Trong lĩnh vực lái xe tự động, Agent có thể giúp xe cộ cảm nhận tốt hơn môi trường xung quanh và đưa ra các quyết định lái xe an toàn hơn. Ví dụ: Agent có thể tự điều chỉnh tốc độ và hướng của xe dựa trên tín hiệu giao thông, các xe khác và người đi bộ, để tránh tai nạn giao thông.

Kết nối Agent và mạng gốc AI

Trong tương lai, có lẽ tất cả các Agent nên có thể giao tiếp với nhau, có thể tự tổ chức, tự thương lượng và xây dựng một mạng lưới hợp tác hiệu quả hơn và chi phí thấp hơn so với Internet hiện tại. Cộng đồng nhà phát triển Trung Quốc cũng đang xây dựng các giao thức như ANP, nhằm mục đích trở thành giao thức HTTP của kỷ nguyên Internet Agent. Còn về xác thực danh tính giữa các Agent, có thể sử dụng các công nghệ như DID.

  • Kết nối Agent: Kết nối giữa các Agent có thể hiện thực hóa việc chia sẻ và hợp tác tài nguyên, từ đó nâng cao hiệu quả của toàn bộ hệ thống. Ví dụ: các Agent khác nhau có thể chia sẻ dữ liệu, công cụ và dịch vụ để cùng nhau hoàn thành các nhiệm vụ phức tạp.
  • Mạng gốc AI: Mạng gốc AI là một loại mạng được thiết kế đặc biệt cho các ứng dụng trí tuệ nhân tạo. Mạng này có thể cung cấp băng thông cao hơn, độ trễ thấp hơn và bảo mật mạnh mẽ hơn, từ đó hỗ trợ tốt hơn các ứng dụng khác nhau của Agent.
  • Công nghệ DID: DID (Decentralized Identifier) là một công nghệ xác thực danh tính phi tập trung. Thông qua công nghệ DID, Agent có thể có danh tính riêng của mình, từ đó hiện thực hóa giao tiếp an toàn hơn và đáng tin cậy hơn.

Sự phát triển của công nghệ Agent sẽ mang lại những thay đổi to lớn. Internet trong tương lai sẽ không còn là một mạng lưới truyền tải thông tin đơn giản, mà là một mạng lưới hợp tác đầy trí tuệ.