Sau thông báo về dịch vụ MCP toàn diện của Baidu tại hội nghị nhà phát triển tuần trước, các công ty công nghệ lớn của Trung Quốc như Alibaba, ByteDance và Tencent cũng đã bắt đầu hành trình MCP.
MCP, hay Model Context Protocol, được hình dung như một tiêu chuẩn thống nhất cho phép AI giao tiếp liền mạch với vô số ứng dụng và dịch vụ. Nó có thể được ví như giao diện USB phổ biến trong máy tính và điện thoại thông minh, cho phép tích hợp ‘plug-and-play’ các thiết bị bên ngoài khác nhau. Về bản chất, MCP nhằm cung cấp cho AI một ‘cổng USB’ phổ quát để truy cập các công cụ và thực hiện các tác vụ.
Vào tháng 11 năm 2024, Anthropic, một công ty AI của Mỹ, đã giới thiệu tiêu chuẩn MCP, nhanh chóng được các đối thủ cạnh tranh như OpenAI và Google chấp nhận, đánh dấu sự khác biệt so với thông lệ cạnh tranh thông thường là các hệ sinh thái độc quyền. Bắt đầu từ tháng 4, các công ty công nghệ hàng đầu của Trung Quốc, bao gồm Bailian của Alibaba Cloud, Knowledge Engine của Tencent Cloud, Kouzi Space của ByteDance và Baidu AI Cloud, đã ra mắt các dịch vụ MCP toàn diện của riêng họ.
Lời hứa và thách thức của sự thống nhất
Mục tiêu chính của MCP là thúc đẩy sự thống nhất, nhưng nỗ lực này phải đối mặt với những thách thức đáng kể. Theo nhiều nhà phát triển và nhà nghiên cứu, mặc dù MCP có hiệu quả trong việc truy cập dữ liệu doanh nghiệp cục bộ, nhưng nó gặp phải những trở ngại khi cố gắng tích hợp với các ứng dụng internet cho các tác vụ như đặt vé máy bay, kiểm tra giá và tạo hướng dẫn du lịch. Những thách thức này xuất phát từ sự non nớt của các quy trình triệu gọi AI và sự hạn chế về số lượng các công cụ internet, với nhiều nền tảng chỉ cung cấp quyền truy cập vào các chức năng ngoại vi.
Không phải tất cả các nền tảng internet đều nhiệt tình áp dụng tiêu chuẩn chung này và tham gia mạng lưới nhà cung cấp dịch vụ MCP. Bản chất khép kín của hệ sinh thái internet Trung Quốc, cùng với sự nhạy cảm cao đối với quyền riêng tư dữ liệu, đã khiến nhiều nền tảng thận trọng. Họ thích đánh giá tính khả thi và sự phát triển của hệ sinh thái MCP trước khi cam kết hoàn toàn với nó.
Lĩnh vực AI được biết đến với các thuật ngữ và khái niệm phát triển nhanh chóng. Khi Anthropic lần đầu tiên mở nguồn giao thức MCP vào cuối năm ngoái, ngành công nghiệp phần lớn đã áp dụng cách tiếp cận chờ xem. Tuy nhiên, sự phổ biến bùng nổ của Manus kể từ đó đã thúc đẩy sự quan tâm đến MCP ở Trung Quốc.
MCP như một chất xúc tác cho AI agency
Theo Hou Xinyi của Đại học Khoa học và Công nghệ Hoa Trung, bước quan trọng để vượt qua những hạn chế của ‘chatbot’ nằm ở việc cho phép AI tương tác với dữ liệu và công cụ bên ngoài, điều mà MCP tìm cách tạo điều kiện.
Trước MCP, các phương pháp thay thế đã được khám phá để giải quyết sự thiếu hụt nhận thức về ‘AI agency’. Vào cuối năm 2023, OpenAI đã giới thiệu khái niệm về một cửa hàng ứng dụng (GPT Store), cho phép ChatGPT tận dụng các công cụ bên ngoài thông qua các plugin dựa trên một tập hợp các tiêu chuẩn được xác định. Các cửa hàng ứng dụng AI tương tự, chẳng hạn như Kouzi của ByteDance, Qianfan của Baidu và Bailian của Alibaba, cũng đã làm theo.
Tuy nhiên, những cách tiếp cận này cuối cùng đã đạt đến giới hạn của chúng. Các plugin và cửa hàng ứng dụng có chung một vấn đề: sự cô lập. Mỗi công cụ sở hữu tài liệu phát triển, định dạng tham số và thông số kỹ thuật giao diện riêng. Điều này có nghĩa là các nhà phát triển phải phát minh lại bánh xe mỗi khi họ tích hợp một công cụ mới vào AI, dẫn đến sự kém hiệu quả.
Theo thời gian, số lượng công cụ mới được thêm vào cửa hàng ứng dụng đã giảm và chất lượng của các plugin khác nhau đáng kể, cản trở khả năng giải quyết các tác vụ phức tạp. Điều này cho thấy rằng các cách tiếp cận hiện có đang tiến gần đến giới hạn của chúng.
MCP như một giải pháp thống nhất
MCP được xem là một giải pháp đầy hứa hẹn do sự nhấn mạnh của nó vào sự thống nhất. Trong tài liệu chính thức của mình, Anthropic ví MCP như một giao diện USB-C phổ quát cho thế giới AI. Hou Xinyi thích mô tả nó như một ‘trạm nối’ - một bộ điều hợp đa năng cho phép AI kết nối với nhiều công cụ bên ngoài cùng một lúc, loại bỏ nhu cầu chuyển đổi định dạng.
Nhiều người dự đoán rằng MCP sẽ có tác động mang tính chuyển đổi, tương tự như việc Tần Thủy Hoàng tiêu chuẩn hóa các đơn vị đo lường, tạo điều kiện cho thương mại và giao tiếp giữa các quốc gia bị phân mảnh trước đây của thời kỳ Xuân Thu.
Theo một trưởng nhóm kỹ thuật tại nhóm làm việc về kết nối thông minh của một công ty công nghệ lớn, MCP cũng tối ưu hóa các tương tác ngôn ngữ của AI. Trước đây, AI yêu cầu người dùng nêu rõ ‘Tôi muốn điều hướng’ để sử dụng API của dịch vụ điều hướng. Ngay cả một sai lệch nhỏ cũng có thể khiến AI không thành công. Giờ đây, mỗi công cụ phải cung cấp tên, tham số và mô tả chức năng được tiêu chuẩn hóa. Do đó, AI chỉ cần hiểu ý định của người dùng và sau đó khớp nó với máy chủ MCP phù hợp nhất dựa trên các mô tả.
Cách tiếp cận này phù hợp hơn với khả năng vốn có của các mô hình ngôn ngữ lớn, cho phép người dùng triệu gọi các dịch vụ bằng một câu duy nhất, thay vì yêu cầu giao tiếp trực tiếp giữa giao diện với giao diện trước đó.
Ứng dụng và hạn chế hiện tại của MCP
Bất chấp tiềm năng được nhận thấy, MCP vẫn chưa đạt được sự chấp nhận rộng rãi và các ứng dụng thực tế của nó vẫn còn hạn chế. Hiện tại, MCP phổ biến nhất trong giới nhân viên kỹ thuật doanh nghiệp và các nhà phát triển độc lập.
Là một kỹ sư front-end, Gong Dian dựa rất nhiều vào trợ lý lập trình AI Cursor. Tuy nhiên, Cursor đã phải vật lộn để tích hợp liền mạch với các hệ thống dự án nội bộ của công ty anh, đòi hỏi sự can thiệp thủ công. Mặc dù các plugin hoặc lệnh gọi hàm có thể được sử dụng trước đây, nhưng AI bên ngoài không thể truy cập các hệ thống nội bộ của công ty và việc triệu gọi theo thời gian thực đã làm dấy lên những lo ngại về bảo mật. Mặt khác, MCP có thể được khởi tạo trong mạng nội bộ của công ty, làm cho nó đáng tin cậy và tuân thủ hơn.
Nhà phát triển độc lập Zhu Mama gần đây đã hướng dẫn Cursor học tài liệu MCP và đóng gói API Google Maps và Search thành một máy chủ MCP, sau đó được sử dụng để triệu gọi mô hình ngôn ngữ lớn Gemini của Google. Gemini được trang bị MCP kết quả đã được chuyển đổi thành một trợ lý hướng dẫn du lịch. Khi được hỏi về các tuyến giao thông công cộng từ Sân bay Singapore đến các điểm tham quan khác nhau, trợ lý đã cung cấp thông tin chi tiết và chính xác hơn so với phản hồi của Doubao.
Các trợ lý du lịch khác nhau đang nổi lên trong cộng đồng nhà phát triển. Khi Kouzi Space của ByteDance ra mắt bản beta nội bộ vào ngày 19 tháng 4, trường hợp trình diễn cũng là một trợ lý AI du lịch, khiến một số người đùa về nỗi ám ảnh của ngành đối với du lịch.
Zhu Mama thẳng thắn thừa nhận rằng sự tập trung vào các tình huống du lịch chủ yếu là do tính liên quan của chúng đến nhu cầu tiêu dùng hàng ngày. Một lý do khác là sự sẵn có hạn chế của phần mềm internet tương thích với MCP ở Trung Quốc, điều này hạn chế tiềm năng của thị trường.
Theo thống kê mới nhất từ nền tảng điều hướng MCP.so, có hơn 11.028 nhà cung cấp dịch vụ MCP trên toàn thế giới và con số này đang tăng lên nhanh chóng. Tuy nhiên, ở Trung Quốc, chỉ một vài ứng dụng vị trí địa lý lớn, chẳng hạn như AutoNavi, Baidu Maps và Tencent Maps, hiện đang hoạt động như các máy chủ MCP quy mô lớn.
Sự hạn chế này là lý do tại sao kế hoạch tạo ra một phiên bản hướng dẫn du lịch Trung Quốc của Zhu Mama nhanh chóng bị đình trệ. Để phát triển một hướng dẫn du lịch Trung Quốc, sẽ là lý tưởng nếu sử dụng các dịch vụ bản đồ trong nước. Tuy nhiên, Zhu Mama phát hiện ra rằng máy chủ MCP chính thức do AutoNavi cung cấp rất hạn chế về thông tin. Mặc dù nó có thể cung cấp các truy vấn tuyến đường giữa hai địa điểm, nhưng nó thiếu thông tin chi tiết về các địa danh, đánh giá, giá vé khách sạn và các chi tiết cần thiết khác.
Ngược lại, API Google Maps cung cấp các phương thức đặt phòng chi tiết, giá khách sạn, đánh giá khách sạn, tiện nghi khách sạn và thậm chí so sánh giá trên nhiều nền tảng, một mức độ chi tiết khó có thể tưởng tượng được trong hệ sinh thái Trung Quốc.
Mặc dù các sản phẩm của Tencent, Alibaba, ByteDance và Baidu đang áp dụng MCP, nhưng các ứng dụng tần suất cao của họ vẫn chưa chính thức tham gia mạng lưới nhà cung cấp dịch vụ MCP. Các nền tảng như WeChat, Xiaohongshu và Douyin, cũng như các nền tảng dịch vụ phong cách sống như Ele.me, Meituan và Ctrip, đều vắng mặt một cách đáng chú ý.
Những thách thức trong khả năng cung cấp công cụ và lập lịch AI
Ngoài số lượng công cụ có hạn, khả năng lập lịch của AI cũng gây ra một hạn chế. Zhu Mama đã đóng gói 6-8 giao diện API, bao gồm Google Hotels, Maps và Search, vào một máy chủ MCP duy nhất, thấp hơn nhiều so với giới hạn tối đa (Cursor cho phép tối đa 40 công cụ cho mỗi tác nhân). Tuy nhiên, AI đã phải vật lộn để xác định công cụ nào cần triệu gọi. Khi đối mặt với các yêu cầu phức tạp, AI không thể chia nhỏ quy trình và triệu gọi MCP theo từng giai đoạn, thay vào đó cố gắng xử lý mọi thứ cùng một lúc.
Theo Gong Dian, giá trị của MCP phụ thuộc vào chất lượng của cả phía máy khách và máy chủ. Giống như cổng USB không có khả năng vốn có và dựa vào các dịch vụ đằng sau nó, MCP cần các dịch vụ mạnh mẽ để nhận ra tiềm năng của nó.
MCP đặt nền móng cho các tác nhân AI, nhưng nó không giải quyết tất cả các vấn đề. Một tiêu chuẩn vẫn không được sử dụng chỉ là một tờ giấy.
Trưởng nhóm kỹ thuật nói trên cho rằng việc áp dụng rộng rãi tiêu chuẩn MCP của Anthropic là do tính chất mã nguồn mở, phi lợi nhuận và uy tín của người tạo ra nó. Các tổ chức khác sẵn sàng tuân theo một tiêu chuẩn do một thực thể có uy tín đặt ra.
Hiện tại, các công ty vừa và nhỏ cũng như các công ty internet lớn đang tìm cách đa dạng hóa các luồng doanh thu của họ là những người áp dụng chính tiêu chuẩn MCP.
Công ty đồng hành AI MiniMax gần đây đã ra mắt một máy chủ MCP, với người quản lý cộng đồng Cai Jiaren tuyên bố rằng các nhà phát triển có thể sử dụng MCP để triệu gọi các khả năng đa phương tiện của MiniMax để tạo video, tạo giọng nói và nhân bản giọng nói. MCP bao gồm các cơ chế kiểm soát truy cập nghiêm ngặt để đảm bảo tuân thủ khi các doanh nghiệp truy cập dữ liệu nội bộ. Quá trình triệu gọi tổng thể cũng được đơn giản hóa, mà không làm tăng thêm chi phí mã thông báo.
Quyết định ra mắt một máy chủ MCP của MiniMax được thúc đẩy bởi mong muốn cho phép các nhà phát triển toàn cầu dễ dàng tận dụng các khả năng mô hình của MiniMax và mở khóa khả năng sáng tạo linh hoạt và hiệu quả hơn.
Các công ty khởi nghiệp khác có chung những khát vọng tương tự. Biu Technology đã đề cập trong một cuộc phỏng vấn rằng các nhà phát triển có thể sử dụng AutoNavi MCP để lấy dữ liệu vận chuyển và sau đó sử dụng các sản phẩm của Biu để tạo PPT. MCP hạ thấp rào cản gia nhập bằng cách cung cấp quyền truy cập vào giao diện của AutoNavi, nếu không thì sẽ không có sẵn cho họ.
Trưởng nhóm kỹ thuật nói trên tin rằng MCP về cơ bản là một câu chuyện về các nhà cung cấp dịch vụ. Bằng cách đóng gói API của họ theo tiêu chuẩn MCP, các nhà cung cấp dịch vụ ứng dụng có thể làm cho dịch vụ của họ có thể truy cập được đối với tất cả AI.
Sự khác biệt và lo ngại giữa các nhà cung cấp dịch vụ
Tuy nhiên, những bất đồng nảy sinh giữa các nhà cung cấp dịch vụ. Nhiều công ty không hoàn toàn cam kết với ý tưởng này. Mặc dù các nền tảng lớn như AutoNavi và Baidu Maps đã ra mắt các máy chủ MCP, nhưng họ chủ yếu đóng gói lại các giao diện API hiện có, cung cấp các chức năng thông thường trong khi vẫn duy trì quyền kiểm soát nghiêm ngặt đối với các quyền của người dùng cốt lõi và dữ liệu giao dịch.
Ngoài các dịch vụ định vị bản đồ, trình tự động đăng Xiaohongshu của nhà phát triển bên thứ ba, tự động hóa việc tìm kiếm và đăng nội dung, hiện là mục phổ biến nhất trên quảng trường MCP của cộng đồng Modeng. Hou Xinyi cho rằng điều này có thể có tác động hạn chế đến các nền tảng nội dung xã hội như Xiaohongshu, nhưng dữ liệu và quyền trở nên đặc biệt nhạy cảm trong các tình huống thâm dụng giao dịch như nền tảng giao đồ ăn.
Một trong những mối quan tâm chính đối với các nhà cung cấp dịch vụ là kiểm soát trải nghiệm người dùng.
Ví dụ, việc mở một dịch vụ giao đồ ăn hoàn chỉnh đòi hỏi việc cấp quyền truy cập cho các tác nhân AI vào dữ liệu cá nhân nhạy cảm như giá cả, thông tin cửa hàng và địa chỉ và thông tin liên hệ của người dùng. Anthropic đã thừa nhận rằng hệ thống bảo mật của MCP, bao gồm quản lý quyền và kiểm toán triệu gọi, vẫn đang được phát triển. Do đó, một số nền tảng lo ngại về rủi ro triệu gọi trái phép khi kết nối với MCP.
Một số nền tảng đang thử nghiệm các tình huống giao dịch tương đối an toàn. Ví dụ: Alipay gần đây đã ra mắt một máy chủ MCP, tuyên bố cung cấp cho các tác nhân AI ‘quyền truy cập một cú nhấp chuột vào khả năng thanh toán’. Tuy nhiên, xem xét kỹ hơn cho thấy nó chủ yếu cung cấp các dịch vụ thu thập chứ không phải thanh toán.
Theo Hou Xinyi, cách tiếp cận của Alipay tập trung vào việc tạo điều kiện thu tiền của người bán hơn là cho phép AI thực hiện thanh toán thay mặt người tiêu dùng. Đây là một lựa chọn khả thi, vì việc cho phép AI kiểm soát ví và đặt hàng tự do vẫn chưa đủ an toàn để mọi người thoải mái. Đây cũng là lý do chính tại sao các dịch vụ giao dịch không thể được quảng bá rộng rãi.
Một vấn đề sâu sắc hơn là nếu AI tự do tham gia vào quá trình giao dịch - giúp người dùng so sánh giá hoặc giới thiệu nhà hàng tiết kiệm chi phí nhất - chắc chắn nó sẽ mang lại sự tiện lợi đáng kể cho người dùng. Tuy nhiên, điều đó cũng có nghĩa là các nền tảng dịch vụ sẽ mất quyền kiểm soát quá trình lựa chọn của người dùng và các lợi thế thuật toán cốt lõi của họ sẽ bị gạt ra ngoài lề, khiến họ trở thành những nhà cung cấp thông thường.
Giải quyết vấn đề bảo mật và thúc đẩy tính phổ quát
Nhiều người được phỏng vấn tin rằng MCP cần giải quyết hai vấn đề chính: bảo mật và tính phổ quát.
Đầu tiên là bảo mật. Hou Xinyi chỉ ra rằng MCP phải đối mặt với hai thách thức bảo mật: thiếu sự giám sát bảo mật tập trung và cơ chế xác minh danh tính và ủy quyền dữ liệu không đầy đủ. Hiện tại, không có ‘quảng trường khám phá’ chính thức nào cho MCP. Nhiều nền tảng điều hướng của bên thứ ba thu thập các dịch vụ MCP bằng cách trực tiếp kéo các dự án mã từ GitHub, điều này nhanh chóng và đơn giản nhưng thiếu quy trình đánh giá chính thức. Anthropic đã tuyên bố rằng họ sẽ chính thức giải quyết cơ chế lưu trữ MCP và các vấn đề về khả năng khám phá trong năm nay. Bản nháp giao thức được cập nhật gần đây của Anthropic đang nỗ lực giải quyết thiếu sót này. Ngoài ra, các tổ chức trong nước như IIFAA (Liên minh xác thực đáng tin cậy trên Internet) đang cố gắng lấp đầy khoảng trống bảo mật.
Ngoài ra còn có những vấn đề lâu dài trong lĩnh vực tác nhân AI, chẳng hạn như tấn công chiếm quyền điều khiển nhanh chóng và tấn công kết hợp công cụ. Tuy nhiên, trưởng nhóm kỹ thuật nói trên tin rằng đây không phải là lỗ hổng MCP mà là những rủi ro tồn tại đối với bất kỳ tác nhân AI nào. Hiện tại, không có lỗ hổng bảo mật rõ ràng nào được tìm thấy trong chính giao thức MCP và các cơ chế truyền và tương tác dữ liệu nói chung là đáng tin cậy.
Bảo mật chỉ là rào cản đầu tiên. Thách thức thực sự là vượt qua sự phòng thủ lợi ích của các nhà sản xuất và thuyết phục nhiều nhà sản xuất hơn trở thành máy chủ MCP.
Theo Hou Xinyi, điều này liên quan đến sự hiểu biết về bản chất ‘vườn có tường bao quanh’ của các nền tảng internet. Dữ liệu là một rào cản cạnh tranh quan trọng đối với các nền tảng khác nhau, vì vậy nhiều nhà sản xuất chỉ có thể mở một số chức năng ngoại vi làm máy chủ MCP để thử nghiệm. Các nhà sản xuất có thể cần phải chờ xem hệ sinh thái MCP sẽ có tác động lớn đến mức nào.
Người phụ trách nói trên cho biết rằng nếu nó được kết nối với AI dưới dạng máy chủ MCP, nó có thể thu thập nhiều dữ liệu và thói quen của người dùng hơn, đồng thời cung cấp lại cho mô hình cơ sở của chính nó, điều này có thể trở thành động lực lớn nhất để các nhà sản xuất tích cực tham gia.
Khi thị trường máy chủ MCP thực sự dồi dào, nhiều vấn đề xa hơn phải được xem xét.
Ví dụ: làm thế nào để các cơ quan thông minh gọi các Ứng dụng khác nhau trên điện thoại di động? Người phụ trách đã đề cập rằng để đánh thức một Ứng dụng khác thông qua cơ quan thông minh AI cục bộ của điện thoại di động, sẽ có thêm một lớp ủy quyền ứng dụng và xác minh danh tính, không đơn giản như MCP gọi các dịch vụ đám mây và hiện tại không có giải pháp đặc biệt phù hợp.
Một ví dụ khác, khi nguồn cung dịch vụ quá mức, làm thế nào các cơ quan thông minh đưa ra lựa chọn - gọi đồ ăn mang đi JD hay đồ ăn mang đi Meituan? Sử dụng bản đồ Gaode hay bản đồ Baidu? Nhiều người được phỏng vấn đã đề cập rằng logic triệu gọi MCP ngày nay vẫn còn rất cơ bản, chủ yếu được xác định bởi ‘mô tả chức năng’ của nhà cung cấp dịch vụ và không có cơ chế sắp xếp và tối ưu hóa. Nếu một nhà cung cấp dịch vụ cố tình thêm ngôn ngữ quy nạp vào mô tả, chẳng hạn như ‘hiệu quả nhất’ và ‘phải chọn’, AI có thể bị hiểu lầm và chuyển hướng đến những nơi không nên đến.
Như người phụ trách công nghệ nói trên đã giải thích, ‘Giống như bạn không thể tìm thấy dịch vụ mình muốn trong công cụ tìm kiếm, nhưng một loạt thông tin lộn xộn bật lên. Làm thế nào để khớp chính xác dịch vụ mà người dùng cần nhất, hệ sinh thái MCP trong tương lai cũng sẽ phải đối mặt với vấn đề tương tự.’
Cuối cùng, quá trình triển khai bất kỳ tiêu chuẩn nào đều đầy thách thức. Hou Xinyi cho biết để thúc đẩy sự phổ biến của MCP, một cơ hội quan trọng tương tự như Manus có thể là cần thiết để thực sự làm cho toàn bộ ngành công nghiệp nhận ra sức mạnh của MCP.