Trong những năm gần đây, lĩnh vực Trí tuệ Nhân tạo (Artificial Intelligence - AI) đã chứng kiến những tiến bộ công nghệ vượt bậc, kéo theo sự ra đời của vô số thuật ngữ mới như MoE, Reinforcement Learning, Agents, computer-use và A2A. Đối với những người dùng bình thường thiếu kiến thức nền tảng về kỹ thuật, những thuật ngữ và khái niệm công nghệ này có thể gây choáng ngợp, dẫn đến gánh nặng nhận thức đáng kể. Do đó, sự tương tác của họ với AI thường chỉ giới hạn trong các cuộc trao đổi hỏi đáp đơn giản trong hộp chat.
MCP, hay Model Context Protocol, là một trong những khái niệm kỹ thuật đó. Trong năm qua, các AI agent đã phát triển nhanh chóng và các giao thức MCP đã nổi lên như một khả năng nền tảng quan trọng hỗ trợ tự động hóa các tác vụ phức tạp. Tuy nhiên, cuộc cách mạng MCP hiện tại dường như vẫn là lãnh địa độc quyền của các nhà phát triển, với tài liệu giao thức khó hiểu, đăng ký công cụ phức tạp và rào cản cao đối với cấu hình cá nhân hóa. Do đó, hầu hết người dùng bình thường chỉ có thể quan sát từ xa và cảm thấy khó có được trải nghiệm thực tế.
Tuy nhiên, tình hình này đang thay đổi. Vào ngày 23 tháng 4, Nano AI, một công ty con của 360, đã công bố ra mắt “MCP Toolbox“ được thiết kế cho người dùng cá nhân. Sản phẩm này được thiết kế riêng cho những người dùng bình thường không có nền tảng kỹ thuật, cho phép mọi người làm chủ cách sử dụng AI tiên tiến với chi phí học tập tối thiểu.
Sản phẩm này không chỉ hỗ trợ đầy đủ giao thức MCP mà còn có thể chạy các tác vụ agent dựa trên nhiều cơ sở hạ tầng mô hình lớn khác nhau. Ngoài ra, nó còn sở hữu các khả năng mạnh mẽ như tự động gọi các công cụ bên ngoài, truy cập cơ sở kiến thức AI và hỗ trợ các luồng tác vụ do người dùng xác định. Quan trọng nhất, ngưỡng hoạt động đã giảm đáng kể, không yêu cầu kỹ năng viết mã và có thể được sử dụng đơn giản bằng cách mở hộp chat.
Hiện tại, Super Agent đã ra mắt thử nghiệm công khai. Từ các mô hình đến các giao thức, hệ sinh thái công cụ và điều phối tác vụ được cá nhân hóa, Nano AI dường như đang hướng đến một sự đổi mới cấp sản phẩm thực sự đưa các AI agent vào cuộc sống hàng ngày của mọi người.
Vậy, ‘MCP Toolbox’ của Nano AI tốt đến mức nào? Để trả lời câu hỏi này, nhóm Machine Heart, sau khi có được trình độ thử nghiệm nội bộ, đã tiến hành một loạt các thử nghiệm.
Trải nghiệm thực tế với Toolbox: MCP trở nên đơn giản
Sử dụng Nano AI ‘MCP Toolbox’ có rào cản gia nhập rất thấp. Người dùng chỉ cần tải xuống và cài đặt ứng dụng Nano AI, sau đó đăng ký và đăng nhập, mà không cần bất kỳ cấu hình bổ sung nào.
Khi vào trang ‘Agent’ đã cập nhật, chúng ta có thể thấy rằng Nano AI đã phân loại các agent hiện có thành một số danh mục rộng, bao gồm nghiên cứu chuyên sâu, công việc và hiệu quả, và trợ lý cuộc sống. Đồng thời, nó cũng cung cấp quyền truy cập vào Toolbox và một quảng trường nghiên cứu điển hình.
Khi vào Toolbox, chúng ta có thể thấy rằng Nano AI đã định cấu hình hơn 100 MCP Server (con số này đã tăng từ 120 lên 132 trong quá trình viết bài này), bao gồm hàng chục công cụ MCP do chính Nano AI phát triển và hàng trăm công cụ MCP của bên thứ ba, bao gồm nhiều kịch bản khác nhau như hợp tác văn phòng, học thuật, dịch vụ cuộc sống, công cụ tìm kiếm, tài chính, giải trí truyền thông và thu thập dữ liệu, khiến nó trở thành hệ sinh thái MCP lớn nhất ở Trung Quốc. Ngoài ra, Nano AI cũng hỗ trợ người dùng định cấu hình MCP Server của riêng họ. Trong phần sau, chúng ta sẽ sử dụng thuật ngữ “Công cụ“ thay vì “MCP Server”, và lý do cho điều này sẽ được giải thích chi tiết sau.
Đầu tiên, hãy kiểm tra một ứng dụng mà độc giả Machine Heart sẽ thấy hấp dẫn nhất: tìm kiếm và sắp xếp các phát hiện nghiên cứu gần đây trên arXiv liên quan đến một chủ đề nghiên cứu cụ thể.
Trước tiên, hãy tìm kiếm Toolbox và thấy rằng các công cụ đặt trước của Nano AI đã bao gồm ‘Tìm kiếm arXiv’, vì vậy chúng ta không cần phải tự định cấu hình. Nhìn lại, chúng ta cũng có thể thấy rằng Nano AI đã có nhiều agent hỗ trợ truy xuất bài báo arXiv. Chúng ta sẽ chọn ‘Tìm kiếm bài báo chuyên nghiệp’ làm bước đầu tiên. Chúng ta có thể thấy rằng agent này được cấu hình với bốn công cụ: Nano AI Super Search, Tìm kiếm arXiv, Google Scholar và Tìm kiếm Học thuật, đáp ứng hoàn hảo nhu cầu của chúng ta. Viết một lời nhắc và thực thi:
Truy xuất các phát hiện nghiên cứu liên quan đến học tăng cường trên arXiv trong tháng qua, phân loại chúng theo nghiên cứu lý thuyết, cải tiến công nghệ và ứng dụng, đồng thời cung cấp một diễn giải đơn giản về tiến độ quan trọng.
Quy trình làm việc của ‘Tìm kiếm bài báo chuyên nghiệp’ như sau:
Tác vụ này rất đơn giản. Agent chỉ gọi công cụ ‘Tìm kiếm arXiv’ một lần và do đó hoàn thành tác vụ trong vòng chưa đầy nửa phút, chọn hai kết quả nghiên cứu tiêu biểu trong mỗi ba loại.
Tiếp theo, hãy thử agent lập kế hoạch đạp xe bằng lệnh: “Có tuyến đường đạp xe tốt nào gần Cầu Quan Âm ở Trùng Khánh không?”
Chúng ta có thể thấy rằng agent này đã sử dụng ba công cụ: maps_weather của amapmcpserver-cloud (để truy vấn thời tiết) và maps_direction_bicycling (để thiết lập tuyến đường) và gen_html (để tạo trang web), thực hiện trong tổng cộng 362 giây và cuối cùng thu được trang web động hiển thị ở trên. Bạn cũng có thể truy cập nó thông qua liên kết này: . Có, bạn có thể chia sẻ công khai trang web đã tạo!
Tiếp theo, hãy tăng độ khó. Lần này yêu cầu của chúng ta là “Tìm kiếm trên mạng, phân tích xu hướng thời trang nữ hiện tại và đưa ra báo cáo phân tích các yếu tố thời trang nữ.” Lần này chúng ta sẽ sử dụng trực tiếp ‘Agent Nghiên cứu Chuyên sâu’ của Nano AI, có thể chọn sử dụng các công cụ thích hợp theo nhu cầu cụ thể của người dùng, bao gồm MCP Server và trình duyệt tích hợp để hoàn thành các tác vụ sử dụng máy tính khác nhau. Tất nhiên, do đó, Agent Nghiên cứu Chuyên sâu thường mất nhiều thời gian hơn để thực hiện một tác vụ, lên đến hàng chục phút.
Khi thực hiện tác vụ, Agent Nghiên cứu Chuyên sâu trước tiên sẽ lên kế hoạch các bước cần thực hiện theo yêu cầu của tác vụ, sau đó thực hiện các bước từng bước theo kế hoạch.
Các bước thực hiện được tạo bởi Agent Nghiên cứu Chuyên sâu cho tác vụ cụ thể này được hiển thị trong hình bên dưới.
Đầu tiên, nó tìm kiếm nội dung liên quan đến xu hướng thời trang nữ hiện tại trên nhiều trang web, sau đó phân tích nội dung đã tìm kiếm và trực quan hóa kết quả. Cuối cùng, nó đưa ra báo cáo cuối cùng.
Trong quá trình này, nó đã gọi công cụ tìm kiếm cục bộ aiso_do_search ba lần, công cụ thu thập dữ liệu 360_crawl một lần, công cụ hộp cát mã đám mây cloud-sandbox chín lần, công cụ tóm tắt tóm tắt một lần và công cụ tạo trang web gen_html một lần.
Cuối cùng, chúng ta thu được một báo cáo chuyên sâu dài 30 trang, bao gồm sáu phần chính: phân tích chủ đề phong cách phổ biến, xu hướng màu sắc phổ biến, phân tích phong cách và yếu tố phổ biến, đánh giá toàn diện các yếu tố phổ biến, xu hướng vải và công nghệ, và đề xuất và ứng dụng phù hợp, vượt xa tác vụ một câu ban đầu của chúng ta.
Một vài trang nội dung được trích xuất từ báo cáo
Video sau đây cho thấy toàn bộ quá trình Agent Nghiên cứu Chuyên sâu của Nano AI hoàn thành tác vụ:
Phát ở tốc độ 4x
Không chỉ vậy, Nano AI còn tạo ra một trang web động có thể hiển thị sống động hơn các kết quả phân tích thu được:
Ngoài ra, xem xét việc Google gần đây đã công bố báo cáo tài chính quý đầu tiên, chúng ta cũng có thể để agent ‘Giám đốc Thông tin Chi tiết Ngành’ của Nano AI giúp chúng ta diễn giải nó.
Phiên bản trang web của nó có thể được truy cập tại: , và toàn bộ quy trình làm việc có thể được nhìn thấy trong video sau:
Hãy thử sử dụng Nano AI để viết một bài đánh giá phim phù hợp để đăng trên Xiaohongshu cho bộ phim truyền hình gần đây đang nổi tiếng ‘Cuộc sống tốt đẹp’, và robot duyệt Xiaohongshu đặt trước có thể làm tốt công việc.
Cẩn thận! Nội dung sẽ chứa спойлеры.
Video sau đây cho thấy toàn bộ quá trình Nano AI làm việc.
Chúng ta có thể thấy rằng trong quá trình này, Nano AI đã sử dụng hai công cụ liên quan đến Xiaohongshu, bao gồm collect_relate_info_redbook để thu thập thông tin trên Xiaohongshu và red_book_generate để tạo nội dung Xiaohongshu; ngoài ra, nó còn sử dụng browser_automation_task - công cụ này có thể mở trình duyệt tích hợp trong ứng dụng Nano AI để thực hiện các tác vụ. Với các hướng dẫn thích hợp, bạn cũng có thể sử dụng công cụ này để hoàn thành các tác vụ như đặt vé tàu, đăng trên Weibo và ghi chú trong một câu.
Cuối cùng, trên Nano AI, người dùng cũng có thể dễ dàng định cấu hình MCP của riêng họ. Ví dụ: ở đây, chúng ta đã định cấu hình thành công một công cụ để truy vấn và phân tích ghi chú Obsidian chỉ với một vài cài đặt tham số.
Sau đó, chỉ cần định cấu hình một agent gọi công cụ và chúng ta có thể truy xuất và phân tích thông minh các ghi chú đã thu thập của mình trong Nano AI. Video sau đây cho thấy một ví dụ:
Các trường hợp trên chỉ là phần nổi của tảng băng trôi về khả năng của Nano AI. Với MCP Toolbox, có nhiều điều khác mà người dùng có thể làm, chẳng hạn như thu thập và tìm kiếm thông tin, tạo hình ảnh và nội dung video, để AI sắp xếp các ghi chú đoạn flomo của bạn và đưa kết quả vào không gian làm việc Notion, phân tích cổ phiếu, tìm tuyến đường bay hiệu quả nhất để du lịch đến Bồ Đào Nha, chỉ định kế hoạch du lịch hoặc thể dục, tạo báo cáo công ty, quản lý kho lưu trữ đám mây hoặc tệp cục bộ… Giới hạn duy nhất là trí tưởng tượng của bạn!
Ẩn MCP trong Toolbox: Nano AI làm điều đó như thế nào
MCP, hay Model Context Protocol, lần đầu tiên được Anthropic phát hành vào tháng 11 năm 2024. Có thể nói nó là một “cầu nối” quan trọng kết nối các mô hình lớn với thế giới thực - nó cho phép các mô hình không chỉ trả lời câu hỏi mà còn gọi công cụ, lấy dữ liệu và thực hiện các tác vụ như con người. Năm nay, khi ngày càng có nhiều công ty áp dụng giao thức, nó đã trở thành một tiêu chuẩn thực tế trong việc sử dụng công cụ của LLM, tiếp tục giải phóng tiềm năng của các AI agent.
Tuy nhiên, đối với hầu hết người dùng, các nhãn điển hình của giao thức MCP là “phức tạp”, “ngưỡng kỹ thuật cao” và “dành riêng cho nhà phát triển”. Làm thế nào để trao khả năng này, ban đầu thuộc về các kỹ sư chuyên nghiệp, cho mọi người bình thường?
Để đáp ứng vấn đề thực tế này, câu trả lời của 360 là: không còn dạy bạn hiểu MCP nữa, mà trực tiếp đóng gói nó thành một bộ toolbox “có thể nhìn thấy, có thể nhấp và có thể dự đoán kết quả”.
1. Từ đơn giản hóa khái niệm đến giảm kích thước tương tác
Nhóm Nano AI trước tiên đã thực hiện việc dịch các khái niệm: người dùng không cần hiểu MCP Server hoặc API Key là gì, họ chỉ cần biết rằng đây là một “công cụ“ hoặc “kỹ năng“ có thể sử dụng được - đó là lý do tại sao chúng ta sử dụng thuật ngữ “công cụ” trước đó. Việc đóng gói giao diện giao thức vốn khó hiểu thành các nhãn công cụ dễ hiểu như “tìm kiếm”, “viết” và “phân tích dữ liệu” giúp giảm đáng kể ngưỡng nhận thức của người dùng và cho phép người dùng hiểu trực quan hơn ý nghĩa của cái gọi là MCP Server đối với các mô hình lớn AI. Đây là triết lý thiết kế của Nano AI Toolbox. Đằng sau điều này là việc đóng gói lại giao thức MCP của Nano AI và tái cấu trúc kỹ thuật của lớp giao diện.
Những gì người dùng nhìn thấy trong giao diện là lựa chọn và kéo đơn giản, nhưng trên thực tế, đó là lập lịch hơn 100 MCP Server do chính Nano AI phát triển hoặc tích hợp được lựa chọn cẩn thận. Các công cụ này bao gồm các kịch bản như văn phòng, học thuật, tài chính, công cụ tìm kiếm, thu thập dữ liệu web và xử lý hình ảnh. Người dùng có thể cho phép các mô hình lớn tự động gọi các “bộ não bên ngoài” này để hoàn thành các chuỗi tác vụ phức tạp mà không cần viết một dòng mã nào.
Nano AI thậm chí còn có API Key tích hợp cho nhiều công cụ MCP như Firecrawl, Brava Search và AutoNavi Maps.
2. Phá vỡ “dặm cuối cùng” giữa các mô hình và công cụ
Trong quá khứ, ngay cả khi các mô hình lớn có khả năng hiểu ngôn ngữ mạnh mẽ, chúng vẫn bị mắc kẹt trong hiệu ứng đảo “gọi công cụ”. Cách tiếp cận của Nano AI là sử dụng giao thức MCP làm ngôn ngữ trung gian, về cơ bản phá vỡ cơ chế hợp tác của “mô hình lớn + công cụ”.
Điều này không chỉ giải quyết vấn đề gọi điện mà còn mở rộng đáng kể ranh giới khả năng thực tế của mô hình. Ví dụ: người dùng chỉ cần nói với agent “Hãy giúp tôi tạo một báo cáo phân tích giá cổ phiếu NVIDIA” và agent có thể tự động chia nhỏ các bước tác vụ, huy động công cụ tìm kiếm, thu thập nội dung trang, tạo biểu đồ phân tích và đưa ra một báo cáo có cấu trúc rõ ràng. Trong giai đoạn này, có thể gọi 5 đến 7 công cụ, nhưng người dùng chỉ nhìn thấy một trang kết quả.
Đây chính xác là hiện thân của khả năng “kết hợp công cụ” của MCP: nó cho phép các agent tự lập lịch các nguồn lực, lập kế hoạch quy trình và tiến hành thử và sai phản hồi và tự tối ưu hóa trong quá trình hoạt động, hình thành một con đường giải quyết tác vụ có tính nhân hình cao.
3. Hoạt động cục bộ, an toàn và đáng tin cậy: Đánh bóng chuyên sâu ngăn xếp công nghệ
Không giống như nhiều “cơ thể thông minh đám mây”, Nano AI đã chọn một con đường khó khăn hơn nhưng đầy hứa hẹn hơn: triển khai MCP client cục bộ, cho người dùng quyền kiểm soát lớn hơn.
Điều này mang lại ít nhất ba lợi thế chính:
- Tự do gọi: Các cơ thể thông minh cục bộ có thể truy cập hệ thống tệp của người dùng, gọi trình duyệt và truy xuất cơ sở dữ liệu để đạt được quá trình xử lý tác vụ được cá nhân hóa thực sự.
- Phá vỡ các rào cản: Để đáp ứng nhu cầu riêng của AI, 360 đã tạo ra một trình duyệt AI chuyên dụng cho Nano AI và điều chỉnh nó cho các nền tảng chính thống ở Trung Quốc. Nó có thể phá vỡ tường đăng nhập, xác minh người-máy và can thiệp luồng thông tin, đồng thời tự động hoàn thành các thao tác như đăng nhập và xác minh trượt.
- Đảm bảo hộp cát: Dựa trên sự tích lũy công nghệ bảo mật của 360, Nano AI cũng sẽ giới thiệu một hộp cát thời gian chạy cục bộ trong tương lai, có thể theo dõi, cảnh báo sớm và hạn chế mô hình lớn có thể vận hành sai các tệp cục bộ trong thời gian thực để đảm bảo an toàn dữ liệu.
Toàn bộ hệ thống này không chỉ cho phép người dùng “sử dụng” mà còn “sử dụng nó một cách an toàn, hiệu quả và có thể mở rộng”.
4. Đối mặt với người dùng lớn: Xây dựng một hệ sinh thái MCP thực sự mở
Nano AI không chỉ đóng gói các công cụ MCP mà còn đi đầu trong việc mở ra một hệ sinh thái kỹ năng mở. Hiện tại, nền tảng này với khối lượng truy cập hàng tháng hơn 400 triệu có hơn 100 công cụ MCP chất lượng cao trực tuyến và nhiều MCP Server của bên thứ ba đang được nhập vào. Người dùng có thể tự do tải lên, sử dụng lại và kết hợp các kỹ năng công cụ để tạo ra AI agent của riêng họ.
Đối với người dùng bình thường, điều này có nghĩa là không còn “sử dụng AI do người khác đặt ra”, mà có thể xây dựng một trợ lý AI được cá nhân hóa theo nhu cầu của riêng họ. Phân tích giấy, tạo dữ liệu, giám sát xu hướng, xây dựng trang web, dự đoán cổ phiếu… Miễn là có nhu cầu, có các công cụ có thể được sử dụng kết hợp và có các tác vụ có thể được thực hiện tự động.
Đối với toàn bộ ngành, điều này có nghĩa là công nghệ agent đang chuyển từ “hệ thống khép kín” sang giai đoạn “mạng sinh thái”. Các công cụ, mô hình và tác vụ sẽ không còn bị cô lập nữa, mà sẽ được liên kết bởi MCP như một ngôn ngữ chung, tạo ra một mô hình cộng tác thông minh chưa từng có.
Các rào cản kỹ thuật đã bị phá vỡ: Các cơ quan thông minh chìm xuống điểm cuối C
Ngày xửa ngày xưa, ngưỡng sử dụng các cơ quan thông minh vẫn còn cao trên khung cửa của các nhà phát triển. Giờ đây, với sự ra mắt của Nano AI ‘MCP Toolbox’, MCP, một giao thức được biết đến như là cơ sở hạ tầng tự động hóa AI, đã đi vào tầm nhìn của người dùng bình thường lần đầu tiên dưới một hình thức gần như “phong cách ngớ ngẩn”. Như Zhou Hongyi, chủ tịch của Tập đoàn 360, đã nói tại cuộc họp chia sẻ trước khi phát hành: “Người dùng không cần biết MCP Server nào được tự động gọi trong agent.” Với toolbox, Nano AI đang phá vỡ các rào cản kỹ thuật của MCP và cho phép các cơ quan thông minh tiếp tục chìm xuống điểm cuối C.
Biến MCP thành một ‘toolbox’ nghe có vẻ dễ dàng, nhưng rất khó để thực hiện. Điều này không chỉ kiểm tra khả năng tích hợp công nghệ, mà còn kiểm tra “sự đồng cảm” của tư duy sản phẩm và sự hiểu biết của người dùng. Những gì Nano AI đang làm là đóng gói sự phức tạp vào cốt lõi và trao quyền tự do cho người dùng - để mọi người bình thường có thể có quyền “gọi thế giới AI” như các nhà phát triển.
Quá trình này không phải là một quá trình xây dựng giao diện trực quan đơn giản, mà là một sự thay đổi mô hình ứng dụng AI sâu sắc: các cơ quan thông minh không còn chỉ là các mô hình có thể nói và trả lời, mà là các đối tác thực sự có khả năng lập lịch các khả năng, gọi công cụ và hoàn thành các tác vụ.
Kể từ đó, MCP thực sự bắt đầu chuyển sang người dùng đầu cuối C, có thể là một điểm khởi đầu lịch sử đáng nhớ.