Bình minh của MCP và A2A: Một sự thay đổi mô hình
Sự xuất hiện của giao thức Model Context Protocol (MCP) và Agent2Agent (A2A) vào năm 2025 đánh dấu một thời điểm then chốt trong quá trình phát triển của ứng dụng AI. MCP hướng đến việc chuẩn hóa các giao diện để phá vỡ các silo dữ liệu, cho phép LLM truy cập các tài nguyên bên ngoài một cách hiệu quả và tạo điều kiện cho luồng dữ liệu liền mạch trên các hệ thống và nền tảng. A2A tiếp tục thúc đẩy sự tương tác liền mạch giữa các tác nhân, thúc đẩy sự hợp tác và giao tiếp để hình thành các hệ thống gắn kết, tích hợp.
Sự thay đổi từ MCP sang A2A nhấn mạnh sự nhấn mạnh ngày càng tăng về ‘tính mở’ như một động lực chính trong hệ sinh thái ứng dụng AI. Tính mở này bao gồm cả khả năng tương tác kỹ thuật và tinh thần hợp tác. Từ một góc độ rộng hơn, sự chuyển đổi này phản ánh một sự tiến triển tự nhiên trong quá trình phát triển công nghệ: một sự chuyển đổi từ sự phấn khích ban đầu sang triển khai thực tế, và từ sự đổi mới cô lập sang sự phát triển hệ sinh thái hợp tác.
Trong lịch sử, giá trị của LLM đã được quy cho quy mô tham số và khả năng độc lập một cách không cân xứng. Ngày nay, MCP và A2A giải quyết vấn đề quan trọng về kết nối giữa các ứng dụng AI và định hình lại động lực cạnh tranh của hệ sinh thái LLM. Phát triển ứng dụng AI đang phát triển từ một phương pháp tiếp cận ‘sói đơn độc’ sang một mô hình kết nối với nhau. Điều này đòi hỏi CTO phải đánh giá lại giá trị AI, chuyển trọng tâm từ việc chỉ theo đuổi kích thước mô hình và các chiến lược ‘tất cả trong một’ sang tận dụng các nền tảng kết nối các khả năng AI đa dạng. Mục tiêu là nhúng AI một cách hữu cơ vào các quy trình kinh doanh và hệ thống sản xuất hiện có, cải thiện hiệu quả tổng thể thông qua hợp tác và tiêu chuẩn hóa, giải quyết các vấn đề quan trọng với tài nguyên tính toán tối thiểu và vượt qua ‘ROI dilemma’.
Tai họa của sự lãng phí tính toán và các kịch bản không phù hợp
Việc không thể vượt qua nút thắt cổ chai đầu tư cao, đầu ra thấp từ lâu đã gây khó khăn cho việc triển khai LLM. Hiện tượng này phản ánh những mâu thuẫn sâu sắc trong quá trình phát triển AI. Thứ nhất, có sự lãng phí đáng kể trong sức mạnh tính toán. Dữ liệu chỉ ra rằng các trung tâm tính toán mục đích chung cấp doanh nghiệp chỉ hoạt động với mức sử dụng 10-15%, để lại một lượng lớn tài nguyên tính toán nhàn rỗi. Thứ hai, có sự sai lệch về các kịch bản mà hiệu suất mô hình không đáp ứng được nhu cầu thực tế của các kịch bản kinh doanh.
Một vấn đề phổ biến là ‘quá mức cần thiết’ khi sử dụng các mô hình lớn cho các tác vụ nhẹ. Một số doanh nghiệp lạm dụng LLM mục đích chung cho các ứng dụng đơn giản. Ngoài ra, bản chất độc đáo của các kịch bản kinh doanh tạo ra những khó khăn. Sử dụng các mô hình lớn sẽ phát sinh chi phí tính toán cao và thời gian suy luận dài. Chọn các mô hình nhỏ hơn có thể không đáp ứng được yêu cầu kinh doanh. Xung đột này đặc biệt rõ ràng trong các kịch bản kinh doanh đòi hỏi kiến thức chuyên môn về lĩnh vực cụ thể.
Hãy xem xét kịch bản phù hợp giữa tài năng và công việc trong ngành tuyển dụng. Các công ty yêu cầu các mô hình có khả năng suy luận sâu sắc để hiểu các mối quan hệ phức tạp giữa sơ yếu lý lịch và mô tả công việc, đồng thời cũng yêu cầu thời gian phản hồi nhanh chóng. Thời gian suy luận dài của LLM mục đích chung có thể làm giảm đáng kể trải nghiệm người dùng, đặc biệt là dưới nhu cầu người dùng đồng thời cao.
Để cân bằng hiệu suất và hiệu quả, chưng cất mô hình đã đạt được sức hút trong những năm gần đây. Việc ra mắt DeepSeek-R1 vào đầu năm nay đã nhấn mạnh hơn nữa giá trị của kỹ thuật này. Trong việc xử lý các tác vụ suy luận phức tạp, chưng cất mô hình nắm bắt mẫu ‘chuỗi suy nghĩ’ của DeepSeek-R1, cho phép các mô hình học sinh nhẹ kế thừa khả năng suy luận của nó thay vì chỉ bắt chước kết quả đầu ra.
Ví dụ: Zhaopin, một nền tảng tuyển dụng hàng đầu, đã sử dụng DeepSeek-R1 (hơn 600 tỷ tham số) làm mô hình giáo viên để chưng cất chuỗi suy nghĩ và logic ra quyết định được sử dụng trong các tác vụ phù hợp giữa tài năng và công việc. Họ đã sử dụng nền tảng phát triển mô hình Qianfan AI Cloud của Baidu để chưng cất mô hình giáo viên và chuyển nó sang mô hình ERNIE Speed (hơn 10 tỷ tham số), mô hình học sinh. Cách tiếp cận này đã đạt được hiệu suất tương đương với mô hình giáo viên (DeepSeek-R1 đạt được độ chính xác 85% trong kết quả liên kết suy luận, trong khi mô hình học sinh đạt được hơn 81%), cải thiện tốc độ suy luận đến mức chấp nhận được và giảm chi phí xuống 30% so với ban đầu đồng thời đạt được tốc độ nhanh hơn 1 lần so với DeepSeek-R1 đầy đủ.
Hiện tại, các doanh nghiệp thường áp dụng hai phương pháp để chưng cất mô hình: xây dựng một hệ thống kỹ thuật hoàn chỉnh từ cơ sở hạ tầng và GPU đến các khung đào tạo, hoặc sử dụng các giải pháp dựa trên nền tảng như nền tảng phát triển mô hình Qianfan hoặc các nhà cung cấp khác. Yao Sijia, một chuyên gia ứng dụng AI tại Zhaopin, cho biết rằng mặc dù Zhaopin có khung đào tạo riêng, nhưng họ đã chọn nền tảng phát triển mô hình Qianfan để chưng cất mô hình vì ba cân nhắc chính:
- Hỗ trợ toàn diện: Nền tảng phát triển mô hình Qianfan cung cấp hỗ trợ hàng đầu trong ngành cho việc chưng cất mô hình, tối ưu hóa sâu sắc toàn bộ chuỗi kỹ thuật xung quanh các kịch bản chưng cất.
- Kiểm soát chi phí: So với việc mua và bảo trì phần cứng độc lập, nền tảng phát triển mô hình Qianfan mang lại những lợi thế đáng kể trong việc kiểm soát chi phí và phân bổ tài nguyên linh hoạt hơn.
- Hiểu sâu sắc về các kịch bản kinh doanh: Nhóm giải pháp chuyên nghiệp của Baidu hiểu sâu sắc các yêu cầu cốt lõi như ‘phù hợp chính xác’ và ‘phản hồi đồng thời cao’ trong lĩnh vực tuyển dụng và hợp tác với các công ty để khám phá các giải pháp.
Yao Sijia nói thêm rằng Zhaopin sẽ tiếp tục tiên phong trong các kịch bản AI + tuyển dụng, sử dụng công nghệ Tinh chỉnh Học tăng cường (RFT) của Qianfan để cải thiện hơn nữa hiệu suất mô hình. Họ có kế hoạch khám phá xem liệu mô hình giáo viên có thể được cải thiện hơn nữa hay không và liệu các cơ chế phần thưởng tốt hơn có thể tối ưu hóa các mô hình học sinh đã được chưng cất để cải thiện độ chính xác hay không. Qianfan là nền tảng đầu tiên ở Trung Quốc sản xuất các phương pháp học tăng cường hàng đầu như RFT và GRPO. Bằng cách chuyển đổi các phương pháp học tăng cường tiên tiến này thành các giải pháp có thể triển khai, Qianfan mang đến cho các công ty như Zhaopin nhiều khả năng hơn để tối ưu hóa hiệu suất mô hình.
Tuy nhiên, chưng cất mô hình chỉ tối ưu hóa hiệu suất của một mô hình duy nhất. Trong các kịch bản kinh doanh phức tạp, cần phải kết hợp chính xác các khả năng AI đa dạng với các kịch bản.
Hãy xem xét một chiếc điện thoại thông minh. Trong các kịch bản nhận dạng ý định như trợ lý cuộc gọi, các mô hình nhẹ thường được sử dụng để nhanh chóng xác định các vấn đề của người dùng. Đối với các kịch bản hỏi đáp kiến thức chung như truy vấn thời tiết và truy xuất tin tức, các mô hình cỡ vừa thường được sử dụng để nhanh chóng cung cấp câu trả lời chính xác và giàu thông tin. Trong các kịch bản phân tích dữ liệu và suy luận logic đòi hỏi tư duy sâu sắc, các mô hình lớn thường được sử dụng.
Điều này có nghĩa là một chiếc điện thoại thông minh cần linh hoạt gọi nhiều LLM trong các kịch bản nhu cầu khác nhau của người dùng. Đối với các nhà sản xuất điện thoại, điều này đặt ra những thách thức như chi phí lựa chọn mô hình cao và các quy trình gọi phức tạp do các giao thức giao diện mô hình khác nhau.
Để giải quyết những khó khăn trong ngành này, nền tảng phát triển mô hình Qianfan đã sản xuất các giao diện định tuyến mô hình. So với việc sử dụng trựctiếp các mô hình gốc của nhà máy, nó cung cấp khả năng phát triển tùy chỉnh và gọi API có sẵn, giúp các công ty tiết kiệm khối lượng công việc kỹ thuật và thời gian phát triển đồng thời giảm chi phí. Ngoài ra, nền tảng phát triển mô hình Qianfan hỗ trợ gọi linh hoạt cho người dùng quy mô lớn, đảm bảo tốc độ và tính ổn định ngay cả dưới nhu cầu gọi tần số cao và đồng thời cao.
Ở cấp độ mô hình, các khả năng kỹ thuật như chưng cất mô hình và gọi nhiều mô hình đang giúp ngày càng nhiều công ty tối ưu hóa việc phân bổ tài nguyên, cho phép các khả năng AI kết hợp chính xác với các kịch bản kinh doanh đồng thời giảm chi phí. Ở cấp độ ứng dụng, MCP và A2A, đã thu hút được sự chú ý đáng kể của ngành, tiếp tục giảm chi phí thử và sai của AI, giúp các công ty tối ưu hóa các mô hình hợp tác ứng dụng và thay đổi mô hình ‘tái tạo lại bánh xe’ kém hiệu quả trong quá trình phát triển tác nhân truyền thống.
Một ‘đòn kết hợp’ từ các mô hình đến các ứng dụng là câu trả lời hoàn hảo để giúp LLM vượt qua ‘ROI dilemma’.
Từ đóng sang mở: Giảm rào cản đối với thử nghiệm AI
Kể từ năm 2023, từ khóa chính cho việc triển khai ứng dụng AI đã dần chuyển sang Tác nhân. Đến năm 2024, hầu như tất cả các công ty đều thảo luận về các ứng dụng và phát triển Tác nhân. Tuy nhiên, Tác nhân vào thời điểm đó thiếu khả năng lập kế hoạch thực sự và chủ yếu dựa trên quan điểm quy trình làm việc, kết nối LLM với các ứng dụng cơ bản bằng cách ghép hoặc thủ tục hóa các thành phần thông qua các quy tắc do chuyên gia điều khiển.
Với sự trỗi dậy gần đây của các giao thức MCP và A2A, năm 2025 đã trở thành ‘Năm Tác nhân Không’ thực sự. Đặc biệt, tác động của MCP đối với lĩnh vực AI có thể so sánh với tác động của giao thức TCP/IP đối với Internet.
Zhou Ze’an, Giám đốc điều hành của Biyao Technology, đã tuyên bố trong một cuộc phỏng vấn với InfoQ rằng giá trị cốt lõi của MCP đối với lĩnh vực AI được phản ánh ở ba khía cạnh:
- Tiêu chuẩn hóa việc gọi công cụ LLM: Trong quá khứ, mỗi công ty đều có cách triển khai Function Call riêng, với sự khác biệt đáng kể giữa chúng. MCP thiết lập một tiêu chuẩn truy cập thống nhất, cho phép tiêu chuẩn hóa thực sự các chương trình lập lịch ứng dụng giữa máy khách và máy chủ. Ngoài ra, MCP cho phép tương tác không chỉ giữa các LLM hỗ trợ Function Call mà còn với các LLM không có tính năng này.
- Giải quyết những thách thức hợp tác công cụ: Tiêu chuẩn thống nhất của giao thức MCP làm cho việc xây dựng các dịch vụ Tác nhân trở nên đa dạng hơn. Các nhà phát triển cần xem xét không chỉ các Tác nhân và dịch vụ MCP của riêng họ mà còn cả cách tích hợp các khả năng bên ngoài để đạt được các chức năng Tác nhân mạnh mẽ hơn.
- Kiểm soát toàn bộ ngữ cảnh thông qua LLM, dẫn đến tương tác thân thiện với người dùng hơn: Khi xây dựng quy trình, nó có thể sử dụng nhiều nguồn dữ liệu hơn để giải quyết các tác vụ phức tạp mà trước đây không thể thực hiện được.
‘Nói chung, giao thức MCP làm giảm đáng kể rào cản để các công ty áp dụng công nghệ AI. Trong quá khứ, quá trình tích hợp kỹ thuật để truy cập Tác nhân rất phức tạp. Giờ đây, các công ty không còn cần phải hiểu sâu sắc các chi tiết triển khai kỹ thuật phức tạp mà chỉ cần làm rõ nhu cầu kinh doanh của họ,’ Zhou Ze’an nói. Biyao Technology đã mở hoàn toàn các khả năng xử lý tài liệu của LLM dọc ngành nhân sự tự phát triển ‘Bole’ thông qua giao thức MCP, bao gồm hợp đồng, sơ yếu lý lịch và PPT, đồng thời trở thành một trong những nhà phát triển doanh nghiệp đầu tiên ra mắt các thành phần MCP trên nền tảng phát triển ứng dụng Qianfan. Hiện tại, bất kỳ doanh nghiệp hoặc nhà phát triển cá nhân nào cũng có thể trực tiếp gọi các khả năng chuyên môn của nó trên nền tảng Qianfan.
‘Baidu sẽ giúp các nhà phát triển chủ động và toàn diện đón nhận MCP.’ Tại Hội nghị Nhà phát triển AI Baidu Create2025 được tổ chức vào ngày 25 tháng 4, nền tảng Qianfan đã chính thức ra mắt các dịch vụ MCP cấp doanh nghiệp. Người sáng lập Baidu Li Yanhong đã trình bày trường hợp nền tảng Qianfan đón nhận MCP, cho phép các nhà phát triển linh hoạt truy cập 1000 Máy chủ MCP, bao gồm tìm kiếm, bản đồ và Wenku AI Baidu, khi tạo Tác nhân. Ngoài ra, Qianfan đã ra mắt một công cụ mã thấp để tạo Máy chủ MCP, cho phép các nhà phát triển dễ dàng phát triển Máy chủ MCP của riêng họ trên Qianfan và xuất bản chúng lên Qianfan MCP Square chỉ với một cú nhấp chuột. Các Máy chủ MCP này cũng sẽ được tìm kiếm Baidu lập chỉ mục ngay lập tức, cho phép chúng được nhiều nhà phát triển khám phá và sử dụng hơn.
Trên thực tế, Qianfan đã liên tục giải quyết vấn đề dặm cuối cùng của việc triển khai AI trước sự trỗi dậy của giao thức MCP, giúp các công ty hiệu quả và với các rào cản thấp để tận hưởng những lợi ích của công nghệ AI và cung cấp các giải pháp trưởng thành cho nhiều ngành công nghiệp.
Ví dụ: trong ngành công nghiệp nhà thông minh, các công ty thường phải đối mặt với một vấn đề chung: làm thế nào để cung cấp các dịch vụ thông minh chính xác cho các mô hình sản phẩm khổng lồ? Với việc triển khai LLM được đẩy nhanh, ngày càng có nhiều công ty sử dụng Tác nhân để nhanh chóng cung cấp cho người dùng những câu trả lời chính xác và được cá nhân hóa. Tuy nhiên, điều này cũng mang đến một thách thức mới: làm thế nào để phát triển và quản lý nhiều Tác nhân? Các thương hiệu nhà thông minh thường có nhiều loại sản phẩm và mô hình khác nhau. Xây dựng một Tác nhân cho từng sản phẩm riêng biệt sẽ không chỉ dẫn đến chi phí phát triển cao mà còn cả chi phí quản lý và bảo trì đáng kể trong giai đoạn sau.
Ví dụ: một thương hiệu nhà thông minh hàng đầu đã sử dụng nền tảng phát triển ứng dụng Baidu AI Cloud Qianfan để coi tên tệp là các lát độc lập và nhúng thông tin lát tên tệp vào từng lát chi tiết. Thay vì xây dựng một Tác nhân cho từng sản phẩm riêng biệt, họ chỉ cần sắp xếp cơ sở kiến thức tương ứng và xác định tên mô hình sản phẩm. Sau đó, họ có thể sử dụng chiến lược phân tích tự động khung RAG của nền tảng Qianfan để đạt được sự kết hợp chính xác giữa các mô hình sản phẩm và các điểm kiến thức.
Nền tảng phát triển ứng dụng Qianfan cũng cung cấp cho thương hiệu một bộ công cụ hoạt động để xây dựng một trung tâm thông minh không ngừng phát triển. Thông qua chức năng truyền dữ liệu ngược, tất cả các bản ghi tương tác của người dùng được chuyển đổi thành tài liệu tối ưu hóa. Nhân viên vận hành có thể xem các vấn đề tần số cao trong thời gian thực và can thiệp ngay lập tức vào các điểm kiến thức chưa được khám phá, tạo thành một vòng khép kín ‘vận hành - phản hồi - tối ưu hóa’. Ngoài ra, nền tảng phát triển ứng dụng Qianfan và Trợ lý AI Xiaodu đã cùng nhau xây dựng một khung tương tác bằng giọng nói. Dựa vào khung này, thương hiệu có thể cho phép phần cứng ‘nói chuyện’ trực tiếp với người dùng, đạt được trải nghiệm tương tác tự nhiên, hiệu quả và được cá nhân hóa hơn.
Từ MCP đến A2A, tính mở đã trở thành một từ khóa mới trong hệ sinh thái ứng dụng LLM. Tính mở cũng là ý định ban đầu của nền tảng Qianfan. Ngay từ ngày đầu tiên phát hành vào năm 2023, Qianfan đã áp dụng tư thế mở nhất để truy cập vô số LLM của bên thứ ba. Hiện tại, Qianfan có quyền truy cập vào hơn 100 mô hình từ hơn 30 nhà cung cấp mô hình, bao gồm 11 loại khả năng như văn bản, hình ảnh và suy luận sâu, bao gồm các mô hình của bên thứ ba như DeepSeek, LLaMA, Tongyi và Vidu. Nó cũng cung cấp đầy đủ các LLM Wenxin, bao gồm mô hình đa phương thức gốc Wenxin 4.5 Turbo mới được phát hành và mô hình tư duy sâu Wenxin X1 Turbo, cũng như mô hình tư duy sâu Wenxin X1 đã được phát hành trước đó.
Đối với các công ty muốn triển khai nhanh chóng công nghệ AI, Baidu AI Cloud đang dần trở thành lựa chọn hàng đầu. Dữ liệu thị trường là bằng chứng tốt nhất. Hiện tại, nền tảng Qianfan phục vụ hơn 400.000 khách hàng, với tỷ lệ thâm nhập hơn 60% trong các doanh nghiệp trung ương. Theo Báo cáo giám sát và phân tích dự án đấu thầu mô hình lớn của Trung Quốc (2025Q1), Baidu đã đạt được vị trí đầu tiên kép về số lượng dự án đấu thầu mô hình lớn và số tiền trúng thầu trong quý đầu tiên: trúng thầu 19 dự án đấu thầu mô hình lớn với số tiền dự án được tiết lộ là hơn 450 triệu nhân dân tệ và các dự án mô hình lớn trúng thầu gần như đều từ khách hàng doanh nghiệp nhà nước trung ương trong các ngành như năng lượng và tài chính.
Bảng điểm của Baidu AI Cloud cũng gửi một tín hiệu ra thế giới bên ngoài: trong trận chiến dài hạn này để triển khai công nghệ AI, chỉ những giải pháp thực sự hiểu được những khó khăn trong ngành và có thể giúp các công ty giảm chi phí thử và sai mới là quan trọng nhất.