Sự phát triển của AI đang diễn ra với tốc độ chóng mặt, với sự ra đời liên tục của các mô hình và tiến bộ mới. Trong số những phát triển gần đây, việc Alibaba phát hành mã nguồn mở mô hình Tongyi Qianwen thế hệ tiếp theo, Qwen3, đã thu hút sự chú ý đáng kể. Tự hào với kích thước tham số nhỏ hơn, chi phí giảm và hiệu năng được nâng cao so với các mô hình hàng đầu khác, Qwen3 đã định vị mình là một đối thủ mạnh trên đấu trường AI toàn cầu.
Qwen3 nổi bật là một mô hình suy luận hỗn hợp tiên phong ở Trung Quốc, mang đến sự kết hợp hấp dẫn giữa hiệu năng được cải thiện và chi phí giảm. Với tổng số 235 tỷ tham số, nó đòi hỏi ít tài nguyên hơn đáng kể để triển khai so với các mô hình khác có khả năng tương tự. Tính hiệu quả về chi phí này làm cho Qwen3 trở thành một lựa chọn hấp dẫn cho các tổ chức muốn tận dụng sức mạnh của các mô hình ngôn ngữ lớn mà không tốn quá nhiều chi phí.
Trao quyền cho các tác nhân và ứng dụng AI
Một trong những điểm nổi bật chính của Qwen3 là tiềm năng của nó trong việc tăng tốc phát triển và triển khai các tác nhân AI và các ứng dụng mô hình ngôn ngữ lớn. Trong các đánh giá về khả năng tác nhân mô hình, Qwen3 đã đạt được điểm số ấn tượng, vượt trội so với các mô hình hàng đầu khác. Điều này cho thấy rằng Qwen3 có thể giảm bớt rào cản gia nhập cho việc phát triển và triển khai các tác nhân AI, có khả năng dẫn đến sự gia tăng các ứng dụng sáng tạo.
Nhu cầu ngày càng tăng đối với khả năng gọi công cụ trong các tác nhân AI
Các tác nhân AI ngày càng được sử dụng để tự động hóa các tác vụ phức tạp và tương tác với thế giới thực. Các khả năng cần thiết của một tác nhân AI phụ thuộc vào độ phức tạp và khả năng tự chủ của các tác vụ mà nó được thiết kế để thực hiện.
Một hệ thống tác nhân AI mạnh mẽ thường yêu cầu các khả năng sau từ mô hình cơ bản:
Hiểu và tạo ngôn ngữ cơ bản: Khả năng diễn giải chính xác các hướng dẫn, hiểu ngữ cảnh và tạo ra các phản hồi bằng ngôn ngữ tự nhiên.
Sử dụng và gọi công cụ: Khả năng hiểu và sử dụng các công cụ bên ngoài, bao gồm cả API, để hoàn thành các tác vụ cụ thể.
Lý luận và lập kế hoạch: Khả năng chia nhỏ các mục tiêu phức tạp thành các tác vụ phụ nhỏ hơn và thực hiện chúng theo một trình tự hợp lý.
Qwen3 giải quyết nhu cầu quan trọng về khả năng gọi công cụ được cải thiện trong các tác nhân AI. Nó có thể tích hợp các công cụ bên ngoài một cách chính xác, cả ở chế độ tư duy và không tư duy, khiến nó trở thành một mô hình mã nguồn mở hàng đầu cho các tác vụ dựa trên tác nhân phức tạp.
Trong các đánh giá về khả năng tác nhân mô hình, Qwen3 đã đạt được điểm số cao, vượt trội so với các mô hình hàng đầu khác. Điều này biểu thị sự giảm đáng kể các rào cản gia nhập cho việc phát triển và triển khai các tác nhân AI.
Qwen3 hỗ trợ gốc giao thức MCP và sở hữu các khả năng gọi công cụ mạnh mẽ. Kết hợp với khuôn khổ Qwen-Agent, bao gồm các mẫu và trình phân tích cú pháp gọi công cụ, nó đơn giản hóa quy trình phát triển và cho phép các hoạt động tác nhân hiệu quả trên các thiết bị di động và máy tính. Các nhà phát triển có thể xác định các công cụ có sẵn dựa trên các tệp cấu hình MCP và tích hợp chúng bằng cách sử dụng khuôn khổ Qwen-Agent hoặc các công cụ tùy chỉnh khác. Điều này cho phép phát triển nhanh chóng các tác nhân thông minh với cơ sở kiến thức và khả năng sử dụng công cụ.
Hơn nữa, Qwen3 thể hiện hiệu năng mạnh mẽ trong việc hiểu và tạo ngôn ngữ cơ bản, cũng như khả năng lý luận.
Điều này có nghĩa là, với các khả năng mô hình tương đương, chi phí gọi mô hình cho các ngành ứng dụng tác nhân và AI thấp hơn và việc gọi thuận tiện hơn, điều này chắc chắn sẽ thúc đẩy sự xuất hiện của nhiều tác nhân và ứng dụng AI mới hơn.
Cam kết mã nguồn mở
Alibaba đã tái khẳng định cam kết của mình đối với cộng đồng mã nguồn mở bằng cách cung cấp một loạt các mô hình Qwen3 đa dạng. Điều này bao gồm hai mô hình Mixture-of-Experts (MoE) với 30 tỷ và 235 tỷ tham số, cũng như sáu mô hình dày đặc với các kích thước khác nhau.
Mô hình MoE 30 tỷ tham số đạt được sự tăng cường hiệu năng đáng kể, mang lại hiệu năng tương đương với mô hình Qwen2.5-32B thế hệ trước. Các mô hình dày đặc cũng thể hiện hiệu năng được cải thiện, với ngay cả các mô hình nhỏ hơn cũng đạt được kết quả ấn tượng.
Bởi vì tất cả các mô hình Qwen3 là các mô hình suy luận hỗn hợp, API có thể được thiết lập khi cần thiết để đặt ‘ngân sách tư duy’ (tức là số lượng mã thông báo tối đa dự kiến cho tư duy chuyên sâu) để thực hiện các mức độ tư duy khác nhau và đáp ứng linh hoạt các nhu cầu đa dạng của các ứng dụng AI và các kịch bản khác nhau về hiệu năng và chi phí. Các doanh nghiệp vừa và nhỏ và các nhà phát triển AI có thể linh hoạt lựa chọn các mô hình theo nhu cầu của họ, điều này chắc chắn sẽ giảm ngưỡng và chi phí sử dụng các mô hình lớn. Các nhóm này với nguồn vốn và nhân sự rất hạn chế có thể đưa nhiều nguồn lực và năng lượng hơn vào thị trường và khai thác nhu cầu và điểm khó khăn của người dùng để họ có thể phát triển các ứng dụng sáng tạo hơn.
Nền tảng công nghệ của Alibaba
Sau 16 năm phát triển, Alibaba đã tái cấu trúc toàn diện một hệ thống kiến trúc công nghệ full-stack từ phần cứng cơ bản đến tính toán, lưu trữ, mạng, xử lý dữ liệu, đào tạo mô hình và các nền tảng suy luận, biến nó trở thành nền tảng điện toán đám mây hàng đầu ở khu vực Châu Á - Thái Bình Dương. Alibaba cũng là một trong những công ty công nghệ đầu tiên trên thế giới đầu tư vào nghiên cứu mô hình lớn.
Trước đây, Zhou Jingren đã tuyên bố trong một cuộc phỏng vấn với giới truyền thông rằng sự phát triển của các mô hình lớn không thể tách rời khỏi sự hỗ trợ của hệ thống đám mây. Cho dù đó là đào tạo hay suy luận, mọi đột phá trong các mô hình lớn, trên bề mặt, là sự phát triển của khả năng mô hình, nhưng đằng sau nó là sự hợp tác và nâng cấp toàn diện của toàn bộ nền tảng điện toán đám mây và dữ liệu và kỹ thuật. Đa phương thức cũng là một cách quan trọng để AGI.
Sự công nhận quốc tế
Việc phát hành Qwen3 đã thu hút sự chú ý trên quy mô toàn cầu. Sau khi Alibaba phát hành Qwen 3, Elon Musk đã tuyên bố trên nền tảng truyền thông xã hội X rằng một phiên bản beta ban đầu của Grok 3.5 sẽ được phát hành cho người đăng ký SuperGrok vào tuần tới, tuyên bố rằng đây là AI đầu tiên có thể trả lời chính xác các câu hỏi về động cơ tên lửa hoặc công nghệ điện hóa.
Thúc đẩy sự đổi mới và khả năng tiếp cận
Sun Maosong, Phó Chủ tịch điều hành của Viện Trí tuệ Nhân tạo tại Đại học Thanh Hoa và là Viện sĩ nước ngoài của Học viện Khoa học và Nhân văn Châu Âu, tuyên bố rằng trong những năm gần đây, Trung Quốc đã có những đóng góp mạnh mẽ cho sự phát triển của trí tuệ nhân tạo, đặc biệt là trong lĩnh vực mô hình lớn. Sự xuất hiện của DeepSeek và loạt sản phẩm mã nguồn mở từ Tongyi Qianwen đã thúc đẩy mạnh mẽ lộ trình mã nguồn mở của các mô hình lớn trong nước, điều này chắc chắn có ý nghĩa to lớn đối với việc giảm bớt các độc quyền công nghệ, thúc đẩy công bằng công nghệ và tăng cường tính bao trùm của trí tuệ nhân tạo.
Hiện tại, số lượng mô hình có nguồn gốc từ Qwen trong các cộng đồng mã nguồn mở trong và ngoài nước đã vượt quá 100.000, vượt qua chuỗi mô hình Llama và Tongyi Qianwen Qwen đứng đầu là nhóm mô hình ngôn ngữ tạo sinh lớn nhất thế giới. Theo danh sách mô hình lớn mã nguồn mở toàn cầu mới nhất của Huggingface vào ngày 10 tháng 2 năm 2025, mười mô hình lớn mã nguồn mở hàng đầu đều là các mô hình có nguồngốc dựa trên mô hình mã nguồn mở Tongyi Qianwen Qwen.
Sun Maosong tin rằng điều này có nghĩa là văn hóa mô hình lớn của Trung Quốc đã được quốc tế công nhận, đây là một sự thay đổi văn hóa. Điều này rất có giá trị và thể hiện sự công nhận về sự phát triển và công nghệ của các mô hình lớn của Trung Quốc.