Alibaba, gã khổng lồ công nghệ Trung Quốc, gần đây đã giới thiệu sự đổi mới mới nhất của mình trong lĩnh vực trí tuệ nhân tạo: dòng mô hình AI Qwen3. Theo công ty, những mô hình này không chỉ cạnh tranh mà trong một số trường hợp còn vượt qua khả năng của các mô hình AI hàng đầu từ các công ty nổi tiếng như Google và OpenAI.
Các mô hình này, có kích thước khác nhau từ 0,6 tỷ tham số nhỏ gọn đến 235 tỷ tham số khổng lồ, phần lớn có thể truy cập để tải xuống theo giấy phép nguồn mở từ các nền tảng phát triển AI phổ biến như Hugging Face và GitHub. Số lượng tham số trong một mô hình tương quan gần đúng với khả năng giải quyết các vấn đề phức tạp; nói chung, các mô hình có nhiều tham số hơn thể hiện hiệu suất vượt trội so với các mô hình có ít tham số hơn.
Sự xuất hiện của các dòng mô hình như Qwen, có nguồn gốc từ Trung Quốc, đã gây áp lực lớn hơn lên các phòng thí nghiệm nghiên cứu AI của Mỹ như OpenAI để đổi mới và cung cấp các công nghệ AI tinh vi hơn nữa. Sự phát triển này cũng đã thúc đẩy các nhà hoạch định chính sách áp đặt các hạn chế nhằm hạn chế quyền truy cập của các công ty AI Trung Quốc vào các chip tiên tiến cần thiết để đào tạo các mô hình phức tạp này.
Hiểu về Qwen3: Phương pháp tiếp cận kết hợp để suy luận AI
Alibaba mô tả các mô hình Qwen3 là ‘kết hợp’ do khả năng vừa nhanh chóng phản hồi các yêu cầu đơn giản vừa ‘suy luận’ một cách có phương pháp thông qua các vấn đề phức tạp hơn. Khả năng suy luận này cho phép các mô hình thực hiện hiệu quả các kiểm tra độc lập, tương tự như các mô hình như o3 của OpenAI, mặc dù có sự đánh đổi về độ trễ cao hơn.
Trong một bài đăng trên blog, nhóm Qwen đã giải thích phương pháp của họ: ‘Chúng tôi đã tích hợp liền mạch các chế độ tư duy và không tư duy, mang đến cho người dùng sự linh hoạt để kiểm soát ngân sách tư duy. Thiết kế này cho phép người dùng định cấu hình ngân sách dành riêng cho tác vụ dễ dàng hơn.’ Điều này có nghĩa là người dùng có thể điều chỉnh mức độ ‘tư duy’ mà AI thực hiện dựa trên nhiệm vụ trong tầm tay, tối ưu hóa cho tốc độ hoặc độ chính xác.
Một số mô hình Qwen3 cũng sử dụng kiến trúc Mixture of Experts (MoE). Kiến trúc này nâng cao hiệu quả tính toán bằng cách chia nhỏ các tác vụ phức tạp thành các tác vụ con nhỏ hơn và ủy thác chúng cho các mô hình ‘chuyên gia’ chuyên biệt. Điều này cho phép phân phối hiệu quả hơn các tài nguyên tính toán, dẫn đến kết quả nhanh hơn và chính xác hơn.
Khả năng đa ngôn ngữ và dữ liệu đào tạo
Các mô hình Qwen3 tự hào hỗ trợ ấn tượng 119 ngôn ngữ, phản ánh cam kết của Alibaba đối với khả năng truy cập toàn cầu. Các mô hình này được đào tạo trên một tập dữ liệu khổng lồ bao gồm gần 36 nghìn tỷ mã thông báo. Mã thông báo là các đơn vị dữ liệu cơ bản mà một mô hình AI xử lý; khoảng 1 triệu mã thông báo tương đương với khoảng 750.000 từ. Alibaba đã tiết lộ rằng tập dữ liệu đào tạo cho Qwen3 bao gồm một loạt các nguồn đa dạng, chẳng hạn như sách giáo khoa, cặp câu hỏi-trả lời, đoạn mã và thậm chí cả dữ liệu do AI tạo ra.
Những cải tiến này, kết hợp với những cải tiến khác, đã tăng cường đáng kể khả năng của Qwen3 so với người tiền nhiệm của nó, Qwen2, theo Alibaba. Mặc dù không có mô hình Qwen3 nào vượt trội hơn các mô hình hàng đầu như o3 và o4-mini của OpenAI một cách dứt khoát, nhưng chúng vẫn là những đối thủ mạnh trong bối cảnh AI.
Điểm chuẩn hiệu suất và so sánh
Trên Codeforces, một nền tảng phổ biến cho các cuộc thi lập trình, mô hình Qwen3 lớn nhất, Qwen-3-235B-A22B, hoạt động tốt hơn một chút so với o3-mini của OpenAI và Gemini 2.5 Pro của Google. Hơn nữa, Qwen-3-235B-A22B cũng vượt trội so với o3-mini trên phiên bản mới nhất của AIME, một điểm chuẩn toán học đầy thách thức, cũng như BFCL, một thử nghiệm được thiết kế để đánh giá khả năng suy luận các vấn đề của mô hình.
Tuy nhiên, điều quan trọng cần lưu ý là Qwen-3-235B-A22B vẫn chưa có sẵn công khai.
Mô hình Qwen3 có sẵn công khai lớn nhất, Qwen3-32B, vẫn có tính cạnh tranh với nhiều mô hình AI độc quyền và nguồn mở, bao gồm cả R1 từ phòng thí nghiệm AI DeepSeek của Trung Quốc. Đáng chú ý, Qwen3-32B hoạt động tốt hơn mô hình o1 của OpenAI trên một số điểm chuẩn, bao gồm điểm chuẩn mã hóa LiveCodeBench.
Khả năng gọi công cụ và tính khả dụng
Alibaba nhấn mạnh rằng Qwen3 ‘vượt trội’ về khả năng gọi công cụ, cũng như tuân theo hướng dẫn và sao chép các định dạng dữ liệu cụ thể. Tính linh hoạt này làm cho nó trở thành một tài sản có giá trị trong nhiều ứng dụng. Ngoài việc có sẵn để tải xuống, Qwen3 cũng có thể truy cập thông qua các nhà cung cấp đám mây như Fireworks AI và Hyperbolic.
Quan điểm của ngành
Tuhin Srivastava, đồng sáng lập và Giám đốc điều hành của máy chủ đám mây AI Baseten, xem Qwen3 là một chỉ báo khác về xu hướng các mô hình nguồn mở theo kịp các hệ thống nguồn đóng như các hệ thống từ OpenAI.
Ông nói với TechCrunch, ‘Mỹ đang tăng gấp đôi các hạn chế đối với việc bán chip cho Trung Quốc và mua hàng từ Trung Quốc, nhưng các mô hình như Qwen 3, hiện đại và mở … chắc chắn sẽ được sử dụng trong nước. Nó phản ánh thực tế là các doanh nghiệp đang xây dựng các công cụ của riêng mình [cũng như] mua hàng có sẵn thông qua các công ty mô hình khép kín như Anthropic và OpenAI.’ Điều này cho thấy một xu hướng ngày càng tăng của các công ty tận dụng cả các công cụ AI được phát triển nội bộ và các giải pháp có sẵn trên thị trường để đáp ứng các nhu cầu cụ thể của họ.
Đi sâu hơn vào kiến trúc và chức năng của Qwen3
Kiến trúc của Qwen3 thể hiện một bước tiến đáng kể trong thiết kế mô hình AI, đặc biệt là trong phương pháp ‘kết hợp’ của nó để suy luận. Bằng cách tích hợp cả các chế độ không tư duy nhanh chóng với các quy trình suy luận có chủ ý hơn, Qwen3 có thể điều chỉnh cường độ tính toán của nó dựa trên độ phức tạp của nhiệm vụ. Điều này cho phép xử lý hiệu quả một loạt các yêu cầu, từ các truy vấn đơn giản đến các tình huống giải quyết vấn đề phức tạp.
Khả năng kiểm soát ‘ngân sách tư duy’, như được mô tả bởi nhóm Qwen, cung cấp cho người dùng sự linh hoạt chưa từng có trong việc định cấu hình mô hình cho các tác vụ cụ thể. Kiểm soát chi tiết này cho phép tối ưu hóa cho tốc độ hoặc độ chính xác, tùy thuộc vào yêu cầu của ứng dụng.
Hơn nữa, việc triển khai kiến trúc Mixture of Experts (MoE) trong một số mô hình Qwen3 giúp tăng cường hiệu quả tính toán bằng cách phân phối các tác vụ trên các mô hình con chuyên biệt. Phương pháp mô-đun này không chỉ tăng tốc quá trình xử lý mà còn cho phép phân bổ tài nguyên mục tiêu hơn, cải thiện hiệu suất tổng thể.
Tầm quan trọng của dữ liệu đào tạo trong quá trình phát triển Qwen3
Tập dữ liệu khổng lồ được sử dụng để đào tạo Qwen3 đóng một vai trò quan trọng trong việc định hình khả năng của nó. Với gần 36 nghìn tỷ mã thông báo, tập dữ liệu bao gồm một loạt các nguồn đa dạng, bao gồm sách giáo khoa, cặp câu hỏi-trả lời, đoạn mã và dữ liệu do AI tạo ra. Chế độ đào tạo toàn diện này đã cho mô hình tiếp xúc với một loạt các kiến thức và kỹ năng, cho phép nó vượt trội trong nhiều lĩnh vực khác nhau.
Việc đưa sách giáo khoa vào dữ liệu đào tạo đã cung cấp cho Qwen3 một nền tảng vững chắc về kiến thức thực tế và các khái niệm học thuật. Cặp câu hỏi-trả lời nâng cao khả năng hiểu và trả lời các truy vấn một cách hiệu quả của mô hình. Các đoạn mã trang bị cho nó các kỹ năng lập trình, cho phép nó tạo và hiểu mã. Và việc kết hợp dữ liệu do AI tạo ra đã cho nó tiếp xúc với thông tin mới và tổng hợp, tiếp tục mở rộng cơ sở kiến thức của nó.
Quy mô lớn của tập dữ liệu đào tạo, kết hợp với nội dung đa dạng của nó, đã đóng góp đáng kể vào khả năng thực hiện tốt của Qwen3 trên một loạt các tác vụ và ngôn ngữ.
Xem xét kỹ hơn về hiệu suất của Qwen3 trên các điểm chuẩn
Hiệu suất của Qwen3 trên các điểm chuẩn khác nhau cung cấp những hiểu biết có giá trị về điểm mạnh và điểm yếu của nó. Trên Codeforces, mô hình Qwen3 lớn nhất, Qwen-3-235B-A22B, đã thể hiện hiệu suất cạnh tranh so với các mô hình hàng đầu như o3-mini của OpenAI và Gemini 2.5 Pro của Google trong các cuộc thi lập trình. Điều này cho thấy rằng Qwen3 sở hữu các kỹ năng mã hóa và khả năng giải quyết vấn đề mạnh mẽ.
Hơn nữa, hiệu suất của Qwen-3-235B-A22B trên AIME, một điểm chuẩn toán học đầy thách thức và BFCL, một thử nghiệm để đánh giá khả năng suy luận, làm nổi bật năng khiếu của nó đối với các vấn đề toán học phức tạp và suy luận logic. Những kết quả này chỉ ra rằng Qwen3 không chỉ có khả năng xử lý thông tin mà còn áp dụng nó để giải quyết các vấn đề phức tạp.
Tuy nhiên, điều quan trọng cần lưu ý là mô hình Qwen3 lớn nhất vẫn chưa có sẵn công khai, hạn chế khả năng truy cập đầy đủ vào khả năng của nó.
Mô hình Qwen3-32B có sẵn công khai vẫn có tính cạnh tranh với các mô hình AI độc quyền và nguồn mở khác, thể hiện tiềm năng của nó như một giải pháp thay thế khả thi cho các giải pháp hiện có. Hiệu suất vượt trội của nó so với mô hình o1 của OpenAI trên điểm chuẩn mã hóa LiveCodeBench tiếp tục nhấn mạnh khả năng mã hóa của nó.
Khả năng gọi công cụ của Qwen3: Một yếu tố khác biệt chính
Sự nhấn mạnh của Alibaba vào khả năng gọi công cụ của Qwen3 làm nổi bật một lĩnh vực khác biệt chính. Gọi công cụ đề cập đến khả năng của mô hình AI tương tác với các công cụ và API bên ngoài để thực hiện các tác vụ cụ thể, chẳng hạn như truy cập thông tin, thực thi lệnh hoặc điều khiển thiết bị. Khả năng này cho phép Qwen3 mở rộng chức năng của nó vượt ra ngoài kiến thức và khả năng xử lý bên trong của nó.
Bằng cách tích hợp liền mạch với các công cụ bên ngoài, Qwen3 có thể tự động hóa các quy trình làm việc phức tạp, truy cập dữ liệu thời gian thực và tương tác với thế giới vật chất. Điều này làm cho nó trở thành một tài sản có giá trị trong nhiều ứng dụng, chẳng hạn như dịch vụ khách hàng, phân tích dữ liệu và robot.
Khả năng của Qwen3 trong việc tuân theo hướng dẫn và sao chép các định dạng dữ liệu cụ thể tiếp tục nâng cao khả năng sử dụng và khả năng thích ứng của nó. Điều này cho phép người dùng dễ dàng tùy chỉnh mô hình để đáp ứng các nhu cầu cụ thể của họ và tích hợp nó vào các hệ thống hiện có.
Tác động của Qwen3 đến bối cảnh AI
Sự xuất hiện của Qwen3 có ý nghĩa quan trọng đối với bối cảnh AI rộng lớn hơn. Là một mô hình nguồn mở, nó dân chủ hóa quyền truy cập vào công nghệ AI tiên tiến, trao quyền cho các nhà nghiên cứu, nhà phát triển và doanh nghiệp để đổi mới và xây dựng các ứng dụng mới. Hiệu suất cạnh tranh của nó so với các mô hình độc quyền hàng đầu thách thức sự thống trị của các công ty đã thành lập và thúc đẩy một thị trường cạnh tranh hơn.
Hơn nữa, sự phát triển của Qwen3 phản ánh khả năng ngày càng tăng của các công ty AI Trung Quốc và những đóng góp ngày càng tăng của họ vào hệ sinh thái AI toàn cầu. Xu hướng này có khả năng tiếp tục trong những năm tới, khi Trung Quốc đầu tư mạnh vào nghiên cứu và phát triển AI.
Tính khả dụng của Qwen3 thông qua các nhà cung cấp đám mây như Fireworks AI và Hyperbolic tiếp tục mở rộng phạm vi tiếp cận và khả năng truy cập của nó, giúp người dùng dễ dàng triển khai và mở rộng các ứng dụng AI hơn.
Bối cảnh địa chính trị của quá trình phát triển Qwen3
Sự phát triển của Qwen3 cũng diễn ra trong một bối cảnh địa chính trị phức tạp. Hoa Kỳ đã áp đặt các hạn chế đối với việc bán chip tiên tiến cho Trung Quốc, nhằm hạn chế khả năng của đất nước trong việc phát triển và đào tạo các mô hình AI tiên tiến. Tuy nhiên, như Tuhin Srivastava chỉ ra, các mô hình như Qwen 3, hiện đại và nguồn mở, chắc chắn sẽ được sử dụng trong nước ở Trung Quốc.
Điều này làm nổi bật những thách thức trong việc kiểm soát sự khuếch tán của công nghệ AI trong một thế giới toàn cầu hóa. Mặc dù các hạn chế có thể làm chậm tiến độ ở một số lĩnh vực nhất định, nhưng chúng khó có thể ngăn chặn hoàn toàn sự phát triển của các khả năng AI tiên tiến ở Trung Quốc.
Sự cạnh tranh giữa Hoa Kỳ và Trung Quốc trong lĩnh vực AI có khả năng tăng cường trong những năm tới, vì cả hai quốc gia đều nhận ra tầm quan trọng chiến lược của công nghệ này. Sự cạnh tranh này sẽ thúc đẩy sự đổi mới và đầu tư, nhưng nó cũng sẽ làm dấy lên những lo ngại về an ninh, quyền riêng tư và các cân nhắc về đạo đức.