Alibaba ra mắt Qwen-32B: Sức mạnh thu nhỏ

Alibaba Ra Mắt Qwen-32B: Mô Hình Nhỏ Gọn Thách Thức Các Mô Hình Lớn Hơn

Trong một thông báo bất ngờ vào đêm khuya, Alibaba đã mở mã nguồn mô hình suy luận mới nhất của mình, Qwen-32B (QwQ-32B). Với 32 tỷ tham số, mô hình này thể hiện hiệu suất ngang bằng với mô hình DeepSeek-R1 67.1 tỷ tham số, đầy đủ và lớn hơn đáng kể.

Nhóm Qwen đã nhấn mạnh trong thông báo của họ về nghiên cứu mở rộng các kỹ thuật học tăng cường (RL). Họ tuyên bố, ‘Chúng tôi đã khám phá các phương pháp để mở rộng RL, đạt được một số kết quả ấn tượng dựa trên Qwen2.5-32B của chúng tôi. Chúng tôi nhận thấy rằng đào tạo RL có thể liên tục cải thiện hiệu suất, đặc biệt là trong các tác vụ toán học và lập trình. Chúng tôi quan sát thấy rằng việc tiếp tục mở rộng quy mô RL có thể giúp các mô hình cỡ trung bình đạt được hiệu suất tương đương với các mô hình MoE khổng lồ. Chúng tôi hoan nghênh mọi người trò chuyện với mô hình mới của chúng tôi và cung cấp cho chúng tôi phản hồi!’

QwQ-32B hiện có sẵn trên Hugging Face và ModelScope theo giấy phép nguồn mở Apache 2.0. Người dùng cũng có thể tương tác trực tiếp với mô hình thông qua Qwen Chat. Công cụ triển khai cục bộ phổ biến, Ollama, đã tích hợp hỗ trợ, có thể truy cập thông qua lệnh: ollama run qwq.

Cùng với việc phát hành, nhóm Qwen đã xuất bản một bài đăng trên blog có tiêu đề ‘QwQ-32B: Khai thác sức mạnh của học tăng cường’, trình bày chi tiết những tiến bộ đột phá.

Bài đăng trên blog nhấn mạnh tiềm năng to lớn của học tăng cường (RL) quy mô lớn để vượt qua các phương pháp tiền huấn luyện và hậu huấn luyện truyền thống trong việc nâng cao hiệu suất mô hình. Nghiên cứu gần đây, chẳng hạn như việc tích hợp dữ liệu khởi động nguội và đào tạo nhiều giai đoạn của DeepSeek-R1, cho thấy khả năng của RL trong việc tăng cường đáng kể khả năng suy luận, cho phép tư duy sâu hơn và giải quyết vấn đề phức tạp.

Nghiên cứu của nhóm Qwen tập trung vào việc tận dụng RL quy mô lớn để nâng cao trí thông minh của các mô hình ngôn ngữ lớn, mà đỉnh cao là sự ra đời của QwQ-32B. Mô hình 32 tỷ tham số này đáng chú ý là có hiệu suất tương đương với mô hình DeepSeek-R1 67.1 tỷ tham số (với 37 tỷ tham số được kích hoạt). Nhóm nghiên cứu nhấn mạnh, ‘Thành tích này nhấn mạnh tính hiệu quả của việc áp dụng học tăng cường cho các mô hình nền tảng mạnh mẽ, được đào tạo trước.’

QwQ-32B cũng kết hợp các khả năng liên quan đến tác nhân (agent), cho phép nó đánh giá một cách nghiêm túc các hành động của mình trong khi sử dụng các công cụ và điều chỉnh quá trình suy luận của nó dựa trên phản hồi từ môi trường. ‘Chúng tôi hy vọng những nỗ lực của chúng tôi chứng minh rằng việc kết hợp các mô hình nền tảng mạnh mẽ với học tăng cường quy mô lớn có thể là một con đường khả thi hướng tới Trí tuệ nhân tạo tổng quát (AGI)’, nhóm nghiên cứu cho biết.

Hiệu Suất Mô Hình: Đánh Giá QwQ-32B

QwQ-32B đã trải qua quá trình đánh giá nghiêm ngặt trên một loạt các bài kiểm tra, bao gồm suy luận toán học, lập trình và khả năng tổng quát. Kết quả cho thấy hiệu suất của QwQ-32B so với các mô hình hàng đầu khác, bao gồm DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini và DeepSeek-R1 gốc.

Những phát hiện này rất ấn tượng. QwQ-32B thể hiện hiệu suất vượt trội, thậm chí còn vượt trội hơn một chút so với DeepSeek-R1-67B trên các bài kiểm tra LiveBench, IFEval và BFCL. Điều này làm nổi bật tính hiệu quả và sức mạnh của phương pháp học tăng cường mà nhóm Qwen áp dụng.

Tìm Hiểu Sâu Về Học Tăng Cường

Sự phát triển của QwQ-32B đã tận dụng học tăng cường quy mô lớn được xây dựng trên nền tảng khởi động nguội. Giai đoạn đầu tiên tập trung cụ thể vào đào tạo RL cho các tác vụ toán học và lập trình. Không giống như các phương pháp truyền thống dựa vào mô hình phần thưởng, nhóm Qwen đã cung cấp phản hồi cho các bài toán bằng cách xác minh tính đúng đắn của các câu trả lời được tạo ra. Đối với các tác vụ lập trình, phản hồi được lấy từ một máy chủ thực thi mã, đánh giá xem mã được tạo có vượt qua thành công các trường hợp kiểm thử hay không.

Khi quá trình đào tạo tiến triển qua nhiều lần lặp, QwQ-32B cho thấy sự cải thiện hiệu suất nhất quán trong cả hai lĩnh vực. Quá trình tinh chỉnh lặp đi lặp lại này, được hướng dẫn bởi phản hồi trực tiếp về độ chính xác của giải pháp, đã chứng tỏ hiệu quả cao.

Sau giai đoạn RL ban đầu tập trung vào toán học và lập trình, một giai đoạn RL tiếp theo đã được giới thiệu để nâng cao khả năng tổng quát. Giai đoạn này sử dụng các mô hình phần thưởng tổng quát và trình xác thực dựa trên quy tắc để đào tạo. Kết quả chỉ ra rằng ngay cả một số lượng nhỏ các bước trong RL tổng quát cũng có thể tăng cường khả năng tổng thể mà không ảnh hưởng đáng kể đến hiệu suất trên các tác vụ toán học và lập trình đã được đào tạo trước đó. Điều này chứng tỏ khả năng thích ứng và tính mạnh mẽ của mô hình.

Hướng Đi Tương Lai: Mở Rộng Chân Trời Của AI

Nhóm Qwen cũng chia sẻ kế hoạch tương lai của họ, tuyên bố, ‘Đây là bước đầu tiên của Qwen trong việc tận dụng học tăng cường (RL) quy mô lớn để nâng cao khả năng suy luận. Thông qua hành trình này, chúng tôi không chỉ chứng kiến tiềm năng to lớn của việc mở rộng quy mô RL mà còn nhận ra những khả năng chưa được khai thác trong các mô hình ngôn ngữ được đào tạo trước. Khi chúng tôi hướng tới việc phát triển thế hệ Qwen tiếp theo, chúng tôi tin rằng việc kết hợp các mô hình nền tảng mạnh mẽ hơn nữa với RL, được hỗ trợ bởi các tài nguyên tính toán được mở rộng, sẽ đưa chúng ta đến gần hơn với việc đạt được Trí tuệ nhân tạo tổng quát (AGI). Hơn nữa, chúng tôi đang tích cực khám phá việc tích hợp các tác nhân với RL để cho phép suy luận dài hạn, nhằm mục đích mở khóa trí thông minh lớn hơn nữa thông qua thời gian suy luận kéo dài.’ Cam kết cải tiến và khám phá liên tục này nhấn mạnh sự cống hiến của nhóm trong việc vượt qua các ranh giới của AI.

Sự Đón Nhận Của Cộng Đồng: QwQ-32B Nhận Được Sự Hoan Nghênh Rộng Rãi

Việc phát hành QwQ-32B đã được đón nhận với sự nhiệt tình và phản hồi tích cực rộng rãi. Cộng đồng AI, bao gồm nhiều người dùng của Qwen, đã háo hức chờ đợi sự ra mắt của mô hình mới này.

Sự phấn khích gần đây xung quanh DeepSeek đã làm nổi bật sự ưu tiên của cộng đồng đối với mô hình đầy đủ do những hạn chế của phiên bản rút gọn. Tuy nhiên, mô hình đầy đủ 67.1 tỷ tham số đặt ra những thách thức về triển khai, đặc biệt là đối với các thiết bị biên có tài nguyên hạn chế. Qwen-32B, với kích thước giảm đáng kể, giải quyết mối lo ngại này, mở ra khả năng triển khai rộng rãi hơn.

Một người dùng nhận xét, ‘Có lẽ nó vẫn chưa khả thi trên điện thoại di động, nhưng máy Mac có RAM lớn có thể xử lý được.’ Tình cảm này phản ánh sự lạc quan xung quanh tiềm năng chạy QwQ-32B trên các thiết bị có tài nguyên hạn chế.

Một người dùng khác đã trực tiếp đề cập đến Binyuan Hui, một nhà khoa học tại Phòng thí nghiệm Tongyi của Alibaba, thúc giục việc phát triển các mô hình thậm chí còn nhỏ hơn. Điều này làm nổi bật nhu cầu về các mô hình AI ngày càng nhỏ gọn và hiệu quả.

Người dùng cũng đã chia sẻ kinh nghiệm của họ, ca ngợi tốc độ và khả năng phản hồi của mô hình. Một người dùng đã giới thiệu một bản demo, làm nổi bật khả năng xử lý nhanh chóng của QwQ-32B.

Awni Hannun, một nhà nghiên cứu học máy tại Apple, đã xác nhận việc thực thi thành công QwQ-32B trên M4 Max, lưu ý tốc độ ấn tượng của nó. Sự xác nhận này từ một nhà nghiên cứu nổi tiếng càng củng cố thêm các tuyên bố về hiệu suất của mô hình.

Nhóm Qwen cũng đã cung cấp phiên bản xem trước của QwQ-32B trên giao diện trò chuyện chính thức của họ, Qwen Chat, khuyến khích người dùng kiểm tra và cung cấp phản hồi. Cách tiếp cận tương tác này thúc đẩy sự tham gia của cộng đồng và cho phép đánh giá thực tế về khả năng của mô hình.

Việc cộng đồng nhanh chóng chấp nhận QwQ-32B và tích hợp nó vào các công cụ phổ biến như Ollama chứng tỏ tầm quan trọng và tác động của mô hình. Sự kết hợp giữa hiệu suất mạnh mẽ, kích thước mô hình nhỏ hơn và việc sử dụng học tăng cường một cách sáng tạo đã định vị QwQ-32B là một tiến bộ lớn trong lĩnh vực mô hình ngôn ngữ lớn. Bản chất nguồn mở của mô hình càng khuyến khích sự hợp tác và đổi mới trong cộng đồng AI, mở đường cho những đột phá trong tương lai. Việc tập trung vào triển khai thực tế và các ứng dụng trong thế giới thực làm nổi bật tiềm năng của QwQ-32B trong việc có tác động đáng kể vượt ra ngoài các môi trường nghiên cứu, mang lại khả năng AI tiên tiến cho nhiều người dùng và thiết bị hơn. Những nỗ lực nghiên cứu và phát triển đang diễn ra của nhóm Qwen hứa hẹn những tiến bộ thậm chí còn thú vị hơn trong việc theo đuổi AGI.