DeepSeek-R1 bị đánh bại bởi QwQ 32B?

Học tăng cường, được củng cố bằng một số xác minh bổ sung, có thể nâng cao khả năng của các mô hình ngôn ngữ lớn (LLM) đến mức nào? Nhóm Qwen của Alibaba đang tìm kiếm câu trả lời với sản phẩm mới nhất của họ, QwQ.

QwQ, một mô hình “lý luận”, tự hào có 32 tỷ tham số tương đối nhỏ gọn. Tuy nhiên, Alibaba tuyên bố nó vượt qua DeepSeek R1, với 671 tỷ tham số khổng lồ, trong các bài kiểm tra chuẩn cụ thể liên quan đến toán học, mã hóa và gọi hàm (function-calling).

Nhóm Qwen, tương tự như cách tiếp cận được thực hiện với R1, đã sử dụng học tăng cường để tinh chỉnh khả năng suy luận chuỗi suy nghĩ (chain-of-thought) của QwQ. Phương pháp này tăng cường khả năng phân tích và chia nhỏ vấn đề. Học tăng cường theo truyền thống củng cố khả năng suy luận từng bước bằng cách thưởng cho các mô hình cho các câu trả lời đúng, do đó thúc đẩy các phản hồi chính xác hơn. Tuy nhiên, QwQ tiến thêm một bước nữa bằng cách kết hợp một trình xác minh độ chính xác và một máy chủ thực thi mã. Điều này đảm bảo rằng phần thưởng chỉ được trao cho các giải pháp toán học chính xác và mã chức năng.

Nhóm Qwen khẳng định rằng cách tiếp cận này tạo ra một mô hình vượt trội so với kích thước của nó, đạt được hiệu suất tương đương và đôi khi thậm chí vượt qua các mô hình lớn hơn nhiều.

Tuy nhiên, các bài kiểm tra chuẩn AI có thể gây hiểu lầm. Vì vậy, hãy xem xét cách những tuyên bố này chuyển thành các tình huống thực tế và sau đó chúng tôi sẽ hướng dẫn bạn cách thiết lập và chạy QwQ một cách độc lập.

Đánh giá hiệu suất

Chúng tôi đã cho QwQ thực hiện một loạt các câu hỏi kiểm tra, bao gồm kiến thức chung, suy luận không gian, giải quyết vấn đề, toán học và các truy vấn khác được biết là thách thức ngay cả những LLM tiên tiến nhất.

Do yêu cầu bộ nhớ đáng kể của mô hình đầy đủ, chúng tôi đã tiến hành thử nghiệm của mình ở hai cấu hình để phục vụ người dùng có dung lượng RAM khác nhau. Ban đầu, chúng tôi đánh giá mô hình đầy đủ bằng bản demo QwQ trên Hugging Face. Sau đó, chúng tôi đã thử nghiệm phiên bản lượng tử hóa 4 bit trên GPU 24 GB (Nvidia 3090 hoặc AMD Radeon RX 7900XTX) để đánh giá tác động của lượng tử hóa đến độ chính xác.

Đối với hầu hết các câu hỏi kiến thức chung, QwQ thể hiện hiệu suất tương tự như R1 671 tỷ tham số của DeepSeek và các mô hình lý luận khác như o3-mini của OpenAI, tạm dừng một thời gian ngắn để hình thành suy nghĩ của nó trước khi đưa ra câu trả lời.

Điểm mạnh của mô hình, có lẽ không có gì đáng ngạc nhiên, trở nên rõ ràng khi giải quyết các thách thức logic, mã hóa hoặc toán học phức tạp hơn. Hãy đi sâu vào các lĩnh vực này trước khi giải quyết một số hạn chế của nó.

Khả năng suy luận không gian

Chúng tôi bắt đầu với một bài kiểm tra suy luận không gian tương đối mới do Homebrew Research phát minh như một phần của dự án AlphaMaze của họ.

Bài kiểm tra trình bày cho mô hình một mê cung ở định dạng văn bản, như hình dưới đây. Nhiệm vụ của mô hình là điều hướng từ điểm gốc “O” đến mục tiêu “T”.