DeepSeek-R1勁敵?32B規模的阿里QwQ

透過一些額外的驗證來強化增強式學習,究竟能將大型語言模型 (LLM) 的能力提升到什麼程度?阿里巴巴的 Qwen 團隊正透過他們最新的創作 QwQ 來尋找答案。

QwQ 是一個「推理」模型,擁有相對精簡的 320 億個參數。然而,阿里巴巴聲稱它在與數學、編碼和函數呼叫相關的特定基準測試中,超越了擁有龐大 6710 億參數的 DeepSeek R1。

Qwen 團隊採用了與 R1 類似的方法,利用增強式學習來改進 QwQ 的思維鏈推理。這種方法增強了問題分析和分解能力。增強式學習傳統上透過獎勵模型正確答案來強化逐步推理,從而促進更準確的回應。然而,QwQ 更進一步,納入了一個準確性驗證器和一個程式碼執行伺服器。這確保了獎勵僅授予準確的數學解答和可運作的程式碼。

Qwen 團隊斷言,這種方法產生的模型超越了其規模,實現了與更大模型相當、甚至有時超越它們的性能。

然而,AI 基準測試可能具有欺騙性。因此,讓我們檢視這些說法如何轉化為實際場景,然後我們將指導您如何獨立啟動和執行 QwQ。

性能評估

我們對 QwQ 進行了一系列測試提示,涵蓋常識、空間推理、問題解決、數學以及其他已知甚至對最先進的 LLM 也具有挑戰性的查詢。

由於完整模型對記憶體的需求很大,我們以兩種配置進行了測試,以滿足具有不同 RAM 容量的使用者。最初,我們使用 Hugging Face 上的 QwQ demo 評估了完整模型。隨後,我們在 24 GB GPU (Nvidia 3090 或 AMD Radeon RX 7900XTX) 上測試了 4 位元量化版本,以評估量化對準確性的影響。

對於大多數常識問題,QwQ 表現出與 DeepSeek 的 6710 億參數 R1 和其他推理模型(如 OpenAI 的 o3-mini)相似的性能,在提供答案之前會短暫停頓以形成其想法。

或許不足為奇的是,該模型的優勢在處理更複雜的邏輯、程式碼或數學挑戰時變得明顯。在解決它的一些限制之前,讓我們先深入探討這些領域。

空間推理能力

我們首先採用了 Homebrew Research 作為其 AlphaMaze 專案一部分而設計的相對新穎的空間推理測試。

該測試以文字格式向模型呈現一個迷宮,如下所示。模型的任務是從起點 ‘O’ 導航到目標 ‘T’。