रिनफोर्समेंट लर्निंग, कुछ अतिरिक्त सत्यापन द्वारा प्रबलित, लार्ज लैंग्वेज मॉडल्स (LLMs) की क्षमताओं को कितना बढ़ा सकता है? अलीबाबा की Qwen टीम अपनी नवीनतम रचना, QwQ के साथ इसका पता लगाने की खोज में है।
QwQ, एक ‘रीजनिंग’ मॉडल, अपेक्षाकृत कॉम्पैक्ट 32 बिलियन पैरामीटर का दावा करता है। फिर भी, अलीबाबा का दावा है कि यह गणित, कोडिंग और फंक्शन-कॉलिंग से संबंधित विशिष्ट बेंचमार्क में 671 बिलियन पैरामीटर के साथ DeepSeek R1 को पीछे छोड़ देता है।
Qwen टीम ने, R1 के साथ अपनाए गए दृष्टिकोण के समान, QwQ की चेन-ऑफ-थॉट रीजनिंग को परिष्कृत करने के लिए रीइन्फोर्समेंट लर्निंग का उपयोग किया। यह विधि समस्या विश्लेषण और ब्रेकडाउन क्षमताओं को बढ़ाती है। रीइन्फोर्समेंट लर्निंग पारंपरिक रूप से सही उत्तरों के लिए मॉडल को पुरस्कृत करके स्टेपवाइज रीजनिंग को मजबूत करता है, इस प्रकार अधिक सटीक प्रतिक्रियाओं को बढ़ावा देता है। हालाँकि, QwQ एक एक्यूरेसी वेरिफायर और एक कोड एग्जीक्यूशन सर्वर को शामिल करके एक कदम आगे बढ़ता है। यह सुनिश्चित करता है कि पुरस्कार विशेष रूप से सटीक गणितीय समाधानों और फंक्शनल कोड के लिए दिए जाते हैं।
Qwen टीम का दावा है कि यह दृष्टिकोण एक ऐसे मॉडल में परिणत होता है जो अपने आकार से बेहतर प्रदर्शन करता है, जो कि बहुत बड़े मॉडल के बराबर प्रदर्शन प्राप्त करता है, और कभी-कभी उससे भी अधिक होता है।
हालांकि, AI बेंचमार्क भ्रामक हो सकते हैं। तो, आइए जांच करें कि ये दावे वास्तविक दुनिया के परिदृश्यों में कैसे अनुवाद करते हैं और फिर हम आपको मार्गदर्शन करेंगे कि QwQ को स्वतंत्र रूप से कैसे चलाया जाए।
प्रदर्शन मूल्यांकन (Performance Evaluation)
हमने QwQ को परीक्षण संकेतों की एक श्रृंखला के अधीन किया, जिसमें सामान्य ज्ञान, स्थानिक तर्क, समस्या-समाधान, गणित और अन्य प्रश्न शामिल हैं जो सबसे उन्नत LLMs को भी चुनौती देने के लिए जाने जाते हैं।
पूर्ण मॉडल की पर्याप्त मेमोरी आवश्यकताओं के कारण, हमने अलग-अलग RAM क्षमताओं वाले उपयोगकर्ताओं को पूरा करने के लिए दो कॉन्फ़िगरेशन में अपने परीक्षण किए। प्रारंभ में, हमने Hugging Face पर QwQ डेमो का उपयोग करके पूर्ण मॉडल का आकलन किया। इसके बाद, हमने सटीकता पर क्वांटिज़ेशन के प्रभाव को मापने के लिए 24 GB GPU (Nvidia 3090 या AMD Radeon RX 7900XTX) पर 4-बिट क्वांटिज़्ड संस्करण का परीक्षण किया।
अधिकांश सामान्य ज्ञान के प्रश्नों के लिए, QwQ ने DeepSeek के 671 बिलियन पैरामीटर R1 और OpenAI के o3-मिनी जैसे अन्य रीजनिंग मॉडल के समान प्रदर्शन प्रदर्शित किया, उत्तर देने से पहले अपने विचारों को तैयार करने के लिए संक्षेप में रुक गया।
मॉडल की ताकत, शायद आश्चर्यजनक रूप से, अधिक जटिल तर्क, कोडिंग या गणितीय चुनौतियों से निपटने के दौरान स्पष्ट हो जाती है। आइए इसकी कुछ सीमाओं को संबोधित करने से पहले इन क्षेत्रों में गहराई से उतरें।
स्थानिक तर्क कौशल (Spatial Reasoning Prowess)
हमने होमब्रे रिसर्च द्वारा उनके AlphaMaze प्रोजेक्ट के हिस्से के रूप में तैयार किए गए अपेक्षाकृत उपन्यास स्थानिक-तर्क परीक्षण के साथ शुरुआत की।
परीक्षण मॉडल को टेक्स्ट फॉर्मेट में एक भूलभुलैया के साथ प्रस्तुत करता है, जैसा कि नीचे दिखाया गया है। मॉडल का कार्य मूल “O” से लक्ष्य “T” तक नेविगेट करना है।