32B में डीपसीक-R1 को मात देने वाला QwQ?

अलीबाबा की Qwen टीम ने अपनी नवीनतम रचना, QwQ के साथ मैदान में कदम रखा है, एक ऐसा मॉडल जिसका लक्ष्य बड़े समकक्षों के प्रदर्शन को चुनौती देना है, जबकि एक आश्चर्यजनक रूप से कॉम्पैक्ट फुटप्रिंट बनाए रखना है।

दिग्गजों को चुनौती: एक कॉम्पैक्ट दावेदार

QwQ, डीपसीक R1 के दावा किए गए 671 बिलियन की तुलना में केवल 32 बिलियन पैरामीटर का दावा करने के बावजूद, एक “तर्क” मॉडल के रूप में स्थित है। अलीबाबा का दावा है कि यह अपेक्षाकृत छोटा मॉडल विशिष्ट बेंचमार्क में R1 को पार कर सकता है, खासकर गणित, कोडिंग और फ़ंक्शन-कॉलिंग जैसे क्षेत्रों में। यह महत्वाकांक्षी दावा QwQ के आंतरिक कामकाज और वास्तविक दुनिया के प्रदर्शन पर करीब से नज़र डालने की मांग करता है।

सुदृढीकरण सीखना: QwQ की शक्ति की कुंजी

डीपसीक R1 के समान, Qwen टीम ने QwQ की चेन-ऑफ-थॉट रीजनिंग क्षमताओं को परिष्कृत करने के लिए सुदृढीकरण सीखने (RL) को नियोजित किया। यह विधि मॉडल की जटिल समस्याओं का चरण-दर-चरण विश्लेषण और विघटन करने की क्षमता को बढ़ाती है। RL में पारंपरिक दृष्टिकोण में सही उत्तरों के लिए मॉडल को पुरस्कृत करना शामिल है, इस प्रकार सटीक प्रतिक्रियाओं को मजबूत करना शामिल है।

हालांकि, Qwen टीम ने QwQ के साथ एक अधिक सूक्ष्म दृष्टिकोण अपनाया। उन्होंने एक सटीकता सत्यापनकर्ता और एक कोड निष्पादन सर्वर को एकीकृत किया। यह महत्वपूर्ण जोड़ यह सुनिश्चित करता है कि पुरस्कार केवल गणितीय रूप से सही समाधानों और कार्यात्मक कोड के लिए दिए जाते हैं। इस कठोर सत्यापन प्रक्रिया को लागू करके, टीम का लक्ष्य एक ऐसे मॉडल को विकसित करना है जो उच्च स्तर की सटीकता और विश्वसनीयता प्रदर्शित करता है।

प्रदर्शन दावे: एक वास्तविकता जांच

Qwen टीम के प्रयासों ने, उनका दावा है, एक ऐसा मॉडल तैयार किया है जो अपने वजन वर्ग से काफी ऊपर है। वे दावा करते हैं कि QwQ प्रदर्शन के स्तर को प्राप्त करता है, और कुछ मामलों में, यहां तक कि बहुत बड़े मॉडलों को भी पार कर जाता है।

हालांकि, AI बेंचमार्क की दुनिया जटिल हो सकती है। रिपोर्ट किए गए आंकड़ों से आगे बढ़ना और यह जांचना महत्वपूर्ण है कि ये दावे व्यावहारिक, वास्तविक दुनिया के परिदृश्यों में कैसे अनुवाद करते हैं।

हैंड्स-ऑन परीक्षण: QwQ को इसकी गति के माध्यम से रखना

QwQ की क्षमताओं का आकलन करने के लिए, परीक्षण संकेतों की एक श्रृंखला तैयार की गई, जो डोमेन की एक श्रृंखला में फैली हुई थी। इनमें सामान्य ज्ञान, स्थानिक तर्क, समस्या-समाधान, गणित और अन्य चुनौतियाँ शामिल थीं जो सबसे उन्नत बड़े भाषा मॉडल (LLM) के लिए भी कठिनाइयाँ पैदा करने के लिए जानी जाती हैं।

पूर्ण मॉडल की पर्याप्त मेमोरी आवश्यकताओं के कारण, परीक्षण दो कॉन्फ़िगरेशन में निष्पादित किया गया था। सबसे पहले, पूर्ण मॉडल का मूल्यांकन हगिंग फेस पर QwQ डेमो का उपयोग करके किया गया था। इसने इसकी पूरी क्षमता का आकलन करने की अनुमति दी। दूसरा, 24GB GPU (विशेष रूप से, एक Nvidia 3090 या एक AMD Radeon RX 7900XTX) पर 4-बिट क्वांटाइज्ड संस्करण का परीक्षण किया गया था। इस कॉन्फ़िगरेशन का उद्देश्य मॉडल की सटीकता पर क्वांटिज़ेशन के प्रभाव को मापना था, जिससे यह कम शक्तिशाली हार्डवेयर वाले उपयोगकर्ताओं के लिए अधिक सुलभ हो सके।

सामान्य ज्ञान: अपनी पकड़ बनाए रखना

अधिकांश सामान्य ज्ञान के सवालों के जवाब में, QwQ ने डीपसीक के 671-बिलियन-पैरामीटर R1 और OpenAI के o3-मिनी जैसे अन्य तर्क मॉडल के बराबर प्रदर्शन का प्रदर्शन किया। मॉडल ने आमतौर पर क्वेरी का उत्तर देने से पहले अपने विचारों को तैयार करने में कुछ सेकंड का समय लिया। यह व्यवहार तर्क मॉडल की विशेषता है, जो तत्काल प्रतिक्रियाओं पर सावधानीपूर्वक विचार-विमर्श को प्राथमिकता देते हैं।

जटिलता में उत्कृष्टता: तर्क, कोडिंग और गणित

जहां QwQ वास्तव में खुद को अलग करना शुरू करता है, वह तर्क, कोडिंग या गणित से जुड़ी अधिक जटिल चुनौतियों से निपटने में है। आइए इन क्षेत्रों में गहराई से उतरें, इसकी ताकत को उजागर करें और कुछ ऐसे क्षेत्रों को संबोधित करें जहां यह कम पड़ता है।

स्थानिक तर्क: भूलभुलैया को नेविगेट करना

QwQ का मूल्यांकन करने के लिए, होमब्रे रिसर्च द्वारा उनके अल्फा भूलभुलैया परियोजना के हिस्से के रूप में विकसित एक अपेक्षाकृत नया स्थानिक-तर्क परीक्षण का उपयोग किया गया था।

स्थानीय रूप से होस्ट किए गए QwQ इंस्टेंस और पूर्ण आकार के मॉडल दोनों ने लगातार इन पहेलियों को सफलतापूर्वक हल किया। हालांकि, प्रत्येक रन को पूरा होने में कुछ मिनट लगे। यह इंगित करता है कि जबकि QwQ स्थानिक तर्क को प्रभावी ढंग से संभाल सकता है, यह जरूरी नहीं कि यह सबसे तेज़ हो।

इसके विपरीत, डीपसीक के R1 और इसके 32B डिस्टिल ने अलग-अलग व्यवहार प्रदर्शित किए। दोनों मॉडलों ने पहली भूलभुलैया को सफलतापूर्वक हल किया। हालांकि, R1 ने दूसरे के साथ संघर्ष किया, जबकि 32B डिस्टिल ने दूसरी भूलभुलैया पर 90% सफलता दर हासिल की। यह परिवर्तनशीलता पूरी तरह से अप्रत्याशित नहीं है, यह देखते हुए कि R1 और डिस्टिल अलग-अलग आधार मॉडल का उपयोग करते हैं।

जबकि QwQ ने इस विशिष्ट परीक्षण में डीपसीक की तुलना में बेहतर प्रदर्शन का प्रदर्शन किया, 4-बिट मॉडल के साथ कुछ असामान्य व्यवहार देखा गया। प्रारंभ में, परीक्षण को पूरा करने के लिए लगभग दोगुने “विचार” टोकन की आवश्यकता थी। इसने शुरू में क्वांटिज़ेशन के कारण संभावित नुकसान का सुझाव दिया। हालांकि, आगे की जांच से पता चला कि क्वांटाइज्ड मॉडल, अपनी प्रारंभिक अवस्था में, उप-इष्टतम प्रदर्शन प्रदर्शित कर रहा था। हाइपरपैरामीटर को समायोजित करने और परीक्षणों को फिर से चलाने से यह समस्या हल हो गई, जो उचित कॉन्फ़िगरेशन के महत्व को प्रदर्शित करती है।

वन-शॉट कोडिंग: एक संभावित ताकत

QwQ ने ‘वन-शॉट’ कोड जनरेशन में अपनी क्षमता के लिए काफी ध्यान आकर्षित किया है - पहले प्रयास में प्रयोग करने योग्य कोड बनाने की क्षमता। यह विशेष क्षेत्र मॉडल के लिए एक महत्वपूर्ण ताकत प्रतीत होता है।

मॉडल को pygame लाइब्रेरी का उपयोग करके पायथन में कई अपेक्षाकृत सरल गेम को फिर से बनाने का काम सौंपा गया था। चुने गए गेम पोंग, ब्रेकआउट, क्षुद्रग्रह और फ्लैपी बर्ड थे।

QwQ ने पोंग और ब्रेकआउट को अपेक्षाकृत आसानी से संभाला। कुछ मिनटों के प्रसंस्करण के बाद, मॉडल ने दोनों खेलों के काम करने वाले संस्करण उत्पन्न किए।

हालांकि, जब क्षुद्रग्रहों को फिर से बनाने का काम सौंपा गया, तो QwQ को कठिनाइयों का सामना करना पड़ा। हालांकि उत्पन्न कोड चला, ग्राफिक्स और गेम मैकेनिक्स अक्सर विकृत और छोटी गाड़ी थे। इसके विपरीत, R1 ने अपने पहले प्रयास में, क्लासिक आर्केड शूटर को ईमानदारी से फिर से बनाया।

इन मॉडलों के लिए प्रशिक्षण डेटा पर विचार करना महत्वपूर्ण है। वे खुले तौर पर उपलब्ध स्रोत कोड की एक विशाल मात्रा के संपर्क में आए हैं, जिसमें क्लासिक गेम के पुनरुत्पादन शामिल हैं। यह सवाल उठाता है कि क्या मॉडल केवल सीखी गई जानकारी को याद कर रहे हैं या स्वतंत्र रूप से खरोंच से गेम मैकेनिक्स प्राप्त कर रहे हैं। यह इन विशाल तंत्रिका नेटवर्क की मौलिक प्रकृति को रेखांकित करता है, जहां स्पष्ट बुद्धिमत्ता अक्सर व्यापक पैटर्न पहचान से उत्पन्न होती है।

इन सीमाओं के साथ भी, क्लासिक आर्केड गेम को फिर से बनाने में QwQ का प्रदर्शन प्रभावशाली है, खासकर इसके पैरामीटर गिनती को देखते हुए। यह हर परीक्षण में R1 से मेल नहीं खा सकता है, लेकिन यह उल्लेखनीय स्तर की क्षमता प्रदर्शित करता है। वाक्यांश “विस्थापन के लिए कोई प्रतिस्थापन नहीं है,” अक्सर ऑटोमोटिव दुनिया में उपयोग किया जाता है, यहां प्रासंगिक हो सकता है। यह समझा सकता है कि अलीबाबा QwQ का “मैक्स” संस्करण क्यों विकसित कर रहा है, हालांकि यह जल्द ही उपभोक्ता हार्डवेयर पर चलने की संभावना नहीं है।

डीपसीक के समान आकार के R1 Qwen 2.5 32B डिस्टिल की तुलना में, अलीबाबा के अपने सुदृढीकरण सीखने की पाइपलाइन में एक कोड निष्पादन सर्वर को एकीकृत करने के निर्णय ने प्रोग्रामिंग से संबंधित चुनौतियों में एक फायदा दिया हो सकता है।

गणित: एक चेतावनी के साथ क्षमता

ऐतिहासिक रूप से, LLM ने गणित के साथ संघर्ष किया है, जो उनके भाषा-केंद्रित प्रशिक्षण का परिणाम है। जबकि नए मॉडलों ने सुधार दिखाया है, QwQ को अभी भी चुनौतियों का सामना करना पड़ता है, हालांकि जरूरी नहीं कि उन कारणों से जो कोई उम्मीद कर सकता है।

QwQ ने पहले R1 के सामने रखी गई सभी गणित की समस्याओं को सफलतापूर्वक हल किया। यह इंगित करता है कि QwQ बुनियादी अंकगणित और यहां तक कि कुछ बीजगणित को भी संभाल सकता है। हालांकि, मुद्दा इसकी दक्षता में निहित है। गणितीय गणनाओं के लिए एक LLM को शामिल करना प्रति-सहज ज्ञान युक्त लगता है जब कैलकुलेटर और प्रत्यक्ष गणना आसानी से उपलब्ध और काफी तेज रहती है।
उदाहरण के लिए, 7*43 जैसे सरल समीकरण को हल करने के लिए QwQ को 1,000 से अधिक टोकन उत्पन्न करने की आवश्यकता होती है, जिसमें RTX 3090 Ti पर लगभग 23 सेकंड लगते हैं। यह एक ऐसा कार्य है जिसे समय के एक अंश में एक पॉकेट कैलकुलेटर पर पूरा किया जा सकता है।

बड़ी गणनाओं के साथ अक्षमता और भी अधिक स्पष्ट हो जाती है। 3394*35979 को हल करना, एक गुणन समस्या जो अधिकांश गैर-तर्क मॉडल की क्षमताओं से परे है, QwQ के स्थानीय उदाहरण को गणना करने में तीन मिनट और 5,000 से अधिक टोकन लगे।

हाइपरपैरामीटर फिक्स से पहले, उसी समीकरण को नौ मिनट और लगभग 12,000 टोकन की आवश्यकता होती थी।

यहां मुख्य बात यह है कि जबकि एक मॉडल सही उत्तर के लिए अपने तरीके से क्रूर-बल करने में सक्षम हो सकता है, इसका मतलब यह नहीं है कि यह काम के लिए इष्टतम उपकरण है। एक अधिक व्यावहारिक दृष्टिकोण QwQ को एक पायथन कैलकुलेटर तक पहुंच प्रदान करना होगा। यह कम्प्यूटेशनल रूप से गहन कार्यों को अधिक उपयुक्त उपकरण में ऑफलोड करते समय मॉडल की ताकत का लाभ उठाता है।

जब टूलिंग का उपयोग करके उसी 3394*35979 समीकरण को हल करने का काम सौंपा गया, तो QwQ का प्रतिक्रिया समय आठ सेकंड तक गिर गया, क्योंकि कैलकुलेटर ने भारी भारोत्तोलन को संभाला।

“प्रतीक्षा” की व्यापकता: विचार प्रक्रिया में एक झलक

QwQ के “विचारों” की जांच करने से “प्रतीक्षा” शब्द की लगातार घटना का पता चलता है, खासकर जटिल कार्यों या शब्द समस्याओं के दौरान। यह वैकल्पिक परिणामों के खिलाफ अपने काम की जाँच करने की मॉडल की आंतरिक प्रक्रिया को दर्शाता है।

जबकि यह व्यवहार तर्क मॉडल में आम है, यह विशेष रूप से निराशाजनक हो सकता है जब QwQ एक गलत उत्तर उत्पन्न करता है, यहां तक कि अपने “विचार” प्रक्रिया के दौरान सही उत्तर की समझ प्रदर्शित करने के बाद भी।

परीक्षण के दौरान इस मुद्दे का अक्सर सामना करना पड़ा। सबसे अधिक उदाहरणों में से एक क्लासिक भेड़िया, बकरी और गोभी समस्या का ऑटोजेन एआई का अनुकूलन था। यह पहेली एक मोड़ के साथ एक परिवहन अनुकूलन चुनौती प्रस्तुत करती है:

समाधान शीघ्र के भीतर एम्बेडेड है: तीन सुरक्षित डिब्बों के साथ, किसान एक ही यात्रा में सभी वस्तुओं का परिवहन कर सकता है। हालांकि, क्लासिक संस्करण के साथ पहेली की समानता के कारण, मॉडल अक्सर डिब्बों को अनदेखा करते हैं।

परीक्षण में, QwQ लगातार इस पहेली को सही ढंग से हल करने में विफल रहा। इसकी विचार प्रक्रिया की जांच करने से पता चला कि इसने तीन डिब्बों को अनदेखा नहीं किया। वास्तव में, इसने उन्हें स्वीकार किया लेकिन उन्हें बहुत सरल होने के कारण खारिज कर दिया:

“रुको, अगर किसान एक ही यात्रा में तीनों को ले जा सकता है, तो वह बस ऐसा कर सकता है और काम पूरा कर सकता है। लेकिन इससे समस्या तुच्छ हो जाएगी, जिसकी संभावना नहीं है। तो शायद डिब्बे अलग हैं लेकिन नाव केवल दो वस्तुओं को ले जा सकती है और किसान?”

भले ही परीक्षण क्लाउड में या स्थानीय रूप से पूर्ण मॉडल पर चलाया गया हो, QwQ ने इसे लगातार हल करने के लिए संघर्ष किया। यह इसकी तर्क क्षमताओं में एक संभावित सीमा को उजागर करता है, जहां यह समस्या की बाधाओं को अधिक सोच सकता है या गलत व्याख्या कर सकता है।

हाइपरपैरामीटर संवेदनशीलता: एक नाजुक संतुलन

अन्य मॉडलों की तुलना में, QwQ ने अपने कॉन्फ़िगरेशन के प्रति संवेदनशीलता बढ़ाई। प्रारंभ में, अलीबाबा ने विशिष्ट नमूना मापदंडों की सिफारिश की:

  • तापमान: 0.6
  • टॉपपी: 0.95
  • टॉपके: 20 और 40 के बीच

इसके बाद, इन सिफारिशों को शामिल करने के लिए अद्यतन किया गया:

  • मिनपी: 0
  • उपस्थिति दंड: 0 और 2 के बीच

लामा.सीपीपी के नमूना मापदंडों के संचालन में एक स्पष्ट बग के कारण (लामा.सीपीपी का उपयोग मॉडल पर अनुमान चलाने के लिए किया जाता है), इसे 1 पर सेट करके दोहराने के दंड को अक्षम करना भी आवश्यक था।

जैसा कि पहले उल्लेख किया गया है, इन कॉन्फ़िगरेशन मुद्दों को संबोधित करने के परिणामस्वरूप एक महत्वपूर्ण सुधार हुआ, एक उत्तर पर पहुंचने के लिए आवश्यक “सोच” टोकन की संख्या को आधे से अधिक कर दिया। हालांकि, यह बग GGUF-क्वांटाइज्ड मॉडल के लिए विशिष्ट प्रतीत होता है जब लामा.सीपीपी अनुमान इंजन पर चल रहा होता है, जिसका उपयोग ओलामा और एलएम स्टूडियो जैसे लोकप्रिय अनुप्रयोगों द्वारा किया जाता है।

लामा.सीपीपी का उपयोग करने की योजना बनाने वाले उपयोगकर्ताओं के लिए, नमूनाकरण आदेश को सही करने के लिए अनस्लोथ की मार्गदर्शिका से परामर्श करने की अत्यधिक अनुशंसा की जाती है।

QwQ के साथ शुरुआत करना: एक व्यावहारिक मार्गदर्शिका

QwQ के साथ प्रयोग करने में रुचि रखने वालों के लिए, ओलामा में इसे स्थापित करना अपेक्षाकृत सीधा है। हालांकि, यह ध्यान रखना महत्वपूर्ण है कि इसके लिए पर्याप्त मात्रा में vRAM वाले GPU की आवश्यकता होती है। मॉडल को व्यावहारिक उपयोग के लिए पर्याप्त बड़े संदर्भ विंडो के साथ 24GB 3090 Ti पर सफलतापूर्वक चलाया गया था।

जबकि तकनीकी रूप से सीपीयू और सिस्टम मेमोरी पर मॉडल चलाना संभव है, इसके परिणामस्वरूप अत्यधिक धीमी प्रतिक्रिया समय होने की संभावना है जब तक कि उच्च-अंत वर्कस्टेशन या सर्वर का उपयोग न किया जाए।

पूर्वापेक्षाएँ:

  1. 4-बिट क्वांटिज़ेशन पर मध्यम आकार के LLM चलाने में सक्षम मशीन। कम से कम 24GB vRAM के साथ एक संगत GPU की सिफारिश की जाती है। समर्थित कार्डों की एक सूची यहां पाई जा सकती है।
  2. ऐप्पल सिलिकॉन मैक के लिए, कम से कम 32GB मेमोरी की सिफारिश की जाती है।

यह मार्गदर्शिका लिनक्स-वर्ल्ड कमांड-लाइन इंटरफ़ेस और ओलामा से बुनियादी परिचितता मानती है।

ओलामा स्थापित करना

ओलामा एक लोकप्रिय मॉडल रनर है जो उपभोक्ता हार्डवेयर पर LLM को डाउनलोड करने और परोसने की प्रक्रिया को सरल करता है। विंडोज या मैकओएस उपयोगकर्ताओं के लिए, इसे ollama.com से किसी अन्य एप्लिकेशन की तरह डाउनलोड और इंस्टॉल करें।

लिनक्स उपयोगकर्ताओं के लिए, ओलामा स्थापना के लिए एक सुविधाजनक वन-लाइनर प्रदान करता है: