रीइन्फोर्समेंट लर्निंग, आणि सोबत काही पडताळणी, लार्ज लँग्वेज मॉडेल्स (LLMs) ची क्षमता किती वाढवू शकते? अलिबाबाची Qwen टीम त्यांच्या नवीन निर्मिती, QwQ सोबत याचा शोध घेत आहे.
QwQ, एक “तर्क” मॉडेल, तुलनेने कॉम्पॅक्ट 32 अब्ज पॅरामीटर्ससह येते. तरीही, अलिबाबाचा दावा आहे की ते गणित, कोडिंग आणि फंक्शन-कॉलिंग संबंधित विशिष्ट बेंचमार्क मध्ये 671 अब्ज पॅरामीटर्स असलेल्या DeepSeek R1 ला मागे टाकते.
Qwen टीमने, R1 सोबत केलेल्या दृष्टिकोनाप्रमाणेच, QwQ च्या चेन-ऑफ-थॉट तर्काला परिष्कृत करण्यासाठी रीइन्फोर्समेंट लर्निंगचा वापर केला. ही पद्धत समस्या विश्लेषण आणि विभाजन क्षमता वाढवते. रीइन्फोर्समेंट लर्निंग पारंपरिकपणे अचूक उत्तरांसाठी मॉडेलला पुरस्कृत करून स्टेपवाईज तर्काला बळकटी देते, ज्यामुळे अधिक अचूक प्रतिसाद मिळतात. तथापि, QwQ अचूकता पडताळणीकर्ता आणि कोड एक्झिक्यूशन सर्व्हर समाविष्ट करून एक पाऊल पुढे टाकते. हे सुनिश्चित करते की केवळ अचूक गणिती समाधानांसाठी आणि कार्यात्मक कोडसाठी रिवॉर्ड्स दिले जातात.
Qwen टीमचा दावा आहे की या दृष्टिकोनाचा परिणाम म्हणून एक मॉडेल तयार होते जे त्याच्या आकारापेक्षा जास्त कामगिरी करते, मोठ्या मॉडेल्सच्या तुलनेत आणि कधीकधी त्यापेक्षा जास्त कामगिरी करते.
तथापि, AI बेंचमार्क फसवे असू शकतात. तर, हे दावे वास्तविक-जगातील परिस्थितींमध्ये कसे रूपांतरित होतात ते तपासूया आणि त्यानंतर आम्ही तुम्हाला QwQ स्वतंत्रपणे कसे चालवायचे याबद्दल मार्गदर्शन करू.
कामगिरी मूल्यमापन (Performance Evaluation)
आम्ही QwQ ला सामान्य ज्ञान, स्थानिक तर्क, समस्या-समाधान, गणित आणि इतर प्रश्नांसह, अगदी प्रगत LLMs ना देखील आव्हान देणाऱ्या चाचणी प्रॉम्प्ट्सच्या मालिकेतून तपासले.
संपूर्ण मॉडेलच्या मोठ्या मेमरी आवश्यकतांमुळे, आम्ही वेगवेगळ्या RAM क्षमता असलेल्या वापरकर्त्यांसाठी दोन कॉन्फिगरेशनमध्ये आमच्या चाचण्या केल्या. सुरुवातीला, आम्ही Hugging Face वरील QwQ डेमो वापरून पूर्ण मॉडेलचे मूल्यांकन केले. त्यानंतर, क्वान्टायझेशनचा अचूकतेवर होणारा परिणाम मोजण्यासाठी आम्ही 24 GB GPU (Nvidia 3090 किंवा AMD Radeon RX 7900XTX) वर 4-बिट क्वान्टाइज्ड आवृत्तीची चाचणी केली.
बहुतेक सामान्य ज्ञानाच्या प्रश्नांसाठी, QwQ ने DeepSeek च्या 671 अब्ज पॅरामीटर R1 आणि OpenAI च्या o3-mini सारख्या इतर रिझनिंग मॉडेल्ससारखीच कामगिरी दर्शविली, उत्तर देण्यापूर्वी त्याचे विचार तयार करण्यासाठी थोडा वेळ घेतला.
मॉडेलची बलस्थाने, कदाचित अनपेक्षितपणे, अधिक क्लिष्ट तर्क, कोडिंग किंवा गणिताच्या आव्हानांना सामोरे जाताना स्पष्ट होतात. त्याच्या काही मर्यादांकडे लक्ष देण्यापूर्वी या क्षेत्रांचा तपशीलवार विचार करूया.
स्थानिक तर्क क्षमता (Spatial Reasoning Prowess)
आम्ही Homebrew Research द्वारे त्यांच्या AlphaMaze प्रकल्पाचा भाग म्हणून तयार केलेल्या तुलनेने नवीन स्थानिक-तर्क चाचणीने सुरुवात केली.
चाचणी मॉडेलला खाली दर्शविल्याप्रमाणे, मजकूर स्वरूपात एक चक्रव्यूह (maze) सादर करते. मॉडेलचे कार्य मूळ “O” पासून लक्ष्य “T” पर्यंत नेव्हिगेट करणे आहे.