علی بابا نے Qwen-32B کی نقاب کشائی کی: بڑے ماڈلز کو چیلنج کرنے والا ایک کمپیکٹ پاور ہاؤس
ایک حیران کن رات گئے اعلان میں، علی بابا نے اپنا تازہ ترین ریزننگ ماڈل، Qwen-32B (QwQ-32B) اوپن سورس کر دیا ہے۔ 32 بلین پیرامیٹرز پر فخر کرتے ہوئے، یہ ماڈل نمایاں طور پر بڑے 67.1 بلین پیرامیٹر، مکمل DeepSeek-R1 کے برابر کارکردگی کا مظاہرہ کرتا ہے۔
Qwen ٹیم کے اعلان میں reinforcement learning (RL) تکنیکوں کو بڑھانے پر ان کی تحقیق پر روشنی ڈالی گئی۔ انہوں نے کہا، “ہم RL کو بڑھانے کے طریقوں کو تلاش کر رہے ہیں، اپنے Qwen2.5-32B کی بنیاد پر کچھ متاثر کن نتائج حاصل کر رہے ہیں۔ ہم نے پایا کہ RL ٹریننگ کارکردگی کو مسلسل بہتر بنا سکتی ہے، خاص طور پر ریاضی اور کوڈنگ کے کاموں میں۔ ہم نے مشاہدہ کیا کہ RL کی مسلسل اسکیلنگ درمیانے سائز کے ماڈلز کو بڑے MoE ماڈلز کے مقابلے میں کارکردگی حاصل کرنے میں مدد دے سکتی ہے۔ ہم سب کو اپنے نئے ماڈل کے ساتھ چیٹ کرنے اور ہمیں فیڈ بیک فراہم کرنے کا خیرمقدم کرتے ہیں!”
QwQ-32B اب Apache 2.0 اوپن سورس لائسنس کے تحت Hugging Face اور ModelScope پر دستیاب ہے۔ صارفین Qwen Chat کے ذریعے بھی ماڈل کے ساتھ براہ راست بات چیت کر سکتے ہیں۔ مقبول مقامی تعیناتی ٹول، Ollama، نے پہلے ہی انضمام کی حمایت کی ہے، جو کمانڈ کے ذریعے قابل رسائی ہے: ollama run qwq
۔
ریلیز کے ساتھ، Qwen ٹیم نے “QwQ-32B: Harnessing the Power of Reinforcement Learning” کے عنوان سے ایک بلاگ پوسٹ شائع کی، جس میں اہم پیشرفت کی تفصیل دی گئی ہے۔
بلاگ پوسٹ ماڈل کی کارکردگی کو بڑھانے میں روایتی پری ٹریننگ اور پوسٹ ٹریننگ طریقوں کو پیچھے چھوڑنے کے لیے بڑے پیمانے پر reinforcement learning (RL) کی بے پناہ صلاحیت پر زور دیتی ہے۔ حالیہ تحقیق، جیسے کہ DeepSeek-R1 کا کولڈ اسٹارٹ ڈیٹا اور ملٹی اسٹیج ٹریننگ کا انضمام، RL کی استدلال کی صلاحیتوں کو نمایاں طور پر بڑھانے، گہری سوچ اور پیچیدہ مسائل کو حل کرنے کے قابل بنانے کی صلاحیت کو ظاہر کرتا ہے۔
Qwen ٹیم کی تحقیق بڑے لینگویج ماڈلز کی ذہانت کو بڑھانے کے لیے بڑے پیمانے پر RL سے فائدہ اٹھانے پر مرکوز تھی، جس کا نتیجہ QwQ-32B کی تخلیق پر ہوا۔ یہ 32 بلین پیرامیٹر ماڈل 67.1 بلین پیرامیٹر (37 بلین ایکٹیویٹڈ کے ساتھ) DeepSeek-R1 کی کارکردگی کا مقابلہ کرتا ہے۔ ٹیم نے زور دیا، “یہ کامیابی مضبوط، پہلے سے تربیت یافتہ فاؤنڈیشن ماڈلز پر reinforcement learning کے اطلاق کی تاثیر کو واضح کرتی ہے۔”
QwQ-32B ایجنٹ سے متعلقہ صلاحیتوں کو بھی شامل کرتا ہے، جو اسے ٹولز کا استعمال کرتے ہوئے اپنے اعمال کا تنقیدی جائزہ لینے اور ماحولیاتی فیڈ بیک کی بنیاد پر اپنے استدلال کے عمل کو ڈھالنے کے قابل بناتا ہے۔ ٹیم نے کہا، “ہمیں امید ہے کہ ہماری کوششیں یہ ظاہر کرتی ہیں کہ طاقتور فاؤنڈیشن ماڈلز کو بڑے پیمانے پر reinforcement learning کےساتھ جوڑنا Artificial General Intelligence (AGI) کی طرف ایک قابل عمل راستہ ہو سکتا ہے۔”
ماڈل کی کارکردگی: QwQ-32B کی بینچ مارکنگ
QwQ-32B کا ریاضیاتی استدلال، پروگرامنگ، اور عمومی صلاحیتوں سمیت کئی بینچ مارکس میں سخت جائزہ لیا گیا۔ نتائج QwQ-32B کی کارکردگی کو دوسرے معروف ماڈلز کے مقابلے میں ظاہر کرتے ہیں، بشمول DeepSeek-R1-Distilled-Qwen-32B، DeepSeek-R1-Distilled-Llama-70B، o1-mini، اور اصل DeepSeek-R1۔
نتائج حیران کن ہیں۔ QwQ-32B غیر معمولی کارکردگی کا مظاہرہ کرتا ہے، یہاں تک کہ LiveBench، IFEval، اور BFCL بینچ مارکس پر DeepSeek-R1-67B سے تھوڑا سا آگے نکل جاتا ہے۔ یہ Qwen ٹیم کے ذریعہ اپنائے گئے reinforcement learning اپروچ کی کارکردگی اور طاقت کو اجاگر کرتا ہے۔
Reinforcement Learning میں گہری غوطہ خوری
QwQ-32B کی ترقی نے کولڈ اسٹارٹ فاؤنڈیشن پر بنائے گئے بڑے پیمانے پر reinforcement learning کا فائدہ اٹھایا۔ ابتدائی مرحلے نے خاص طور پر ریاضی اور پروگرامنگ کے کاموں کے لیے RL ٹریننگ پر توجہ مرکوز کی۔ روایتی طریقوں کے برعکس جو reward models پر انحصار کرتے ہیں، Qwen ٹیم نے تیار کردہ جوابات کی درستگی کی تصدیق کرکے ریاضی کے مسائل کے لیے فیڈ بیک فراہم کیا۔ کوڈنگ کے کاموں کے لیے، فیڈ بیک کوڈ ایگزیکیوشن سرور سے حاصل کیا گیا تھا، جس میں اس بات کا جائزہ لیا گیا تھا کہ آیا تیار کردہ کوڈ نے ٹیسٹ کیسز کو کامیابی سے پاس کیا ہے۔
جیسے جیسے ٹریننگ متعدد تکرار کے ذریعے آگے بڑھی، QwQ-32B نے دونوں ڈومینز میں مسلسل کارکردگی میں بہتری کا مظاہرہ کیا۔ حل کی درستگی پر براہ راست فیڈ بیک کی رہنمائی میں یہ تکراری تطہیر کا عمل انتہائی موثر ثابت ہوا۔
ریاضی اور پروگرامنگ پر مرکوز ابتدائی RL مرحلے کے بعد، عمومی صلاحیتوں کو بڑھانے کے لیے ایک بعد کا RL مرحلہ متعارف کرایا گیا۔ اس مرحلے نے ٹریننگ کے لیے عمومی reward models اور rule-based validators کا استعمال کیا۔ نتائج نے اشارہ کیا کہ عام RL میں چند قدم بھی پہلے سے تربیت یافتہ ریاضی اور پروگرامنگ کے کاموں پر کارکردگی کو نمایاں طور پر متاثر کیے بغیر مجموعی صلاحیتوں کو بڑھا سکتے ہیں۔ یہ ماڈل کی موافقت اور مضبوطی کو ظاہر کرتا ہے۔
مستقبل کی سمتیں: AI کے افق کو وسعت دینا
Qwen ٹیم نے اپنے مستقبل کے منصوبوں کا بھی اشتراک کیا، یہ کہتے ہوئے، “یہ Qwen کا استدلال کی صلاحیتوں کو بڑھانے کے لیے بڑے پیمانے پر reinforcement learning (RL) سے فائدہ اٹھانے کا پہلا قدم ہے۔ اس سفر کے ذریعے، ہم نے نہ صرف RL کو اسکیل کرنے کی بے پناہ صلاحیت کا مشاہدہ کیا ہے بلکہ پہلے سے تربیت یافتہ لینگویج ماڈلز کے اندر موجود غیر استعمال شدہ امکانات کو بھی پہچانا ہے۔ جیسا کہ ہم Qwen کی اگلی نسل تیار کرنے کی طرف کام کرتے ہیں، ہمیں یقین ہے کہ RL کے ساتھ مزید طاقتور فاؤنڈیشن ماڈلز کو یکجا کرنا، اسکیل شدہ کمپیوٹیشنل وسائل سے تقویت یافتہ، ہمیں Artificial General Intelligence (AGI) کے حصول کے قریب لے آئے گا۔ مزید برآں، ہم طویل مدتی استدلال کو فعال کرنے کے لیے ایجنٹوں کو RL کے ساتھ ضم کرنے کی فعال طور پر تلاش کر رہے ہیں، جس کا مقصد توسیعی استدلال کے وقت کے ذریعے اور بھی زیادہ ذہانت کو کھولنا ہے۔” مسلسل بہتری اور تلاش کے لیے یہ عزم AI کی حدود کو آگے بڑھانے کے لیے ٹیم کی لگن کو واضح کرتا ہے۔
کمیونٹی کا استقبال: QwQ-32B نے وسیع پیمانے پر پذیرائی حاصل کی۔
QwQ-32B کی ریلیز کا بڑے پیمانے پر جوش و خروش اور مثبت فیڈ بیک کے ساتھ خیرمقدم کیا گیا ہے۔ AI کمیونٹی، بشمول Qwen کے بہت سے صارفین، اس نئے ماڈل کی نقاب کشائی کا بے صبری سے انتظار کر رہے تھے۔
DeepSeek کے ارد گرد حالیہ جوش و خروش نے ڈسٹلڈ ورژن کی حدود کی وجہ سے مکمل ماڈل کے لیے کمیونٹی کی ترجیح کو اجاگر کیا۔ تاہم، 67.1B پیرامیٹر مکمل ماڈل نے تعیناتی کے چیلنجز پیش کیے، خاص طور پر محدود وسائل والے کنارے والے آلات کے لیے۔ Qwen-32B، اپنے نمایاں طور پر کم سائز کے ساتھ، اس تشویش کو دور کرتا ہے، وسیع تر تعیناتی کے امکانات کو کھولتا ہے۔
ایک صارف نے تبصرہ کیا، “یہ شاید ابھی تک موبائل فونز پر ممکن نہیں ہے، لیکن کافی RAM والے Macs اسے سنبھالنے کے قابل ہو سکتے ہیں۔” یہ جذبات QwQ-32B کو وسائل سے محروم آلات پر چلانے کی صلاحیت کے ارد گرد امید کی عکاسی کرتے ہیں۔
ایک اور صارف نے براہ راست Binyuan Hui سے خطاب کیا، جو علی بابا کی Tongyi لیبارٹری کے ایک سائنسدان ہیں، اور اس سے بھی چھوٹے ماڈلز تیار کرنے پر زور دیا۔ یہ تیزی سے کمپیکٹ اور موثر AI ماڈلز کی مانگ کو اجاگر کرتا ہے۔
صارفین نے اپنے تجربات بھی شیئر کیے ہیں، ماڈل کی رفتار اور ردعمل کی تعریف کی۔ ایک صارف نے ایک مظاہرہ پیش کیا، جس میں QwQ-32B کی تیز رفتار پروسیسنگ صلاحیتوں کو اجاگر کیا گیا۔
Awni Hannun، ایپل میں مشین لرننگ کے محقق، نے M4 Max پر QwQ-32B کے کامیاب عمل کی تصدیق کی، اس کی متاثر کن رفتار کو نوٹ کیا۔ ایک ممتاز محقق کی طرف سے یہ توثیق ماڈل کے کارکردگی کے دعووں کو مزید مستحکم کرتی ہے۔
Qwen ٹیم نے اپنے آفیشل چیٹ انٹرفیس، Qwen Chat پر QwQ-32B کا ایک پیش نظارہ ورژن بھی دستیاب کرایا ہے، جس سے صارفین کو ٹیسٹ کرنے اور فیڈ بیک فراہم کرنے کی ترغیب دی گئی ہے۔ یہ انٹرایکٹو اپروچ کمیونٹی کی شمولیت کو فروغ دیتا ہے اور ماڈل کی صلاحیتوں کی حقیقی دنیا کی تشخیص کی اجازت دیتا ہے۔
کمیونٹی کی طرف سے QwQ-32B کو تیزی سے اپنانا اور Ollama جیسے مشہور ٹولز میں اس کا انضمام ماڈل کی اہمیت اور اثر کو ظاہر کرتا ہے۔ مضبوط کارکردگی، ایک چھوٹے ماڈل سائز، اور reinforcement learning کے اختراعی استعمال کے امتزاج نے QwQ-32B کو بڑے لینگویج ماڈلز کے میدان میں ایک بڑی پیشرفت کے طور پر کھڑا کیا ہے۔ ماڈل کی اوپن سورس نوعیت AI کمیونٹی کے اندر تعاون اور جدت کو مزید فروغ دیتی ہے، مستقبل کی کامیابیوں کی راہ ہموار کرتی ہے۔ عملی تعیناتی اور حقیقی دنیا کی ایپلی کیشنز پر توجہ QwQ-32B کی تحقیقی ترتیبات سے آگے کافی اثر ڈالنے، جدید AI صلاحیتوں کو صارفین اور آلات کی وسیع رینج تک پہنچانے کی صلاحیت کو اجاگر کرتی ہے۔ Qwen ٹیم کی طرف سے جاری تحقیق اور ترقی کی کوششیں AGI کے حصول میں مزید دلچسپ پیشرفت کا وعدہ کرتی ہیں۔