علی بابا کا QwQ-32B: ایک RL انکشاف

Reinforcement Learning کی طاقت

AI ماڈل ڈویلپمنٹ کے روایتی طریقوں میں پری ٹریننگ اور پوسٹ ٹریننگ کے طریقوں پر زیادہ انحصار کیا جاتا رہا ہے۔ تاہم، Qwen ٹیم نے ان روایتی تکنیکوں سے آگے بڑھ کر ایجنٹ کی صلاحیتوں کو براہ راست ریزننگ ماڈل میں ضم کر دیا ہے۔ یہ انضمام QwQ-32B کو تنقیدی سوچ میں مشغول ہونے، بیرونی ٹولز استعمال کرنے، اور اپنے ماحول سے ملنے والے فیڈ بیک کی بنیاد پر اپنے استدلال کے عمل کو متحرک طور پر ڈھالنے کی طاقت دیتا ہے۔ یہ زیادہ موافق اور ذہین AI سسٹمز بنانے میں ایک اہم قدم کی نمائندگی کرتا ہے۔

Qwen ٹیم اس بات پر زور دیتی ہے کہ RL کو بڑھانا کارکردگی میں اضافہ کرنے کی صلاحیت رکھتا ہے جو روایتی طریقوں کی صلاحیتوں سے کہیں زیادہ ہے۔ حالیہ تحقیق نے پہلے ہی AI ماڈلز کی استدلال کی صلاحیتوں کو نمایاں طور پر بڑھانے کے لیے RL کی صلاحیت کا مظاہرہ کیا ہے، اور QwQ-32B اس صلاحیت کی ایک زبردست مثال کے طور پر کام کرتا ہے۔

سائز اور کارکردگی کے درمیان فرق کو ختم کرنا

QwQ-32B کا سب سے زیادہ متاثر کن پہلو اس کے سائز کے مقابلے میں اس کی کارکردگی ہے۔ DeepSeek-R1، ایک ایسا ماڈل جس کا QwQ-32B مقابلہ کرتا ہے، 671 بلین پیرامیٹرز (37 بلین ایکٹیویٹڈ کے ساتھ) پر مشتمل ہے۔ QwQ-32B، نسبتاً معمولی 32 بلین پیرامیٹرز کے ساتھ، موازنہ کارکردگی حاصل کرتا ہے، جو RL کے اسٹریٹجک نفاذ کے ذریعے حاصل کردہ قابل ذکر کارکردگی کو اجاگر کرتا ہے۔ یہ کامیابی اس دیرینہ مفروضے کو چیلنج کرتی ہے کہ ماڈل کا سائز کارکردگی کا بنیادی تعین کنندہ ہے، یہ تجویز کرتا ہے کہ تربیت کی جدید تکنیکیں سائز اور صلاحیت کے درمیان فرق کو ختم کر سکتی ہیں۔

Benchmarking Excellence

QwQ-32B کی صلاحیتوں کا سختی سے جائزہ لینے کے لیے، Qwen ٹیم نے ماڈل کو بینچ مارکس کے ایک جامع سوٹ سے مشروط کیا۔ یہ بینچ مارکس، بشمول AIME24، LiveCodeBench، LiveBench، IFEval، اور BFCL، خاص طور پر AI کارکردگی کے مختلف پہلوؤں کا جائزہ لینے کے لیے بنائے گئے ہیں، جس میں ریاضیاتی استدلال، کوڈنگ کی مہارت، اور عمومی مسئلہ حل کرنے کی صلاحیتیں شامل ہیں۔ ان تشخیصات کے نتائج QwQ-32B کی طاقتوں کی ایک زبردست تصویر پیش کرتے ہیں۔

یہاں ہر بینچ مارک پر QwQ-32B کی کارکردگی پر ایک قریبی نظر ہے:

  • AIME24: یہ بینچ مارک ریاضیاتی استدلال پر مرکوز ہے۔ QwQ-32B نے 79.5 کا اسکور حاصل کیا، جو DeepSeek-R1-671B کے 79.8 کے اسکور سے تھوڑا پیچھے ہے۔ خاص طور پر، دونوں ماڈلز نے OpenAl-o1-mini سے نمایاں طور پر بہتر کارکردگی کا مظاہرہ کیا، جس نے 63.6 اسکور کیا، ساتھ ہی ڈسٹلڈ ماڈلز۔

  • LiveCodeBench: یہ بینچ مارک کوڈنگ کی مہارت کا جائزہ لیتا ہے۔ QwQ-32B نے 63.4 اسکور کیا، جو DeepSeek-R1-671B کے 65.9 کے اسکور کی قریب سے عکاسی کرتا ہے۔ ایک بار پھر، دونوں ماڈلز نے ڈسٹلڈ ماڈلز اور OpenAl-o1-mini (53.8) کی کارکردگی کو پیچھے چھوڑ دیا۔

  • LiveBench: عمومی مسئلہ حل کرنے کی صلاحیتوں کا جائزہ لینے کے لیے ڈیزائن کیا گیا، LiveBench نے QwQ-32B کو 73.1 کا اسکور حاصل کرتے ہوئے دیکھا، جو DeepSeek-R1-671B کے 71.6 کے اسکور سے بہتر ہے۔ یہ نتیجہ عمومی AI کاموں میں ایک مضبوط دعویدار کے طور پر QwQ-32B کی پوزیشن کو مزید مستحکم کرتا ہے۔

  • IFEval: یہ بینچ مارک ہدایات پر عمل کرنے اور انسانی ترجیحات کے ساتھ ہم آہنگی پر مرکوز ہے۔ QwQ-32B نے 83.9 کا متاثر کن اسکور حاصل کیا، جو DeepSeek-R1-671B کے 83.3 کے اسکور سے تقریباً مماثل ہے۔ دونوں ماڈلز نے OpenAl-o1-mini (59.1) اور ڈسٹلڈ ماڈلز سے نمایاں طور پر بہتر کارکردگی کا مظاہرہ کیا۔

  • BFCL: یہ بینچ مارک ایک ماڈل کی پیچیدہ، حقیقی دنیا کے منظرناموں کو سنبھالنے کی صلاحیت کو جانچتا ہے۔ QwQ-32B نے 66.4 کا اسکور حاصل کیا، جو DeepSeek-R1-671B کے 62.8 کے اسکور سے زیادہ ہے۔ یہ نتیجہ خالصتاً تعلیمی بینچ مارکس سے آگے عملی ایپلی کیشنز کے لیے QwQ-32B کی صلاحیت کو ظاہر کرتا ہے۔

یہ نتائج مسلسل QwQ-32B کی صلاحیت کو ظاہر کرتے ہیں کہ وہ بہت بڑے ماڈلز کا مقابلہ کر سکتا ہے، اور بعض صورتوں میں ان سے بہتر کارکردگی کا مظاہرہ کر سکتا ہے۔ یہ Qwen ٹیم کے نقطہ نظر کی تاثیر اور AI ڈویلپمنٹ میں RL کی تبدیلی کی صلاحیت کو اجاگر کرتا ہے۔

Qwen ٹیم کا اختراعی طریقہ

QwQ-32B کی کامیابی کو Qwen ٹیم کے اختراعی ملٹی اسٹیج RL عمل سے منسوب کیا جا سکتا ہے۔ یہ عمل “کولڈ اسٹارٹ” چیک پوائنٹ سے شروع ہوتا ہے، یعنی ماڈل پہلے سے تربیت یافتہ فاؤنڈیشن کے ساتھ شروع ہوتا ہے لیکن پھر RL کے ذریعے نمایاں طور پر بہتر ہوتا ہے۔ تربیتی عمل نتیجہ پر مبنی انعامات سے چلتا ہے، جو ماڈل کو مخصوص کاموں پر اپنی کارکردگی کو بہتر بنانے کی ترغیب دیتا ہے۔

تربیت کا ابتدائی مرحلہ ریاضی اور کوڈنگ کے کاموں کے لیے RL کو بڑھانے پر مرکوز ہے۔ اس میں فیڈ بیک فراہم کرنے اور ماڈل کی سیکھنے کی رہنمائی کے لیے درستگی کی تصدیق کرنے والے اور کوڈ ایگزیکیوشن سرورز کا استعمال شامل ہے۔ ماڈل کامیاب نتائج کے لیے انعامات حاصل کر کے درست ریاضیاتی حل تیار کرنا اور فعال کوڈ لکھنا سیکھتا ہے۔

دوسرا مرحلہ عمومی صلاحیتوں کو شامل کرنے کے لیے RL تربیت کے دائرہ کار کو بڑھاتا ہے۔ یہ مرحلہ عمومی انعامی ماڈلز اور اصول پر مبنی تصدیق کنندگان سے انعامات کو شامل کرتا ہے، جس سے ماڈل کی مختلف کاموں اور ہدایات کی سمجھ میں اضافہ ہوتا ہے۔ یہ مرحلہ ایک ہمہ جہت AI ماڈل تیار کرنے کے لیے بہت اہم ہے جو چیلنجوں کی ایک وسیع رینج کو سنبھال سکتا ہے۔

Qwen ٹیم نے دریافت کیا کہ RL تربیت کا یہ دوسرا مرحلہ، نسبتاً کم تعداد میں اقدامات کے ساتھ بھی، ماڈل کی کارکردگی کو مختلف عمومی صلاحیتوں میں نمایاں طور پر بڑھا سکتا ہے۔ ان میں ہدایات پر عمل کرنا، انسانی ترجیحات کے ساتھ ہم آہنگی، اور مجموعی ایجنٹ کی کارکردگی شامل ہیں۔ اہم بات یہ ہے کہ عمومی صلاحیتوں میں یہ بہتری ریاضی اور کوڈنگ میں کارکردگی کی قیمت پر نہیں آتی ہے، جو ملٹی اسٹیج اپروچ کی تاثیر کو ظاہر کرتی ہے۔

Open-Weight اور قابل رسائی

ایک ایسے اقدام میں جو تعاون اور مزید تحقیق کو فروغ دیتا ہے، Qwen ٹیم نے QwQ-32B کو اوپن ویٹ بنایا ہے۔ اس کا مطلب ہے کہ ماڈل کے پیرامیٹرز عوامی طور پر دستیاب ہیں، جس سے محققین اور ڈویلپرز کو Qwen ٹیم کے کام تک رسائی، مطالعہ اور اس پر تعمیر کرنے کی اجازت ملتی ہے۔ ماڈل Hugging Face اور ModelScope پر Apache 2.0 لائسنس کے تحت دستیاب ہے، ایک اجازت نامہ لائسنس جو وسیع پیمانے پر استعمال اور ترمیم کی حوصلہ افزائی کرتا ہے۔ مزید برآں، QwQ-32B، Qwen Chat کے ذریعے قابل رسائی ہے، جو ماڈل کے ساتھ بات چیت کے لیے صارف دوست انٹرفیس فراہم کرتا ہے۔

AGI کی طرف ایک قدم

QwQ-32B کی ترقی Artificial General Intelligence (AGI) کے حصول میں ایک اہم قدم کی نمائندگی کرتی ہے۔ Qwen ٹیم اس ماڈل کو استدلال کی صلاحیتوں کو بڑھانے کے لیے RL کو بڑھانے کی ابتدائی تلاش کے طور پر دیکھتی ہے، اور وہ طویل مدتی استدلال کے لیے ایجنٹوں کو RL کے ساتھ ضم کرنے کی تحقیقات جاری رکھنے کا ارادہ رکھتے ہیں۔ اس میں ایسے AI سسٹمز تیار کرنا شامل ہے جو طویل عرصے تک پیچیدہ کاموں کی منصوبہ بندی اور ان پر عمل درآمد کر سکیں، جو AGI کے حصول کے لیے ایک اہم صلاحیت ہے۔

ٹیم کو یقین ہے کہ مضبوط فاؤنڈیشن ماڈلز کو RL کے ساتھ جوڑنا، جو کہ کمپیوٹیشنل وسائل سے چلتا ہے، AGI کی ترقی میں ایک اہم محرک ہوگا۔ QwQ-32B اس صلاحیت کا ایک طاقتور مظاہرہ کرتا ہے، جو اسٹریٹجک RL نفاذ کے ذریعے حاصل کی جانے والی قابل ذکر کارکردگی کو ظاہر کرتا ہے۔ Qwen ٹیم کی جاری تحقیق اور ترقی کی کوششیں، QwQ-32B کی اوپن سورس نوعیت کے ساتھ، AI کے شعبے میں پیش رفت کو تیز کرنے اور ہمیں واقعی ذہین مشینوں کے ادراک کے قریب لانے کا وعدہ کرتی ہیں۔ توجہ اب صرف بڑے ماڈلز بنانے پر نہیں ہے، بلکہ تربیت کی جدید تکنیکوں کے ذریعے زیادہ ذہین اور موافق نظام بنانے پر ہے۔