ری انفورسمنٹ لرننگ، کچھ اضافی تصدیق کے ساتھ مل کر، بڑے لینگویج ماڈلز (LLMs) کی صلاحیتوں کو کس حد تک بڑھا سکتی ہے؟ علی بابا کی Qwen ٹیم اپنے تازہ ترین تخلیق، QwQ کے ساتھ اس سوال کا جواب تلاش کرنے کی کوشش میں ہے۔
QwQ، ایک “reasoning” ماڈل، نسبتاً کمپیکٹ 32 بلین پیرامیٹرز پر مشتمل ہے۔ اس کے باوجود، علی بابا کا دعویٰ ہے کہ یہ ریاضی، کوڈنگ، اور فنکشن کالنگ سے متعلق مخصوص بینچ مارکس میں DeepSeek R1 کو پیچھے چھوڑ دیتا ہے، جس کے 671 بلین پیرامیٹرز ہیں۔
Qwen ٹیم نے، R1 کے ساتھ کیے گئے طریقہ کار کی طرح، QwQ کی chain-of-thought reasoning کو بہتر بنانے کے لیے ری انفورسمنٹ لرننگ کا استعمال کیا۔ یہ طریقہ مسئلے کے تجزیے اور بریک ڈاؤن کی صلاحیتوں کو بڑھاتا ہے۔ ری انفورسمنٹ لرننگ روایتی طور پر درست جوابات کے لیے ماڈلز کو انعام دے کر مرحلہ وار استدلال کو مضبوط کرتی ہے، اس طرح زیادہ درست جوابات کو فروغ ملتا ہے۔ تاہم، QwQ ایک قدم آگے بڑھ کر ایک accuracy verifier اور ایک code execution server کو شامل کرتا ہے۔ یہ یقینی بناتا ہے کہ انعامات صرف درست ریاضیاتی حل اور فعال کوڈ کے لیے دیے جائیں۔
Qwen ٹیم کا دعویٰ ہے کہ یہ طریقہ کار ایک ایسے ماڈل کا نتیجہ ہے جو اپنے سائز سے بہتر کارکردگی کا مظاہرہ کرتا ہے، جو کہ بہت بڑے ماڈلز کے مقابلے میں، اور بعض اوقات اس سے بھی زیادہ، کارکردگی حاصل کرتا ہے۔
تاہم، AI بینچ مارک دھوکہ دہی کا شکار ہو سکتے ہیں۔ لہذا، آئیے جائزہ لیتے ہیں کہ یہ دعوے حقیقی دنیا کے منظرناموں میں کیسے ترجمہ کرتے ہیں اور پھر ہم آپ کو رہنمائی کریں گے کہ QwQ کو آزادانہ طور پر کیسے چلایا جائے۔
کارکردگی کا جائزہ
ہم نے QwQ کو ٹیسٹ پرامپٹس کی ایک سیریز کے سامنے رکھا، جس میں عام علم، مقامی استدلال، مسئلہ حل کرنا، ریاضی، اور دیگر سوالات شامل ہیں جو کہ جدید ترین LLMs کو بھی چیلنج کرتے ہیں۔
مکمل ماڈل کی کافی میموری کی ضروریات کی وجہ سے، ہم نے اپنے ٹیسٹ دو کنفیگریشنز میں کیے تاکہ مختلف RAM صلاحیتوں والے صارفین کو پورا کیا جا سکے۔ ابتدائی طور پر، ہم نے Hugging Face پر QwQ ڈیمو کا استعمال کرتے ہوئے مکمل ماڈل کا جائزہ لیا۔ اس کے بعد، ہم نے درستگی پر quantization کے اثرات کا اندازہ لگانے کے لیے 24 GB GPU (Nvidia 3090 یا AMD Radeon RX 7900XTX) پر 4-bit quantized ورژن کا تجربہ کیا۔
زیادہ تر عام فہم سوالات کے لیے، QwQ نے DeepSeek کے 671 بلین پیرامیٹر R1 اور OpenAI کے o3-mini جیسے دیگر ریزننگ ماڈلز جیسی کارکردگی کا مظاہرہ کیا، جواب دینے سے پہلے اپنے خیالات کو مرتب کرنے کے لیے تھوڑی دیر کے لیے رکا۔
ماڈل کی طاقتیں، شاید حیرت کی بات نہیں، زیادہ پیچیدہ منطق، کوڈنگ، یا ریاضیاتی چیلنجوں سے نمٹنے کے وقت ظاہر ہوتی ہیں۔ آئیے اس کی کچھ حدود کو حل کرنے سے پہلے ان شعبوں میں گہرائی میں جائیں۔
مقامی استدلال کی مہارت
ہم نے Homebrew Research کے AlphaMaze پروجیکٹ کے حصے کے طور پر تیار کردہ ایک نسبتاً نئے مقامی استدلال ٹیسٹ سے شروعات کی۔
ٹیسٹ ماڈل کو ٹیکسٹ فارمیٹ میں ایک بھولبلییا پیش کرتا ہے، جیسا کہ نیچے دکھایا گیا ہے۔ ماڈل کا کام اصل “O” سے ہدف “T” تک جانا ہے۔