کیا علی بابا کا QwQ ڈیپ سیک کو مات دے گا؟

ایک چھوٹا دعویدار: بڑے ماڈلز کو چیلنج

QwQ، محض 32 بلین پیرامیٹرز کے ساتھ، DeepSeek R1 کے 671 بلین پیرامیٹرز کے مقابلے میں، ایک “استدلال” ماڈل کے طور پر پیش کیا گیا ہے۔ علی بابا کا دعویٰ ہے کہ یہ نسبتاً چھوٹا ماڈل مخصوص بینچ مارکس میں R1 کو پیچھے چھوڑ سکتا ہے، خاص طور پر ریاضی، کوڈنگ اور فنکشن کالنگ جیسے شعبوں میں۔ اس بلند و بانگ دعوے کی وجہ سے QwQ کے اندرونی کام اور حقیقی دنیا کی کارکردگی کو قریب سے دیکھنا ضروری ہے۔

Reinforcement Learning: QwQ کی مہارت کی کلید

DeepSeek R1 کی طرح، Qwen ٹیم نے QwQ کی chain-of-thought استدلال کی صلاحیتوں کو بہتر بنانے کے لیے reinforcement learning (RL) کا استعمال کیا۔ یہ طریقہ ماڈل کی پیچیدہ مسائل کو مرحلہ وار تجزیہ کرنے اور توڑنے کی صلاحیت کو بڑھاتا ہے۔ RL میں روایتی طریقہ کار درست جوابات کے لیے ماڈل کو انعام دینا ہے، اس طرح درست جوابات کو تقویت ملتی ہے۔

تاہم، Qwen ٹیم نے QwQ کے ساتھ ایک زیادہ باریک بینی والا طریقہ اختیار کیا۔ انہوں نے ایک accuracy verifier اور ایک code execution server کو مربوط کیا۔ یہ اہم اضافہ اس بات کو یقینی بناتا ہے کہ انعامات صرف ریاضی کے لحاظ سے درست حل اور فعال کوڈ کے لیے دیے جائیں۔ اس سخت تصدیقی عمل کو نافذ کرنے سے، ٹیم کا مقصد ایک ایسے ماڈل کو فروغ دینا ہے جو اعلیٰ درجے کی درستگی اور اعتبار کا مظاہرہ کرے۔

کارکردگی کے دعوے: ایک حقیقت کی جانچ

Qwen ٹیم کی کوششوں نے، ان کے دعوے کے مطابق، ایک ایسا ماڈل تیار کیا ہے جو اپنی weight class سے نمایاں طور پر بہتر کارکردگی کا مظاہرہ کرتا ہے۔ ان کا دعویٰ ہے کہ QwQ کارکردگی کی سطح حاصل کرتا ہے جو کہ بہت بڑے ماڈلز کے برابر ہے، اور بعض صورتوں میں اس سے بھی زیادہ ہے۔

تاہم، AI بینچ مارکس کی دنیا پیچیدہ ہو سکتی ہے۔ رپورٹ کردہ اعداد و شمار سے آگے بڑھنا اور یہ جانچنا بہت ضروری ہے کہ یہ دعوے عملی، حقیقی دنیا کے منظرناموں میں کیسے ترجمہ ہوتے ہیں۔

Hands-On Testing: QwQ کو اس کی رفتار سے گزرنا

QwQ کی صلاحیتوں کا جائزہ لینے کے لیے، ٹیسٹ پرامپٹس کا ایک سلسلہ تیار کیا گیا، جو مختلف شعبوں پر محیط تھا۔ ان میں عام علم، مقامی استدلال، مسئلہ حل کرنا، ریاضی، اور دیگر چیلنجز شامل تھے جو کہ جدید ترین بڑے لسانی ماڈلز (LLMs) کے لیے بھی مشکلات پیدا کرتے ہیں۔

مکمل ماڈل کی کافی میموری کی ضروریات کی وجہ سے، ٹیسٹنگ دو کنفیگریشنز میں کی گئی۔ سب سے پہلے، مکمل ماڈل کا جائزہ Hugging Face پر QwQ ڈیمو کا استعمال کرتے ہوئے کیا گیا۔ اس سے اس کی مکمل صلاحیت کا اندازہ لگایا گیا۔ دوسرا، ایک 4-bit quantized ورژن کو 24GB GPU (خاص طور پر، ایک Nvidia 3090 یا ایک AMD Radeon RX 7900XTX) پر ٹیسٹ کیا گیا۔ اس کنفیگریشن کا مقصد ماڈل کی درستگی پر quantization کے اثرات کا اندازہ لگانا تھا، جس سے یہ کم طاقتور ہارڈ ویئر والے صارفین کے لیے زیادہ قابل رسائی ہو۔

عام علم: اپنی جگہ برقرار رکھنا

زیادہ تر عام علم کے سوالات کے جواب میں، QwQ نے DeepSeek کے 671 بلین پیرامیٹر R1 اور OpenAI کے o3-mini جیسے دیگر استدلال ماڈلز کے مقابلے کی کارکردگی کا مظاہرہ کیا۔ ماڈل نے عام طور پر سوال کا جواب دینے سے پہلے اپنے خیالات کو مرتب کرنے میں چند سیکنڈ لگائے۔ یہ رویہ استدلال ماڈلز کی خصوصیت ہے، جو فوری جوابات پر محتاط غور و فکر کو ترجیح دیتے ہیں۔

پیچیدگی میں مہارت: منطق، کوڈنگ اور ریاضی

جہاں QwQ واقعی خود کو ممتاز کرنا شروع کرتا ہے وہ منطق، کوڈنگ یا ریاضی سے متعلق زیادہ پیچیدہ چیلنجوں سے نمٹنے میں ہے۔ آئیے ان شعبوں میں گہرائی میں جائیں، اس کی طاقتوں کو اجاگر کریں اور کچھ ایسے شعبوں پر توجہ دیں جہاں یہ کم پڑتا ہے۔

مقامی استدلال: بھولبلییا میں راستہ بنانا

ایک نسبتاً نیا مقامی استدلال ٹیسٹ، جسے Homebrew Research نے اپنے AlphaMaze پروجیکٹ کے حصے کے طور پر تیار کیا ہے، QwQ کا جائزہ لینے کے لیے استعمال کیا گیا۔

مقامی طور پر ہوسٹ کیا گیا QwQ انسٹینس اور مکمل سائز کا ماڈل دونوں نے ان پہیلیوں کو مستقل طور پر کامیابی سے حل کیا۔ تاہم، ہر رن کو مکمل ہونے میں چند منٹ لگے۔ یہ اشارہ کرتا ہے کہ اگرچہ QwQ مقامی استدلال کو مؤثر طریقے سے سنبھال سکتا ہے، لیکن یہ ضروری نہیں کہ اس میں سب سے تیز ہو۔

اس کے برعکس، DeepSeek کے R1 اور اس کے 32B ڈسٹل نے مختلف رویوں کا مظاہرہ کیا۔ دونوں ماڈلز نے پہلی بھولبلییا کو کامیابی سے حل کیا۔ تاہم، R1 نے دوسرے کے ساتھ جدوجہد کی، جبکہ 32B ڈسٹل نے دوسری بھولبلییا پر 90% کامیابی کی شرح حاصل کی۔ یہ تغیر مکمل طور پر غیر متوقع نہیں ہے، یہ دیکھتے ہوئے کہ R1 اور ڈسٹل الگ الگ بیس ماڈلز کا استعمال کرتے ہیں۔

اگرچہ QwQ نے اس مخصوص ٹیسٹ میں DeepSeek کے مقابلے میں اعلیٰ کارکردگی کا مظاہرہ کیا، لیکن 4-bit ماڈل کے ساتھ کچھ غیر معمولی رویہ دیکھا گیا۔ ابتدائی طور پر، اسے ٹیسٹ مکمل کرنے کے لیے تقریباً دوگنا زیادہ “thought” ٹوکنز کی ضرورت تھی۔ اس نے ابتدائی طور پر quantization کی وجہ سے ممکنہ نقصانات کا مشورہ دیا۔ تاہم، مزید تفتیش سے پتہ چلا کہ quantized ماڈل، اپنی ابتدائی حالت میں، غیر معمولی کارکردگی کا مظاہرہ کر رہا تھا۔ ہائپر پیرامیٹرز کو ایڈجسٹ کرنے اور ٹیسٹ کو دوبارہ چلانے سے یہ مسئلہ حل ہو گیا، جس سے مناسب کنفیگریشن کی اہمیت ظاہر ہوتی ہے۔

One-Shot Coding: ایک ممکنہ طاقت

QwQ نے “one-shot” کوڈ جنریشن میں اپنی صلاحیت کے لیے کافی توجہ حاصل کی ہے – پہلی کوشش میں قابل استعمال کوڈ تیار کرنے کی صلاحیت۔ یہ خاص شعبہ ماڈل کی ایک اہم طاقت معلوم ہوتا ہے۔

ماڈل کو pygame لائبریری کا استعمال کرتے ہوئے Python میں کئی نسبتاً سادہ گیمز کو دوبارہ بنانے کا کام سونپا گیا۔ منتخب کردہ گیمز Pong، Breakout، Asteroids اور Flappy Bird تھیں۔

QwQ نے Pong اور Breakout کو نسبتاً آسانی سے سنبھالا۔ چند منٹ کی پروسیسنگ کے بعد، ماڈل نے دونوں گیمز کے ورکنگ ورژن تیار کیے۔

تاہم، جب Asteroids کو دوبارہ بنانے کا کام سونپا گیا تو QwQ کو مشکلات کا سامنا کرنا پڑا۔ اگرچہ تیار کردہ کوڈ چلا، گرافکس اور گیم میکینکس اکثر بگڑے ہوئے اور بگ تھے۔ اس کے برعکس، R1 نے اپنی پہلی کوشش میں، کلاسک آرکیڈ شوٹر کو ایمانداری سے دوبارہ بنایا۔

ان ماڈلز کے لیے تربیتی ڈیٹا پر غور کرنا ضروری ہے۔ انہیں کھلے عام دستیاب سورس کوڈ کی ایک بڑی مقدار سے روشناس کرایا گیا ہے، جس میں ممکنہ طور پر کلاسک گیمز کی دوبارہ تخلیق بھی شامل ہے۔ یہ سوال اٹھاتا ہے کہ کیا ماڈل صرف سیکھی ہوئی معلومات کو یاد کر رہے ہیں بجائے اس کے کہ وہ گیم میکینکس کو شروع سے آزادانہ طور پر اخذ کریں۔ یہ ان بڑے نیورل نیٹ ورکس کی بنیادی نوعیت کو واضح کرتا ہے، جہاں ظاہری ذہانت اکثر وسیع پیٹرن کی پہچان سے پیدا ہوتی ہے۔

ان حدود کے باوجود، کلاسک آرکیڈ گیمز کو دوبارہ بنانے میں QwQ کی کارکردگی متاثر کن ہے، خاص طور پر اس کے پیرامیٹر کی گنتی کو دیکھتے ہوئے۔ یہ ہر ٹیسٹ میں R1 سے میل نہیں کھا سکتا، لیکن یہ صلاحیت کی ایک قابل ذکر سطح کو ظاہر کرتا ہے۔ جملہ “there’s no replacement for displacement،” جو اکثر آٹوموٹو دنیا میں استعمال ہوتا ہے، یہاں متعلقہ ہو سکتا ہے۔ یہ وضاحت کر سکتا ہے کہ علی بابا QwQ کا “Max” ورژن کیوں تیار کر رہا ہے، حالانکہ یہ جلد ہی کسی بھی وقت کنزیومر ہارڈ ویئر پر چلنے کا امکان نہیں ہے۔

DeepSeek کے اسی طرح کے سائز کے R1 Qwen 2.5 32B ڈسٹل کے مقابلے میں، علی بابا کا اپنی reinforcement learning پائپ لائن میں code execution server کو مربوط کرنے کے فیصلے نے پروگرامنگ سے متعلق چیلنجوں میں ایک فائدہ فراہم کیا ہو گا۔

ریاضی: ایک انتباہ کے ساتھ صلاحیت

تاریخی طور پر، LLMs نے ریاضی کے ساتھ جدوجہد کی ہے، جو ان کی زبان پر مرکوز تربیت کا نتیجہ ہے۔ اگرچہ نئے ماڈلز نے بہتری دکھائی ہے، QwQ کو اب بھی چیلنجز کا سامنا ہے، حالانکہ ضروری نہیں کہ ان وجوہات کی بناء پر جن کی توقع کی جا سکتی ہے۔

QwQ نے ریاضی کے تمام مسائل کو کامیابی سے حل کیا جو پہلے R1 کو پیش کیے گئے تھے۔ یہ اشارہ کرتا ہے کہ QwQ بنیادی ریاضی اور یہاں تک کہ کچھ الجبرا کو بھی سنبھال سکتا ہے۔ تاہم، مسئلہ اس کی کارکردگی میں ہے۔ ریاضی کے حساب کتاب کے لیے LLM کو استعمال کرنا غیر منطقی لگتا ہے جب کیلکولیٹر اور براہ راست کمپیوٹیشن آسانی سے دستیاب اور نمایاں طور پر تیز رہیں۔
مثال کے طور پر، 7*43 جیسی سادہ مساوات کو حل کرنے کے لیے QwQ کو 1,000 سے زیادہ ٹوکنز بنانے کی ضرورت تھی، جس میں RTX 3090 Ti پر تقریباً 23 سیکنڈ لگے۔ یہ ایک ایسا کام ہے جسے جیبی کیلکولیٹر پر وقت کے ایک حصے میں مکمل کیا جا سکتا ہے۔

بڑے حسابات کے ساتھ ناکارہی اور بھی زیادہ واضح ہو جاتی ہے۔ 3394*35979 کو حل کرنا، ایک ضرب کا مسئلہ جو زیادہ تر غیر استدلال ماڈلز کی صلاحیتوں سے باہر ہے، QwQ کے مقامی انسٹینس کو کمپیوٹ کرنے میں تین منٹ اور 5,000 سے زیادہ ٹوکن لگے۔

ہائپر پیرامیٹر فکس سے پہلے، اسی مساوات کو نو منٹ اور تقریباً 12,000 ٹوکنز کی ضرورت تھی۔

یہاں اہم بات یہ ہے کہ اگرچہ ایک ماڈل درست جواب تک پہنچنے کے لیے brute-forcing کرنے کی صلاحیت رکھتا ہے، لیکن اس کا مطلب یہ نہیں ہے کہ یہ کام کے لیے بہترین ٹول ہے۔ ایک زیادہ عملی طریقہ یہ ہوگا کہ QwQ کو Python کیلکولیٹر تک رسائی فراہم کی جائے۔ یہ ماڈل کی طاقتوں کا فائدہ اٹھاتا ہے جبکہ کمپیوٹیشنل طور پر زیادہ کاموں کو زیادہ موزوں ٹول پر منتقل کرتا ہے۔

جب ٹولنگ کا استعمال کرتے ہوئے اسی 3394*35979 مساوات کو حل کرنے کا کام سونپا گیا تو QwQ کا رسپانس ٹائم آٹھ سیکنڈ تک گر گیا، کیونکہ کیلکولیٹر نے بھاری کام سنبھالا۔

“Wait” کا پھیلاؤ: سوچ کے عمل میں ایک جھلک

QwQ کے “خیالات” کا جائزہ لینے سے لفظ “wait” کی کثرت سے موجودگی کا پتہ چلتا ہے، خاص طور پر پیچیدہ کاموں یا لفظی مسائل کے دوران۔ یہ ماڈل کے متبادل نتائج کے خلاف اپنے کام کی جانچ پڑتال کے اندرونی عمل کی عکاسی کرتا ہے۔

اگرچہ یہ رویہ استدلال ماڈلز میں عام ہے، لیکن یہ خاص طور پر مایوس کن ہو سکتا ہے جب QwQ ایک غلط جواب تیار کرتا ہے، یہاں تک کہ اپنے “thought” کے عمل کے دوران درست جواب کی سمجھ ظاہر کرنے کے بعد بھی۔

ٹیسٹنگ کے دوران اس مسئلے کا اکثر سامنا کرنا پڑا۔ سب سے زیادہ واضح مثالوں میں سے ایک AutoGen AI کی کلاسک بھیڑیا، بکری اور گوبھی کے مسئلے کی موافقت تھی۔ یہ پہیلی ایک ٹرانسپورٹیشن آپٹیمائزیشن چیلنج پیش کرتی ہے جس میں ایک موڑ ہے:

حل پرامپٹ کے اندر ایمبیڈڈ ہے: تین محفوظ کمپارٹمنٹس کے ساتھ، کسان ایک ہی ٹرپ میں تمام اشیاء کو لے جا سکتا ہے۔ تاہم، پہیلی کی کلاسک ورژن سے مشابہت کی وجہ سے، ماڈل اکثر کمپارٹمنٹس کو نظر انداز کر دیتے ہیں۔

ٹیسٹنگ میں، QwQ مستقل طور پر اس پہیلی کو صحیح طریقے سے حل کرنے میں ناکام رہا۔ اس کے سوچنے کے عمل کا جائزہ لینے سے پتہ چلا کہ اس نے تین کمپارٹمنٹس کو نظر انداز نہیں کیا۔ درحقیقت، اس نے انہیں تسلیم کیا لیکن انہیں بہت سادہ ہونے کی وجہ سے مسترد کر دیا:

“Wait, if the farmer can take all three in one trip, then he can just do that and be done. But that would make the problem trivial, which is unlikely. So perhaps the compartments are separate but the boat can only carry two items plus the farmer?”

اس بات سے قطع نظر کہ ٹیسٹ کلاؤڈ میں مکمل ماڈل پر چلایا گیا تھا یا مقامی طور پر، QwQ نے اسے مستقل طور پر حل کرنے کے لیے جدوجہد کی۔ یہ اس کی استدلال کی صلاحیتوں میں ایک ممکنہ حد کو اجاگر کرتا ہے، جہاں یہ مسئلے کی رکاوٹوں کو زیادہ سوچ سکتا ہے یا غلط تشریح کر سکتا ہے۔

ہائپر پیرامیٹر حساسیت: ایک نازک توازن

دوسرے ماڈلز کے مقابلے میں، QwQ نے اپنی کنفیگریشن کے لیے زیادہ حساسیت کا مظاہرہ کیا۔ ابتدائی طور پر، علی بابا نے مخصوص سیمپلنگ پیرامیٹرز کی سفارش کی:

  • Temperature: 0.6
  • TopP: 0.95
  • TopK: between 20 and 40

بعد میں، ان سفارشات کو اپ ڈیٹ کیا گیا تاکہ شامل کیا جا سکے:

  • MinP: 0
  • Presence Penalty: between 0 and 2

Llama.cpp کے سیمپلنگ پیرامیٹرز کو سنبھالنے میں ایک واضح بگ کی وجہ سے (Llama.cpp ماڈلز پر انفرنس چلانے کے لیے استعمال ہوتا ہے)، repeat penalty کو 1 پر سیٹ کر کے غیر فعال کرنا بھی ضروری تھا۔

جیسا کہ پہلے ذکر کیا گیا ہے، ان کنفیگریشن مسائل کو حل کرنے کے نتیجے میں ایک اہم بہتری آئی، جس سے جواب تک پہنچنے کے لیے درکار “thinking” ٹوکنز کی تعداد آدھی سے زیادہ کم ہو گئی۔ تاہم، یہ بگ GGUF-quantized ماڈلز کے لیے مخصوص معلوم ہوتا ہے جب Llama.cpp انفرنس انجن پر چل رہا ہو، جو Ollama اور LM Studio جیسی مشہور ایپلی کیشنز کے ذریعے استعمال ہوتا ہے۔

Llama.cpp کو استعمال کرنے کا منصوبہ بنانے والے صارفین کے لیے، Unsloth کی سیمپلنگ آرڈر کو درست کرنے کے لیے گائیڈ سے مشورہ کرنے کی انتہائی سفارش کی جاتی ہے۔

QwQ کے ساتھ شروعات کرنا: ایک عملی گائیڈ

QwQ کے ساتھ تجربہ کرنے میں دلچسپی رکھنے والوں کے لیے، اسے Ollama میں ترتیب دینا نسبتاً سیدھا ہے۔ تاہم، یہ نوٹ کرنا ضروری ہے کہ اس کے لیے کافی مقدار میں vRAM والے GPU کی ضرورت ہوتی ہے۔ ماڈل کو 24GB 3090 Ti پر کامیابی سے چلایا گیا جس میں عملی استعمال کے لیے کافی بڑی سیاق و سباق کی ونڈو تھی۔

اگرچہ تکنیکی طور پر CPU اور سسٹم میموری پر ماڈل چلانا ممکن ہے، لیکن اس کے نتیجے میں انتہائی سست رسپانس ٹائمز کا امکان ہے جب تک کہ ہائی اینڈ ورک سٹیشن یا سرور استعمال نہ کیا جائے۔

شرائط:

  1. ایک مشین جو 4-bit quantization پر درمیانے سائز کے LLMs کو چلانے کی صلاحیت رکھتی ہو۔ کم از کم 24GB vRAM والا ایک مطابقت پذیر GPU تجویز کیا جاتا ہے۔ معاون کارڈز کی فہرست یہاں مل سکتی ہے۔
  2. Apple Silicon Macs کے لیے، کم از کم 32GB میموری کی سفارش کی جاتی ہے۔

یہ گائیڈ Linux-world کمانڈ لائن انٹرفیس اور Ollama سے بنیادی واقفیت کو فرض کرتی ہے۔

Ollama انسٹال کرنا

Ollama ایک مقبول ماڈل رنر ہے جو کنزیومر ہارڈ ویئر پر LLMs کو ڈاؤن لوڈ اور پیش کرنے کے عمل کو آسان بناتا ہے۔ Windows یا macOS صارفین کے لیے، اسے ollama.com سے کسی بھی دوسری ایپلیکیشن کی طرح ڈاؤن لوڈ اور انسٹال کریں۔

Linux صارفین کے لیے، Ollama انسٹالیشن کے لیے ایک آسان ون لائنر فراہم کرتا ہے: