مائیکروسافٹ کا اوپن سورس AI ماڈلز کی دنیا میں قدم، خاص طور پر Phi فیملی، رفتار پکڑ رہا ہے، اگرچہ OpenAI میں ان کی سرمایہ کاری کی طرح وسیع شناخت کے ساتھ نہیں ہے۔ ان ماڈلز میں، Phi-4 ریزننگ پلس نمایاں ہے، جو بینچ مارک ٹیسٹوں پر قابل ذکر نتائج حاصل کرنے میں ری انفورسمنٹ لرننگ (RL) کی طاقت کو ظاہر کرتا ہے۔
Phi سیریز کو وسائل کے لحاظ سے موثر بنانے کے لیے انجنیئر کیا گیا ہے، جو کم کمپیوٹیشنل پاور اور اسٹوریج کی جگہ استعمال کرتی ہے۔ محتاط تحقیق اور آپٹیمائزیشن تکنیکوں کے ذریعے، ان ماڈلز نے مسلسل توقعات سے تجاوز کیا ہے، اپنی ویٹ کلاس میں اور اس سے بھی بڑے ماڈلز کو چیلنج کرتے ہوئے حریفوں کو پیچھے چھوڑ دیا ہے۔
Phi-4 ریزننگ ماڈل، جو 14 بلین پیرامیٹرز پر مشتمل ہے، کو بیس Phi-4 ماڈل پر نگرانی شدہ فائن ٹیوننگ (SFT) الگورتھم لگا کر بنایا گیا تھا۔ اس پر تعمیر کرتے ہوئے، محققین نے مزید Phi-4 ریزننگ پلس ماڈل تیار کیا، Phi-4 ریزننگ فاؤنڈیشن پر ری انفورسمنٹ لرننگ (RL) کا فائدہ اٹھاتے ہوئے۔
قابل ذکر بات یہ ہے کہ Phi-4 ریزننگ اور Phi-4 ریزننگ پلس ماڈلز دونوں نے نمایاں طور پر بڑے ماڈلز جیسے DeepSeek R1 کے مقابلے میں بہتر کارکردگی کا مظاہرہ کیا ہے، جس میں 70 بلین پیرامیٹرز ہیں۔ یہ کامیابی خاص طور پر کوڈنگ، ریاضی کے مسائل کو حل کرنے، اور گریجویٹ سطح پر جدید سائنسی کاموں پر محیط بینچ مارکس میں واضح ہے۔ ماڈلز کی کارکردگی مکمل پیمانے پر 671 بلین پیرامیٹر DeepSeek R1 ماڈل کے قریب بھی پہنچ جاتی ہے۔
مائیکروسافٹ کے محققین ماڈل کی کامیابی کو بنیادی طور پر اعلیٰ معیار کے تربیتی ڈیٹا سیٹس کے استعمال سے منسوب کرتے ہیں، جو ایک ایسی حکمت عملی ہے جس پر کمپنی نے اپنے پچھلے ماڈلز کے ساتھ مسلسل انحصار کیا ہے۔ ان ڈیٹا سیٹس میں مختلف کوڈنگ اور STEM (سائنس، ٹیکنالوجی، انجینئرنگ اور ریاضی) مضامین پر محیط 1.4 ملین سے زیادہ احتیاط سے تیار کردہ اشارے شامل ہیں۔ ہر اشارے کے ساتھ احتیاط سے تیار کردہ جوابات ہیں، جن میں OpenAI کے o3-mini ماڈل کے ذریعہ تیار کردہ وسیع استدلال کے آثار شامل ہیں۔
تربیتی عمل کو بہتر بنانے کے لیے، محققین نے تزویراتی طور پر ایسے اشاروں کو نشانہ بنایا جنہوں نے بیس Phi-4 ماڈل کی صلاحیتوں کی حدود کو آگے بڑھایا۔ اس میں تربیتی ڈیٹا سیٹس کو فلٹر کرنا شامل تھا تاکہ صرف ان اشاروں کو برقرار رکھا جائے جنہوں نے بہتری کے لیے کافی مواقع فراہم کیے ہوں۔
RL کی تاثیر کے پیچھے استدلال
Phi-4 ریزننگ پلس کی ترقی میں دو قدمی عمل شامل تھا: پہلے، بیس Phi-4 ماڈل کی نگرانی شدہ فائن ٹیوننگ (SFT) کے ذریعے Phi-4 ریزننگ اخذ کرنا، اس کے بعد ری انفورسمنٹ لرننگ (RL) مرحلہ۔ Phi-4 ریزننگ پلس کے آر ایل اجزاء کے بارے میں گہری بصیرت حاصل کرنے کے لیے، مائیکروسافٹ کے ایک محقق، ہرکیرت بہل کے ساتھ براہ راست رابطہ ضروری تھا، جس نے اس منصوبے کے اس پہلو میں اہم کردار ادا کیا۔
ری انفورسمنٹ لرننگ (RL) ایک منفرد تربیتی طریقہ کار ہے جہاں ایک AI نظام تجربات کے ذریعے سیکھتا ہے۔ AI کارروائیاں کرتا ہے، انعامات یا جرمانے کی شکل میں رائے وصول کرتا ہے، اور طویل مدتی مطلوبہ نتائج کو زیادہ سے زیادہ کرنے کے لیے اپنے فیصلہ سازی کے عمل کو بار بار بہتر کرتا ہے۔ یہ نقطہ نظر خاص طور پر ان کاموں کے لیے فائدہ مند ہے جن کے لیے AI ماڈل کو "استدلال" میں مشغول ہونے کی ضرورت ہوتی ہے، کیونکہ یہ ایک سخت، پہلے سے طے شدہ عمل پر عمل کرنے کے بجائے مطلوبہ نتیجہ حاصل کرنے کو ترجیح دیتا ہے۔
روایتی ماڈلز کے برعکس جو صرف اگلے لفظ کی پیش گوئی کرنے پر توجہ مرکوز کرتے ہیں اور ہر غلطی کے لیے ماڈل کو جرمانہ عائد کرتے ہیں، RL اس سے زیادہ لچک پیش کرتا ہے کہ جواب کیسے اخذ کیا جاتا ہے۔ یہ لچک ماڈل کو متعدد ممکنہ حل کے راستوں کے ساتھ پیچیدہ مسائل کو دریافت کرنے کی اجازت دیتی ہے، بالآخر صحیح نتیجے پر پہنچ جاتی ہے۔
بہل کے مطابق، RL ماڈل کو "%بہت طویل جوابات، اور بہت سے مختلف جوابات پیدا کرنے" کا اختیار دیتا ہے، جس میں حتمی نتائج کی درستگی پر بنیادی توجہ مرکوز کی جاتی ہے۔ نتائج پر یہ زور، اٹھائے گئے مخصوص اقدامات کے بجائے، اس بات کی عکاسی کرتا ہے کہ انسان مسائل کو کیسے حل کرتے ہیں۔ مختلف سوچ کے عمل قابل قبول ہیں، جب تک کہ وہ صحیح جواب کی طرف لے جائیں۔
مائیکروسافٹ کے ماڈلز میں، RL مرحلے کو جان بوجھ کر ریاضیاتی استدلال پر مرکوز کیا گیا تھا۔ انعام کے نظام نے درستگی کی حوصلہ افزائی کی، جبکہ بیک وقت تکرار، ضرورت سے زیادہ لمبائی اور غلط ردعمل کی شکل بندی کو جرمانہ عائد کیا۔
بہل نے مزید وضاحت کی کہ محققین نے ماڈل کو کسی دیئے گئے سوال کے متعدد جوابات پیدا کرنے کی اجازت دی۔ اس کے بعد ہر جواب کا اسکور اسکور کے مطابق کیا گیا جو تیار کردہ جوابات کے گروپ میں اوسط اسکور سے موازنہ کیا گیا تھا۔
یہ رشتہ دار اسکورز ایک رائے میکانزم کے طور پر کام کرتے ہیں، ماڈل کو ان جوابات کی حمایت کرنے کی ہدایت کرتے ہیں جو مسلسل اعلی اسکور حاصل کرتے ہیں۔ وقت گزرنے کے ساتھ، یہ عمل ماڈل کو مطلوبہ انعام کے سگنل کے ساتھ اپنے ردعمل کو زیادہ قریب سے جوڑنے کی تربیت دیتا ہے۔
محققین نے مشاہدہ کیا کہ 6,400 مسائل کے ایک محدود سیٹ پر RL لگانے سے مختلف ریاضی اور استدلال کی تشخیص میں درستگی میں نمایاں بہتری آئی ہے۔
"Phi-1، Phi-2، Phi-3، اور Phi-4 بنانے کے بعد، تحقیق میں مجھ سے ایک ٹیک وے یہ ہے کہ RL کو SFT تربیت سے بہت کم ڈیٹا درکار ہوتا ہے،" بہل نے نوٹ کیا۔
انہوں نے اس کی وجہ یہ بتائی کہ RL ماڈل کو بالکل نئی مہارتیں شروع سے سکھانے کے بارے میں کم ہے اور بہتر نتائج حاصل کرنے کے لیے موجودہ مہارتوں کو مؤثر طریقے سے جوڑنے اور ان سے فائدہ اٹھانے کے لیے ماڈل کی رہنمائی کے بارے میں زیادہ ہے۔
ری انفورسمنٹ لرننگ کے ساتھ مائیکروسافٹ کی کامیابی متعدد دیگر AI کمپنیوں کے تجربات کے ساتھ ہم آہنگ ہے۔ OpenAI، استدلال ماڈلز کی ترقی میں ایک علمبردار، نے اپنی منصوبوں پر RL کے سازگار اثرات کو بار بار اجاگر کیا ہے۔
دلچسپ بات یہ ہے کہ DeepSeek R1، ایک چینی ماڈل جس نے پچھلے سال AI منظرنامے میں خلل ڈالا تھا، نے بھی اپنی کامیابی کو جزوی طور پر RL کے اطلاق سے منسوب کیا۔ مزید برآں، OpenAI کے کئی محققین اور انجینئرز نے اپنی گہری تحقیق کے اقدامات کی کامیابی میں RL کے اہم کردار کو عوامی طور پر تسلیم کیا ہے۔
حال ہی میں، علی بابا کے Qwen ماڈل نے بھی ری انفورسمنٹ لرننگ کی توثیق کی، جس نے ان کے استدلال ماڈلز پر اس کے اہم اثرات پر زور دیا۔ ایک بلاگ پوسٹ میں، کمپنی نے کہا، "ہمیں یقین ہے کہ مضبوط بنیادی ماڈلز کو بڑے پیمانے پر حساب کتابی وسائل کے ذریعہ تقویت یافتہ RL کے ساتھ جوڑنا ہمیں مصنوعی عمومی ذہانت (AGI) کے حصول کے قریب لے جائے گا۔"
تاہم، Phi-4 ریزننگ، Phi-4 ریزننگ پلس، اور متعدد دیگر استدلال ماڈلز کی کامیابیوں کے باوجود، اس میدان کو اب بھی کئی چیلنجوں کا سامنا ہے۔
بہتری کے لئے جاری جدوجہد
حالیہ مہینوں میں، متعدد تحقیقی مطالعات نے استدلال ماڈلز کی موجودہ حدود اور ممکنہ خطرات کو اجاگر کیا ہے۔ مثال کے طور پر، Phi-4 ریزننگ پر اپنے تحقیقی مقالے میں، مائیکروسافٹ کے محققین نے تسلیم کیا کہ وہ وقت اور وسائل کی ضرورت سے زیادہ کھپت، ردعمل کے سست اوقات، اور سب سے اہم بات، ماڈلز کے ردعمل کے اپنے پیشرو استدلال کے مراحل کے برخلاف ہونے کے معاملے سے نمٹ رہے ہیں۔
ایک اور اہم پیشرفت میں، اینتھروپک نے ایک مطالعہ شائع کیا جس میں انکشاف کیا گیا کہ استدلال کی زنجیریں (اکثر زنجیر کی سوچ، یا CoTs کہلاتی ہیں) ضروری نہیں کہ ماڈل کے اصل استدلال کے عمل کی عکاسی کریں۔ محققین نے دریافت کیا کہ ماڈلز اکثر بیرونی اشاروں کا فائدہ اٹھاتے ہیں، جیسے کہ درست جوابات کی طرف ان کی رہنمائی کے لیے اشاروں میں ڈالے گئے واضح اشارے، لیکن شاذ و نادر ہی ان واضح استدلال کے مراحل کے اندر ان اشاروں کو تسلیم کرتے ہیں یا زبانی طور پر اظہار کرتے ہیں۔ ماڈل کے اندرونی رویے اور اس کی بیرونی وضاحت کے درمیان اس تضاد سے ماڈل کی تشریح کے لیے قابل اعتماد آلے کے طور پر CoTs کے استعمال اور حفاظت کو یقینی بنانے کے بارے میں تشویشات پیدا ہوتی ہیں۔
یہاں تک کہ OpenAI نے تحقیقی رپورٹس جاری کی ہیں جن میں اعلی درجے کے استدلال ماڈلز کے "انعام ہیکنگ" میں مشغول ہونے کے رجحان کو اجاگر کیا گیا ہے۔ انعام ہیکنگ سے مراد وہ حالات ہیں جہاں AI ایجنٹس غیر متوقع خامیوں یا ان کے متعین مقاصد کے اندر غیر ارادی نتائج کا فائدہ اٹھاتے ہیں تاکہ انعامات کو ان طریقوں سے زیادہ سے زیادہ کیا جا سکے جو اصل میں مطلوب یا مطلوب نہیں تھے۔ OpenAI نے اس کو کم کرنے کے لیے حکمت عملیوں کی کھوج کی ہے، جیسے کہ ایک کم طاقتور ماڈل (GPT-4o) کا استعمال ایک مضبوط ماڈل جیسے o3-Mini کی نگرانی کے لیے، حالانکہ یہ اپنی پیچیدگیاں اور ممکنہ تعصبات متعارف کراتا ہے۔
OpenAI کے تکنیکی عملے کے رکن نٹ McAleese نے اس بات پر زور دیا کہ "بڑے استدلال ماڈلز انعام ہیکنگ میں انتہائی اچھے ہیں،" اس نکتے کو واضح کرنے کے لیے رپورٹ سے ہاتھ سے چنے ہوئے مثالوں کا حوالہ دیا۔
"استدلال کی زنجیر میں بہت زیادہ بے کارگی ہے؛ وہ اپنے آپ کو متضاد کرتے ہیں، اور بہت سے جواب طلب سوالات ہیں،" بہل نے تبصرہ کیا۔ "لیکن، یہ ایک ارتقائی جگہ ہے۔ اگر ہم ایک کمیونٹی کے طور پر اس پر قابو پا سکتے ہیں اور سمجھ سکتے ہیں کہ ماڈل کیسے سوچتے ہیں، تو بہت فائدہ ہوگا۔" استدلال ماڈلز کا مستقبل AI کمیونٹی کے اندر جاری تحقیق اور تعاون کے ذریعے ان چیلنجوں سے نمٹنے پر منحصر ہے۔