مائیکروسافٹ کے مطابق، Phi-4 ریاضیاتی استدلال میں اپنے ہم منصبوں اور بڑے ماڈلز سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔ اس کا سبب اس کی تربیتی عمل میں استعمال ہونے والی کئی اختراعی تکنیکیں ہیں، جن میں مصنوعی ڈیٹا کی پری ٹریننگ اور مڈ ٹریننگ، نامیاتی ڈیٹا کا احتیاط سے انتظام، اور ایک نیا پوسٹ ٹریننگ اسکیم شامل ہیں۔ ان اختراعات کی بدولت، Phi-4 نے STEM پر مبنی سوالات کے جوابات دینے کی صلاحیت میں اپنے استاد ماڈل GPT-4o کو بھی پیچھے چھوڑ دیا ہے۔
مصنوعی ڈیٹا کا استعمال بڑے لسانی ماڈلز (LLMs) کی تربیت میں کوئی نئی بات نہیں ہے۔ مائیکروسافٹ نے نوٹ کیا کہ مصنوعی ڈیٹا سستا متبادل نہیں ہے، بلکہ یہ نامیاتی ڈیٹا سے بہتر ہے کیونکہ یہ LLMs کو قدم بہ قدم سیکھنے میں رہنمائی کر سکتا ہے۔ اس کے علاوہ، مصنوعی ڈیٹا استدلال کے ماحول سے بہتر طور پر ہم آہنگ ہے، کیونکہ یہ تفصیلی استدلال فراہم کرتا ہے۔
مصنوعی ڈیٹا کے ساتھ ساتھ، مائیکروسافٹ نے احتیاط سے منظم نامیاتی ڈیٹا بھی استعمال کیا، جس میں عوامی ویب سائٹس اور بیرونی ڈیٹا سیٹس سے جمع کیے گئے لاکھوں اعلیٰ معیار کے ریاضی کے مسائل اور ان کے حل شامل ہیں۔ جن معاملات میں درست حل دستیاب نہیں تھے، ان میں انہوں نے اکثریت کی رائے سے حل تیار کیے تاکہ درستگی کو بہتر بنایا جا سکے۔
Phi-4 کی پوسٹ ٹریننگ کا مقصد اسے ایک قابل اعتماد AI اسسٹنٹ میں تبدیل کرنا ہے۔ اس مرحلے میں ماڈل کو ریاضی، کوڈنگ، استدلال، گفتگو، ماڈل کی شناخت اور حفاظت جیسے مختلف شعبوں سے حاصل کردہ اعلیٰ معیار کے ڈیٹا کے ساتھ فائن ٹیون کیا گیا تھا۔ اس کے بعد، ماڈل کو انسانی ترجیحات کے مطابق بنانے کے لیے دو براہ راست ترجیحی اصلاح (DPO) کے مراحل انجام دیے گئے۔
Phi-4 کی جانچ OpenAI کے SIMPLE-EVALS فریم ورک کا استعمال کرتے ہوئے کی گئی، اور اس نے کئی بینچ مارکس میں Llama-3.1-405B سے بہتر کارکردگی کا مظاہرہ کیا۔ اس کے علاوہ، اس نے GPQA اور MATH بینچ مارکس میں اپنے استاد ماڈل GPT-4o کو بھی پیچھے چھوڑ دیا۔
Phi-4 کی تربیت میں استعمال ہونے والا ڈیٹا مصنوعی اور حقیقی ڈیٹا کا مرکب ہے۔ مصنوعی ڈیٹا کو ماڈل کو قدم بہ قدم سیکھنے میں مدد کرنے کے لیے تیار کیا گیا تھا، جبکہ حقیقی ڈیٹا کو عوامی ویب سائٹس، تعلیمی مقالوں اور فورمز سے جمع کیا گیا تھا۔ مائیکروسافٹ نے ڈیٹا کی درستگی کو یقینی بنانے کے لیے سخت معیار کنٹرول کے اقدامات کیے ہیں۔
Phi-4 کی پوسٹ ٹریننگ میں فائن ٹیوننگ اور براہ راست ترجیحی اصلاح شامل ہے۔ فائن ٹیوننگ ماڈل کو مختلف کاموں کے لیے تیار کرتی ہے، جبکہ براہ راست ترجیحی اصلاح ماڈل کو انسانی ترجیحات کے مطابق بناتی ہے۔
Phi-4 ایک چھوٹا لسانی ماڈل ہے جو پیچیدہ ریاضیاتی استدلال کے لیے ڈیزائن کیا گیا ہے۔ اس میں تعلیم، تحقیق، انجینئرنگ، اور مالیات جیسے مختلف شعبوں میں وسیع پیمانے پر ایپلی کیشنز موجود ہیں۔
مائیکروسافٹ Phi-4 کی آمد چھوٹے لسانی ماڈلز میں ایک اہم پیش رفت کی نشاندہی کرتی ہے۔ اس کی منفرد ڈیٹا ٹریننگ حکمت عملی اور پوسٹ ٹریننگ کے طریقے اسے اپنے ہم منصبوں اور بڑے ماڈلز سے بہتر کارکردگی کا مظاہرہ کرنے کے قابل بناتے ہیں۔