Phi فیملی میں توسیع: ملٹی موڈل صلاحیتوں کا تعارف
مائیکروسافٹ نے سمال لینگویج ماڈلز (SLMs) کے بڑھتے ہوئے شعبے میں Phi فیملی کے ساتھ اپنا حصہ ڈالا ہے، جو کہ کمپیکٹ ماڈلز کا ایک مجموعہ ہے۔ Phi کی چوتھی جنریشن کو ابتدائی طور پر دسمبر میں متعارف کرایا گیا تھا، اور اب، مائیکروسافٹ اس لائن اپ میں دو اہم اضافے کر رہا ہے: Phi-4-multimodal اور Phi-4-mini۔ اپنے بہن بھائیوں کی طرح، یہ نئے ماڈلز Azure AI Foundry، Hugging Face، اور Nvidia API Catalog کے ذریعے آسانی سے دستیاب ہوں گے، سبھی permissive MIT لائسنس کے تحت۔
Phi-4-multimodal، خاص طور پر، نمایاں ہے۔ یہ ایک 5.6 بلین پیرامیٹر ماڈل ہے جو ‘mixture-of-LoRAs’ (Low-Rank Adaptations) نامی ایک جدید تکنیک کا استعمال کرتا ہے۔ یہ طریقہ کار ماڈل کو بیک وقت آواز، بصری ان پٹ، اور متنی ڈیٹا پر کارروائی کرنے کے قابل بناتا ہے۔ LoRAs ایک مخصوص کام میں بڑے لینگویج ماڈل کی کارکردگی کو بڑھانے کا ایک نیا طریقہ پیش کرتے ہیں، جو اس کے تمام پیرامیٹرز میں وسیع فائن ٹیوننگ کی ضرورت کو ختم کرتا ہے۔ اس کے بجائے، LoRA استعمال کرنے والے ڈویلپرز حکمت عملی کے ساتھ ماڈل میں نئی وزنوں کی ایک چھوٹی سی تعداد داخل کرتے ہیں۔ صرف یہ نئے متعارف کرائے گئے وزن تربیت سے گزرتے ہیں، جس کے نتیجے میں ایک نمایاں طور پر تیز اور زیادہ میموری-موثر عمل ہوتا ہے۔ نتیجہ زیادہ ہلکے وزن والے ماڈلز کا ایک مجموعہ ہے جو ذخیرہ کرنے، شیئر کرنے اور تعینات کرنے میں کہیں زیادہ آسان ہیں۔
اس کارکردگی کے مضمرات کافی ہیں۔ Phi-4-multimodal کم تاخیر سے استنباط حاصل کرتا ہے – یعنی یہ معلومات پر کارروائی کر سکتا ہے اور بہت تیزی سے جوابات فراہم کر سکتا ہے – جبکہ آن ڈیوائس ایگزیکیوشن کے لیے آپٹمائز کیا جا رہا ہے۔ یہ کمپیوٹیشنل اوور ہیڈ میں ڈرامائی کمی کا ترجمہ کرتا ہے، جس سے ان آلات پر جدید AI ایپلی کیشنز چلانا ممکن ہو جاتا ہے جن میں پہلے ضروری پروسیسنگ پاور کی کمی تھی۔
ممکنہ استعمال کے معاملات: اسمارٹ فونز سے لے کر مالیاتی خدمات تک
Phi-4-multimodal کے ممکنہ استعمالات متنوع اور دور رس ہیں۔ اس ماڈل کو اسمارٹ فونز پر آسانی سے کام کرنے، گاڑیوں کے اندر جدید خصوصیات کو طاقت دینے، یا ہلکے وزن والے انٹرپرائز ایپلی کیشنز کو چلانے کا تصور کریں۔ ایک زبردست مثال ایک کثیر لسانی مالیاتی خدمات کی ایپلی کیشن ہے، جو مختلف زبانوں میں صارفین کے سوالات کو سمجھنے اور ان کا جواب دینے، دستاویزات جیسے بصری ڈیٹا پر کارروائی کرنے، اور یہ سب کچھ صارف کے آلے پر موثر طریقے سے کام کرنے کے قابل ہے۔
صنعت کے تجزیہ کار Phi-4-multimodal کی تبدیلی کی صلاحیت کو تسلیم کر رہے ہیں۔ اسے ڈویلپرز کے لیے ایک اہم قدم کے طور پر دیکھا جاتا ہے، خاص طور پر وہ لوگ جو موبائل آلات یا ایسے ماحول کے لیے AI سے چلنے والی ایپلی کیشنز بنانے پر توجہ مرکوز کرتے ہیں جہاں کمپیوٹیشنل وسائل محدود ہوں۔
Forrester کے نائب صدر اور پرنسپل تجزیہ کار، چارلی ڈائی، ماڈل کی متن، تصویر اور آڈیو پروسیسنگ کو مضبوط استدلال کی صلاحیتوں کے ساتھ مربوط کرنے کی صلاحیت کو اجاگر کرتے ہیں۔ وہ اس بات پر زور دیتے ہیں کہ یہ مجموعہ AI ایپلی کیشنز کو بڑھاتا ہے، ڈویلپرز اور انٹرپرائزز کو “ہمہ جہت، موثر اور توسیع پذیر حل” فراہم کرتا ہے۔
ایورسٹ گروپ کے ایک پارٹنر، یوگل جوشی، کمپیوٹ-محدود ماحول میں تعیناتی کے لیے ماڈل کی مناسبت کو تسلیم کرتے ہیں۔ اگرچہ وہ نوٹ کرتے ہیں کہ موبائل ڈیوائسز تمام جنریٹو AI استعمال کے معاملات کے لیے مثالی پلیٹ فارم نہیں ہوسکتے ہیں، وہ نئے SLMs کو مائیکروسافٹ کی DeepSeek سے تحریک لینے کی عکاسی کے طور پر دیکھتے ہیں، جو کہ بڑے پیمانے پر کمپیوٹ انفراسٹرکچر پر انحصار کو کم کرنے پر مرکوز ایک اور اقدام ہے۔
بینچ مارکنگ کارکردگی: طاقت اور ترقی کے لیے شعبے
جب بینچ مارک کارکردگی کی بات آتی ہے تو، Phi-4-multimodal خاص طور پر اسپیچ سوال جواب (QA) کے کاموں میں Gemini-2.0-Flash اور GPT-4o-realtime-preview جیسے ماڈلز کے مقابلے میں کارکردگی کا فرق ظاہر کرتا ہے۔ مائیکروسافٹ تسلیم کرتا ہے کہ Phi-4 ماڈلز کا چھوٹا سائز فطری طور پر سوال جواب دینے کے لیے حقائق کے علم کو برقرار رکھنے کی ان کی صلاحیت کو محدود کرتا ہے۔ تاہم، کمپنی ماڈل کے مستقبل کے تکرار میں اس صلاحیت کو بڑھانے کے لیے جاری کوششوں پر زور دیتی ہے۔
اس کے باوجود، Phi-4-multimodal دیگر شعبوں میں متاثر کن طاقتوں کا مظاہرہ کرتا ہے۔ خاص طور پر، یہ ریاضی اور سائنسی استدلال، آپٹیکل کریکٹر ریکگنیشن (OCR)، اور بصری سائنس استدلال سے متعلق کاموں میں Gemini-2.0-Flash Lite اور Claude-3.5-Sonnet سمیت کئی مشہور LLMs کو پیچھے چھوڑ دیتا ہے۔ یہ تعلیمی سافٹ ویئر سے لے کر سائنسی تحقیقی آلات تک ایپلی کیشنز کی ایک وسیع رینج کے لیے اہم صلاحیتیں ہیں۔
Phi-4-mini: کمپیکٹ سائز، متاثر کن کارکردگی
Phi-4-multimodal کے ساتھ ساتھ، مائیکروسافٹ نے Phi-4-mini بھی متعارف کرایا۔ یہ ماڈل 3.8 بلین پیرامیٹرز کے ساتھ، اور بھی زیادہ کمپیکٹ ہے۔ یہ ایک گھنے ڈیکوڈر-صرف ٹرانسفارمر آرکیٹیکچر پر مبنی ہے اور 128,000 ٹوکنز تک کے متاثر کن سیکوینسز کو سپورٹ کرتا ہے۔
مائیکروسافٹ میں جنریٹو AI کے VP، Weizhu Chen، Phi-4-mini کی چھوٹے سائز کے باوجود شاندار کارکردگی کو اجاگر کرتے ہیں۔ نئے ماڈلز کی تفصیل دینے والی ایک بلاگ پوسٹ میں، وہ نوٹ کرتے ہیں کہ Phi-4-mini “متن پر مبنی کاموں میں بڑے ماڈلز کو پیچھے چھوڑتا رہتا ہے، بشمول استدلال، ریاضی، کوڈنگ، ہدایات پر عمل کرنا، اور فنکشن کالنگ۔” یہ مخصوص ایپلیکیشن ڈومینز میں اہم قدر فراہم کرنے کے لیے چھوٹے ماڈلز کی صلاحیت کو واضح کرتا ہے۔
IBM’s Granite اپ ڈیٹس: استدلال کی صلاحیتوں کو بڑھانا
SLMs میں ترقی صرف مائیکروسافٹ تک محدود نہیں ہے۔ IBM نے اپنے بنیادی ماڈلز کے Granite فیملی میں ایک اپ ڈیٹ بھی جاری کیا ہے، جس میں Granite 3.2 2B اور 8B ماڈلز متعارف کرائے گئے ہیں۔ یہ نئے ماڈلز بہتر “chain of thought” صلاحیتوں کو پیش کرتے ہیں، جو استدلال کی صلاحیتوں کو بڑھانے کا ایک اہم پہلو ہے۔ یہ بہتری ماڈلز کو اپنے پیشروؤں کے مقابلے میں اعلیٰ کارکردگی حاصل کرنے کی اجازت دیتی ہے۔
مزید برآں، IBM نے ایک نیا وژن لینگویج ماڈل (VLM) کی نقاب کشائی کی ہے جو خاص طور پر دستاویز کو سمجھنے کے کاموں کے لیے ڈیزائن کیا گیا ہے۔ یہ VLM ایسی کارکردگی کا مظاہرہ کرتا ہے جو DocVQA، ChartQA، AI2D، اور OCRBench1 جیسے بینچ مارکس پر Llama 3.2 11B اور Pixtral 12B جیسے نمایاں طور پر بڑے ماڈلز سے ملتی ہے یا اس سے بہتر ہے۔ یہ مخصوص ڈومینز میں مسابقتی کارکردگی فراہم کرنے والے چھوٹے، خصوصی ماڈلز کے بڑھتے ہوئے رجحان کو اجاگر کرتا ہے۔
آن ڈیوائس AI کا مستقبل: ایک پیراڈائم شفٹ
Phi-4-multimodal اور Phi-4-mini کا تعارف، IBM کی Granite اپ ڈیٹس کے ساتھ، ایک ایسے مستقبل کی جانب ایک اہم قدم کی نمائندگی کرتا ہے جہاں طاقتور AI صلاحیتیں وسیع پیمانے پر آلات پر آسانی سے دستیاب ہیں۔ اس تبدیلی کے مختلف صنعتوں اور ایپلی کیشنز کے لیے گہرے مضمرات ہیں:
- AI کی جمہوری کاری: چھوٹے، زیادہ موثر ماڈلز AI کو ڈویلپرز اور صارفین کی وسیع رینج تک رسائی کے قابل بناتے ہیں، نہ کہ صرف ان لوگوں کے لیے جن کے پاس بڑے کمپیوٹنگ وسائل تک رسائی ہے۔
- بہتر رازداری اور سلامتی: آن ڈیوائس پروسیسنگ کلاؤڈ پر حساس ڈیٹا منتقل کرنے کی ضرورت کو کم کرتی ہے، رازداری اور سلامتی کو بڑھاتی ہے۔
- بہتر ردعمل اور تاخیر: مقامی پروسیسنگ کلاؤڈ بیسڈ AI سے وابستہ تاخیر کو ختم کرتی ہے، جس سے تیز تر رسپانس ٹائم اور زیادہ ہموار صارف کا تجربہ ہوتا ہے۔
- آف لائن فعالیت: آن ڈیوائس AI انٹرنیٹ کنکشن کے بغیر بھی کام کر سکتا ہے، دور دراز یا کم کنیکٹیویٹی والے ماحول میں ایپلی کیشنز کے لیے نئے امکانات کھولتا ہے۔
- کم توانائی کی کھپت: چھوٹے ماڈلز کو کام کرنے کے لیے کم توانائی کی ضرورت ہوتی ہے، جو موبائل آلات کے لیے بیٹری کی طویل زندگی اور ماحولیاتی اثرات کو کم کرنے میں معاون ہے۔
- ایج کمپیوٹنگ ایپلی کیشنز: اس میں خود مختار ڈرائیونگ،سمارٹ مینوفیکچرنگ، اور ریموٹ ہیلتھ کیئر جیسے شعبے شامل ہیں۔
SLMs میں ترقی AI کے منظر نامے میں ایک پیراڈائم شفٹ کو آگے بڑھا رہی ہے۔ اگرچہ بڑے لینگویج ماڈلز ایک اہم کردار ادا کرتے رہتے ہیں، Phi فیملی جیسے کمپیکٹ، موثر ماڈلز کا عروج ایک ایسے مستقبل کی راہ ہموار کر رہا ہے جہاں AI زیادہ عام، قابل رسائی اور ہماری روزمرہ کی زندگیوں میں ضم ہے۔ توجہ سراسر سائز سے کارکردگی، تخصص، اور طاقتور AI صلاحیتوں کو براہ راست ان آلات پر فراہم کرنے کی صلاحیت کی طرف منتقل ہو رہی ہے جنہیں ہم ہر روز استعمال کرتے ہیں۔ یہ رجحان تیز ہونے کا امکان ہے، جس کی وجہ سے مختلف شعبوں میں AI کو مزید جدید ایپلی کیشنز اور وسیع پیمانے پر اپنایا جائے گا۔ پیچیدہ کام انجام دینے کی صلاحیت، جیسے کہ وسائل سے محروم آلات پر ملٹی موڈل ان پٹس کو سمجھنا، مصنوعی ذہانت کے ارتقاء میں ایک نیا باب کھولتا ہے۔
تیزی سے ذہین اور قابل SLM بنانے کی دوڑ جاری ہے، اور مائیکروسافٹ کی نئی پیشکش ایک بڑا قدم ہے۔