مسٹرال میڈیم 3: یورپی AI عزائم | ur

فرانسیسی اسٹارٹ اپ Mistral AI نے حال ہی میں اپنا جدید ترین ملٹی ماڈل ماڈل Mistral Medium 3 جاری کیا ہے، جس نے انڈسٹری میں وسیع پیمانے پر توجہ مبذول کرائی ہے۔ Mistral کا دعویٰ ہے کہ اس ماڈل کی کارکردگی Claude Sonnet 3.7 کے 90% کے برابر یا اس سے بھی بہتر ہے، جبکہ اس کی قیمت DeepSeek V3 سے کم ہے، جو اسے قیمت کے لحاظ سے ایک بہترین انتخاب بناتی ہے۔ تاہم، اصل ٹیسٹ کے نتائج سرکاری تشہیر سے کسی حد تک مختلف ہیں، جس سے ماڈل کی کارکردگی کی حقیقت کے بارے میں بحث شروع ہو گئی ہے۔

مسٹرال میڈیم 3 کی بنیادی خصوصیات

مسٹرال نے اپنے سرکاری بلاگ میں مسٹرال میڈیم 3 کی کئی بنیادی خصوصیات درج کی ہیں:

کارکردگی اور لاگت کا توازن: مسٹرال میڈیم 3 کا مقصد اعلیٰ کارکردگی حاصل کرنے کے ساتھ ساتھ لاگت کو آٹھویں حصے تک کم کرنا اور تعیناتی کے عمل کو آسان بنانا ہے، تاکہ کاروباری ایپلیکیشنز کو تیز کیا جا سکے۔
پیشہ ورانہ ایپلیکیشن کے منظرناموں میں بہترین کارکردگی: یہ ماڈل کوڈ لکھنے اور ملٹی ماڈل تفہیم جیسے پیشہ ورانہ ایپلیکیشن کے منظرناموں میں نمایاں کارکردگی کا مظاہرہ کرتا ہے۔
انٹرپرائز گریڈ کی خصوصیات: مسٹرال میڈیم 3 انٹرپرائز گریڈ کی خصوصیات کی ایک رینج فراہم کرتا ہے، بشمول ہائبرڈ کلاؤڈ تعیناتی، مقامی تعیناتی، اور VPC کے اندر تعیناتی، حسب ضرورت تربیت، اور کاروباری ٹولز اور سسٹمز میں انضمام کے لیے سپورٹ۔

مسٹرال میڈیم 3 API اب مسٹرال لا پلیٹ فارم اور Amazon Sagemaker پر لائیو ہے، اور جلد ہی IBM WatsonX، NVIDIA NIM، Azure AI Foundry، اور Google Cloud Vertex پر بھی دستیاب ہوگا۔

کارکردگی اور لاگت کا سمجھوتہ

مسٹرال میڈیم 3 کی ایک بڑی خاصیت یہ ہے کہ یہ جدید کارکردگی فراہم کرنے کے ساتھ ساتھ لاگت میں بھی نمایاں کمی کرتا ہے۔ سرکاری اعداد و شمار کے مطابق، مختلف بینچ مارک ٹیسٹوں میں، مسٹرال میڈیم 3 کی کارکردگی Claude Sonnet 3.7 کی 90% تک یا اس سے بھی زیادہ ہے، لیکن لاگت میں نمایاں کمی کی گئی ہے (فی ملین ٹوکن ان پٹ کی لاگت 0.4 امریکی ڈالر اور آؤٹ پٹ کی لاگت 2 امریکی ڈالر ہے)۔

اس کے علاوہ، مسٹرال میڈیم 3 کی کارکردگی Llama 4 Maverick اور Cohere Command A جیسے معروف اوپن سورس ماڈلز سے بھی بہتر ہے۔ چاہے API ہو یا خود مختار تعیناتی، مسٹرال میڈیم 3 کی لاگت DeepSeek V3 سے کم ہے۔

مسٹرال میڈیم 3 کو کسی بھی کلاؤڈ پر تعینات کیا جا سکتا ہے، بشمول چار GPUs یا اس سے زیادہ والے خود میزبان ماحول، جو کمپنیوں کو زیادہ لچک فراہم کرتا ہے۔

اعلیٰ کارکردگی کا حصول

مسٹرال کا دعویٰ ہے کہ مسٹرال میڈیم 3 کا مقصد ایک اعلیٰ کارکردگی والا ماڈل بننا ہے، خاص طور پر کوڈنگ اور STEM کے کاموں میں نمایاں کارکردگی کا مظاہرہ کرنا، اور اس کی کارکردگی ان حریفوں کے قریب ہے جو بڑے اور سست ہیں۔

مسٹرال کے فراہم کردہ جدول سے پتہ چلتا ہے کہ مسٹرال میڈیم 3 کی کارکردگی بنیادی طور پر Llama 4 Maverick اور GPT-4o سے بہتر ہے، اور Claude Sonnet 3.7 اور DeepSeek 3.1 کی سطح کے قریب ہے۔ تاہم، یہ ڈیٹا بنیادی طور پر تعلیمی بینچ مارک ٹیسٹوں سے آتا ہے، جو شاید ماڈل کی اصل ایپلیکیشن میں کارکردگی کو مکمل طور پر ظاہر نہیں کر پاتے۔

انسانی تشخیص کی تکمیل

مسٹرال میڈیم 3 کی کارکردگی کا زیادہ جامع جائزہ لینے کے لیے، مسٹرال نے تھرڈ پارٹی انسانی تشخیص کے نتائج بھی شائع کیے ہیں۔ انسانی تشخیص حقیقی دنیا کے استعمال کے کیسز کی نمائندگی کرنے میں بہتر ہے اور تعلیمی بینچ مارک ٹیسٹوں کی کمی کو پورا کر سکتی ہے۔

انسانی تشخیص کے نتائج سے پتہ چلتا ہے کہ مسٹرال میڈیم 3 کوڈنگ کے شعبے میں بہترین کارکردگی کا مظاہرہ کرتا ہے اور دیگر حریفوں کے مقابلے میں ہر پہلو میں بہتر کارکردگی فراہم کرتا ہے۔ اس سے ظاہر ہوتا ہے کہ مسٹرال میڈیم 3 کو اصل ایپلیکیشن میں کچھ فوائد حاصل ہو سکتے ہیں۔

انٹرپرائز گریڈ ایپلیکیشن کے لیے ڈیزائن

مسٹرال میڈیم 3 انٹرپرائز ماحول کو اپنانے کی صلاحیت کے لحاظ سے دیگر SOTA ماڈلز سے بہتر ہے۔ جب کمپنیوں کو API کے ذریعے باریک ٹیوننگ کرنے یا شروع سے خود کو تعینات کرنے اور ماڈل کے رویے کو اپنی مرضی کے مطابق بنانے کے مشکل انتخاب کا سامنا کرنا پڑتا ہے، تو مسٹرال میڈیم 3 کاروباری نظاموں میں ذہانت کو مکمل طور پر ضم کرنے کا راستہ فراہم کرتا ہے۔

کاروباری ضروریات کو مزید پورا کرنے کے لیے، مسٹرال نے مسٹرال میڈیم 3 ماڈل سے چلنے والی Le Chat Enterprise بھی لانچ کی ہے، جو کاروباری اداروں کے لیے ایک چیٹ بوٹ سروس ہے۔ Le Chat Enterprise ایک AI انٹیلیجنس ایجنٹ بنانے کا ٹول فراہم کرتا ہے اور مسٹرال کے ماڈلز کو Gmail، Google Drive اور SharePoint جیسی تھرڈ پارٹی سروسز کے ساتھ مربوط کرتا ہے، جس کا مقصد کمپنیوں کو درپیش AI چیلنجز کو حل کرنا ہے، جیسے کہ ٹول فریکگمنٹیشن، غیر محفوظ علم انضمام، سخت ماڈلز، اور سست ROI وغیرہ، اور تمام تنظیمی کاموں کے لیے ایک متحد AI پلیٹ فارم فراہم کرنا ہے۔

Le Chat Enterprise جلد ہی MCP پروٹوکول کو سپورٹ کرے گا، جو Anthropic کی طرف سے تجویز کردہ AI کو ڈیٹا سسٹم اور سافٹ ویئر سے جوڑنے کا معیار ہے۔

مسٹرال کا مستقبل کا نقطہ نظر

مسٹرال نے بلاگ میں انکشاف کیا کہ اگرچہ مسٹرال سمال اور مسٹرال میڈیم جاری کیے جا چکے ہیں، لیکن آنے والے ہفتوں میں ان کا ایک “بڑا” منصوبہ ہے، یعنی مسٹرال لارج۔ انہوں نے کہا کہ ابھی جاری ہونے والا مسٹرال میڈیم پہلے ہی Llama 4 Maverick جیسے اعلیٰ اوپن سورس ماڈلز سے کہیں بہتر کارکردگی کا مظاہرہ کر رہا ہے، اور مسٹرال لارج کی کارکردگی مزید متوقع ہے۔

مسٹرال لارج کی ریلیز بلاشبہ AI کے میدان میں مسٹرال کی مسابقتی صلاحیت کو مزید بڑھائے گی اور صارفین کو مزید انتخاب فراہم کرے گی۔

اصل ٹیسٹ کا فرق

اگرچہ مسٹرال کو مسٹرال میڈیم 3 کی کارکردگی پر مکمل اعتماد ہے اور اس کا دعویٰ ہے کہ یہ Claude Sonnet 3.7 کے 90% سے بہتر ہے، لیکن اصل ٹیسٹ کے نتائج نے کچھ مسائل کو بے نقاب کیا ہے۔

میڈیا اور نیٹی زینز نے تیزی سے مسٹرال میڈیم 3 پر اصل ٹیسٹ شروع کر دیے، لیکن نتائج مایوس کن تھے۔ نیویارک ٹائمز کے Connections کالم کے الفاظ کی درجہ بندی کے سوالات پر مبنی تشخیص میں، میڈیم 3 الٹی پوزیشن پر تھا اور اس کا وجود تقریباً ناممکن تھا۔ نئے 100 سوالات کے ٹیسٹ میں، یہ سامنے والے ماڈلز میں بھی نہیں تھا۔

کچھ صارفین نے میڈیم 3 کی جانچ کے بعد کہا کہ اس کی تحریری صلاحیت اب بھی ویسی ہی ہے اور اس میں کوئی خاص بہتری نہیں آئی ہے۔ تاہم، LLM تشخیص میں، یہ پاریٹو کے اگلے حصے میں ہے۔

Zhu Liang کے ٹیسٹ کے نتائج سے پتہ چلتا ہے کہ مسٹرال میڈیم 3 کوڈ لکھنے اور ٹیکسٹ جنریشن دونوں میں ٹھوس کارکردگی کا مظاہرہ کرتا ہے اور دونوں جائزوں میں ٹاپ فائیو میں شامل ہے۔

سادہ کوڈنگ ٹاسک میں (Next.js TODO ایپلیکیشن):

اس نے صاف اور واضح جوابات تیار کیے
اسکورنگ Gemini 2.5 Pro اور Claude 3.5 Sonnet کے قریب ہے
DeepSeek V3 (نیا) اور GPT-4.1 سے کمتر

پیچیدہ کوڈنگ ٹاسک میں (بینچ مارک ٹیسٹ ویژولائزیشن):

Gemini 2.5 Pro اور DeepSeek V3 (نیا) کی طرح اوسط نتائج پیدا کیے
GPT-4.1، o3 اور Claude 3.7 Sonnet سے کمتر

تحریر پر:

اس کے مواد میں زیادہ تر نکات شامل تھے، لیکن فارمیٹ غلط تھا
اسکورنگ DeepSeek V3 (نیا) اور Claude 3.7 Sonnet کے قریب ہے
GPT-4.1 اور Gemini 2.5 Pro سے کمتر

معروف شخصیت “karminski-牙医” نے اصل ٹیسٹ کے بعد پایا کہ مسٹرال میڈیم 3 کی کارکردگی اتنی طاقتور نہیں ہے جتنا کہ سرکاری طور پر تشہیر کی گئی تھی، اور یہاں تک کہ صارفین کو ڈاؤن لوڈ نہ کرنے کا مشورہ دیا گیا، تاکہ ٹریفک اور ہارڈ ڈسک کی جگہ ضائع ہونے سے بچایا جا سکے۔

نتیجہ

مسٹرال میڈیم 3، یورپی AI کے میدان میں ایک اختراعی کوشش کے طور پر، کارکردگی اور لاگت کے درمیان توازن برقرار رکھنے کی کوشش کرتا ہے اور انٹرپرائز گریڈ ایپلیکیشن کے لیے بہتر بنایا گیا ہے۔ تاہم، اصل ٹیسٹ کے نتائج اور سرکاری تشہیر میں فرق بتاتا ہے کہ مسٹرال نے ماڈل کی کارکردگی کے بارے میں مبالغہ آمیز تشہیر کی ہوگی۔

اس کے باوجود، مسٹرال میڈیم 3 میں اب بھی کچھ صلاحیت موجود ہے، خاص طور پر کوڈنگ اور ٹیکسٹ جنریشن جیسے شعبوں میں۔ مستقبل میں، مسٹرال کو ماڈل کی کارکردگی کو مزید بہتر بنانے اور صارفین کا اعتماد حاصل کرنے کے لیے اصل ایپلیکیشن ٹیسٹنگ کو مضبوط بنانے کی ضرورت ہے۔ اس کے ساتھ ہی، مسٹرال لارج کا اجراء بھی متوقع ہے، جو شاید مسٹرال میڈیم 3 کی کمی کو پورا کرے اور صارفین کے لیے ایک بہتر تجربہ لائے۔

خلاصہ یہ کہ مسٹرال میڈیم 3 کا اجراء AI کے میدان میں یورپ کی فعال تلاش اور جدت طرازی کی عکاسی کرتا ہے۔ اگرچہ اصل کارکردگی توقعات سے کم ہے، لیکن مسٹرال اب بھی توجہ کا مستحق ہے اور اس کی مستقبل کی ترقی متوقع ہے۔

پر اپ ڈیٹ کیا گیا 2025-05-09

# LLM # Llama # Mistral