फ्रांसीसी स्टार्टअप Mistral AI ने हाल ही में अपने नवीनतम मल्टीमॉडल मॉडल Mistral Medium 3 को जारी किया है, जिसने उद्योग में व्यापक ध्यान आकर्षित किया है। Mistral का दावा है कि इस मॉडल का प्रदर्शन Claude Sonnet 3.7 के 90% के बराबर या उससे भी अधिक है, जबकि इसकी लागत DeepSeek V3 से कम है, जो इसे पैसे के लिए एक मूल्यवान विकल्प बनाता है। हालाँकि, वास्तविक परीक्षण के परिणाम आधिकारिक प्रचार से कुछ भिन्न हैं, जिससे मॉडल के प्रदर्शन की वास्तविकता के बारे में चर्चा छिड़ गई है।
Mistral Medium 3 की मुख्य विशेषताएं
Mistral ने अपने आधिकारिक ब्लॉग में Mistral Medium 3 की कई मुख्य विशेषताओं को सूचीबद्ध किया है:
- प्रदर्शन और लागत का संतुलन: Mistral Medium 3 का उद्देश्य शीर्ष प्रदर्शन प्राप्त करते हुए लागत को आठ गुना तक कम करना है, और उद्यम अनुप्रयोगों को गति देने के लिए परिनियोजन प्रक्रिया को सरल बनाना है।
- पेशेवर अनुप्रयोग परिदृश्यों में उत्कृष्ट प्रदर्शन: यह मॉडल कोड लेखन और मल्टीमॉडल समझ जैसे पेशेवर अनुप्रयोग परिदृश्यों में उत्कृष्ट प्रदर्शन करता है।
- एंटरप्राइज़-स्तरीय सुविधाएँ: Mistral Medium 3 एंटरप्राइज़-स्तरीय सुविधाओं की एक श्रृंखला प्रदान करता है, जिसमें हाइब्रिड क्लाउड परिनियोजन, स्थानीय परिनियोजन और VPC के भीतर परिनियोजन, अनुकूलित पोस्ट-ट्रेनिंग, और उद्यम उपकरण और सिस्टम में एकीकरण शामिल है।
Mistral Medium 3 API अब Mistral La Plateforme और Amazon Sagemaker पर लाइव है, और जल्द ही IBM WatsonX, NVIDIA NIM, Azure AI Foundry और Google Cloud Vertex पर भी उपलब्ध होगा।
प्रदर्शन और लागत का समझौता
Mistral Medium 3 का एक प्रमुख विक्रय बिंदु यह है कि यह अत्याधुनिक प्रदर्शन प्रदान करते हुए लागत में भारी कमी लाता है। आधिकारिक डेटा से पता चलता है कि विभिन्न बेंचमार्क परीक्षणों में, Mistral Medium 3 का प्रदर्शन Claude Sonnet 3.7 के 90% तक पहुँच गया है या उससे भी अधिक हो गया है, लेकिन लागत काफी कम है (प्रति मिलियन टोकन इनपुट लागत $0.4 और आउटपुट लागत $2 है)।
इसके अलावा, Mistral Medium 3 का प्रदर्शन Llama 4 Maverick और Cohere Command A जैसे अग्रणी ओपन-सोर्स मॉडल से भी बेहतर है। चाहे API हो या स्वतंत्र परिनियोजन, Mistral Medium 3 की लागत DeepSeek V3 से कम है।
Mistral Medium 3 को किसी भी क्लाउड पर भी तैनात किया जा सकता है, जिसमें चार GPU या अधिक वाले स्व-होस्टेड वातावरण शामिल हैं, जो उद्यमों को अधिक लचीलापन प्रदान करते हैं।
शीर्ष प्रदर्शन की खोज
Mistral का दावा है कि Mistral Medium 3 का लक्ष्य एक शीर्ष प्रदर्शन मॉडल बनना है, खासकर कोडिंग और STEM कार्यों में उत्कृष्ट प्रदर्शन करना, और उन प्रतिस्पर्धियों के प्रदर्शन के करीब पहुंचना जो बड़े और धीमे हैं।
Mistral द्वारा प्रदान की गई तालिका से पता चलता है कि Mistral Medium 3 का प्रदर्शन मूल रूप से Llama 4 Maverick और GPT-4o से बेहतर है, और Claude Sonnet 3.7 और DeepSeek 3.1 के स्तर के करीब है। हालाँकि, यह डेटा मुख्य रूप से अकादमिक बेंचमार्क परीक्षणों से आता है, जो वास्तविक अनुप्रयोगों में मॉडल के प्रदर्शन को पूरी तरह से प्रतिबिंबित नहीं कर सकता है।
मानव मूल्यांकन का पूरक
Mistral Medium 3 के प्रदर्शन का अधिक व्यापक रूप से मूल्यांकन करने के लिए, Mistral ने तीसरे पक्ष के मानव मूल्यांकन परिणामों को भी प्रकाशित किया है। मानव मूल्यांकन वास्तविक दुनिया के उपयोग के मामलों का बेहतर प्रतिनिधित्व कर सकता है, और अकादमिक बेंचमार्क परीक्षणों की कमियों को पूरा कर सकता है।
मानव मूल्यांकन परिणामों से, Mistral Medium 3 कोडिंग के क्षेत्र में उत्कृष्ट प्रदर्शन करता है, और सभी पहलुओं में अन्य प्रतिस्पर्धियों की तुलना में बेहतर प्रदर्शन प्रदान करता है। इससे पता चलता है कि Mistral Medium 3 के वास्तविक अनुप्रयोगों में कुछ फायदे हो सकते हैं।
एंटरप्राइज़-स्तरीय अनुप्रयोगों के लिए डिज़ाइन
Mistral Medium 3 अन्य SOTA मॉडलों की तुलना में एंटरप्राइज़ वातावरण के अनुकूल होने की क्षमता में बेहतर है। जब उद्यमों को API के माध्यम से ठीक-ट्यूनिंग करने या शुरू से ही मॉडल को स्वयं तैनात करने और उसके व्यवहार को अनुकूलित करने के कठिन विकल्प का सामना करना पड़ता है, तो Mistral Medium 3 एक ऐसा मार्ग प्रदान करता है जो उद्यम सिस्टम में बुद्धिमत्ता को पूरी तरह से एकीकृत करता है।
उद्यम आवश्यकताओं को और अधिक पूरा करने के लिए, Mistral ने Mistral Medium 3 मॉडल द्वारा संचालित Le Chat Enterprise भी लॉन्च किया, जो उद्यमों के लिए एक चैटबॉट सेवा है। Le Chat Enterprise एक AI इंटेलिजेंट एजेंट बिल्डिंग टूल प्रदान करता है, और Mistral के मॉडल को Gmail, Google Drive और SharePoint जैसी तृतीय-पक्ष सेवाओं के साथ एकीकृत करता है, जिसका उद्देश्य उद्यमों के सामने आने वाली AI चुनौतियों का समाधान करना है, जैसे कि उपकरण विखंडन, असुरक्षित ज्ञान एकीकरण, कठोर मॉडल और धीमी गति से निवेश पर प्रतिफल, सभी संगठनात्मक कार्यों के लिए एक एकीकृत AI प्लेटफ़ॉर्म प्रदान करना।
Le Chat Enterprise जल्द ही MCP प्रोटोकॉल का समर्थन करेगा, जो Anthropic द्वारा AI को डेटा सिस्टम और सॉफ़्टवेयर से जोड़ने के लिए प्रस्तावित एक मानक है।
Mistral का भविष्य
Mistral ने ब्लॉग में खुलासा किया कि Mistral Small और Mistral Medium पहले ही जारी किए जा चुके हैं, लेकिन आने वाले हफ्तों में, उनके पास एक "बड़ी" योजना है, जो कि Mistral Large है। उन्होंने कहा कि अभी जारी किए गए Mistral Medium का प्रदर्शन Llama 4 Maverick जैसे शीर्ष ओपन-सोर्स मॉडल से कहीं बेहतर है, और Mistral Large का प्रदर्शन और भी अधिक प्रत्याशित है।
Mistral Large का रिलीज़ निस्संदेह AI क्षेत्र में Mistral की प्रतिस्पर्धात्मकता को और बढ़ाएगा, और उपयोगकर्ताओं को अधिक विकल्प प्रदान करेगा।
वास्तविक परीक्षण में अंतर
हालाँकि Mistral को Mistral Medium 3 के प्रदर्शन पर पूरा भरोसा है, और दावा किया गया है कि यह Claude Sonnet 3.7 के 90% से अधिक है, लेकिन वास्तविक परीक्षण के परिणाम में कुछ समस्याएँ सामने आई हैं।
मीडिया और नेटिज़न्स ने Mistral Medium 3 का त्वरित वास्तविक परीक्षण किया, लेकिन परिणाम निराशाजनक थे। न्यूयॉर्क टाइम्स ‘कनेक्शन’ कॉलम में शब्दावली वर्गीकरण सवालों पर आधारित मूल्यांकन में, मीडियम 3 अंतिम स्थान पर था, और मुश्किल से ही इसका कोई निशान था। बिल्कुल नए 100 प्रश्न मूल्यांकन में, यह शीर्ष पंक्ति के मॉडल में भी नहीं है।
एक उपयोगकर्ता ने मीडियम 3 का परीक्षण करने के बाद कहा कि उसकी लेखन क्षमता अभी भी पहले जैसी ही है, और इसमें कोई स्पष्ट सुधार नहीं हुआ है। हालाँकि, LLM मूल्यांकन में, यह पारेतो फ्रंटियर पर है।
Zhu Liang के परीक्षण के परिणाम से पता चलता है कि Mistral Medium 3 कोडिंग और टेक्स्ट जनरेशन दोनों में ठोस प्रदर्शन करता है, और दोनों मूल्यांकनों में शीर्ष पाँच में शामिल है।
सरल कोडिंग कार्यों में (Next.js TODO एप्लिकेशन):
- इसने संक्षिप्त और स्पष्ट प्रतिक्रियाएँ उत्पन्न कीं
- स्कोरिंग Gemini 2.5 Pro और Claude 3.5 Sonnet के समान है
- DeepSeek V3 (नया) और GPT-4.1 से हीन
जटिल कोडिंग कार्यों में (बेंचमार्क विज़ुअलाइज़ेशन):
- Gemini 2.5 Pro और DeepSeek V3 (नया) के समान औसत परिणाम उत्पन्न हुए
- GPT-4.1, o3 और Claude 3.7 Sonnet से कमतर
लेखन पर:
- इसकी सामग्री में अधिकांश मुख्य बातें शामिल हैं, लेकिन स्वरूपण गलत है
- स्कोरिंग DeepSeek V3 (नया) और Claude 3.7 Sonnet के समान है
- GPT-4.1 और Gemini 2.5 Pro से कमतर
जाने-माने व्यक्ति "karminski-दंत चिकित्सक" ने वास्तविक परीक्षण के बाद पाया कि Mistral Medium 3 का प्रदर्शन उतना शक्तिशाली नहीं है जितना कि आधिकारिक तौर पर प्रचारित किया गया है, और यहाँ तक कि उपयोगकर्ताओं को डाउनलोड न करने की सलाह दी जाती है, ताकि ट्रैफ़िक और हार्ड ड्राइव स्थान बर्बाद न हो।
निष्कर्ष
Mistral Medium 3, यूरोपीय AI क्षेत्र में एक अभिनव प्रयास के रूप में, प्रदर्शन और लागत के बीच संतुलन तलाशता है, और एंटरप्राइज़-स्तरीय अनुप्रयोगों के लिए अनुकूलित है। हालाँकि, वास्तविक परीक्षण के परिणाम आधिकारिक प्रचार से कुछ भिन्न हैं, यह दर्शाता है कि Mistral ने मॉडल प्रदर्शन के मामले में अतिशयोक्तिपूर्ण प्रचार किया होगा।
फिर भी, Mistral Medium 3 में अभी भी कुछ क्षमता है, खासकर कोडिंग और टेक्स्ट जनरेशन जैसे क्षेत्रों में। भविष्य में, Mistral को मॉडल प्रदर्शन को और बेहतर बनाने और उपयोगकर्ताओं का विश्वास जीतने के लिए वास्तविक अनुप्रयोग परीक्षण को मजबूतकरने की आवश्यकता है। साथ ही, Mistral Large का रिलीज़ भी देखने लायक है, जो Mistral Medium 3 की कमियों को पूरा कर सकता है और उपयोगकर्ताओं के लिए बेहतर अनुभव ला सकता है।
संक्षेप में, Mistral Medium 3 का रिलीज़ AI क्षेत्र में यूरोप की सक्रिय खोज और नवाचार की भावना को दर्शाता है। हालाँकि वास्तविक प्रदर्शन अपेक्षाओं से कम है, फिर भी Mistral ध्यान देने योग्य है, और इसका भविष्य विकास देखने लायक है।