सर्वम AI चे LLM: मेटा, Google ला टक्कर!

भारतातील AI क्षेत्रात सर्वम AI (Sarvam AI) ने एक मोठी झेप घेतली आहे. बंगळूरस्थित या कंपनीने ‘इंडिया AI मिशन’ अंतर्गत स्वतःची ओळख निर्माण केली आहे. त्यांनी Sarvam-M नावाचे एक नवीन Large Language Model (LLM) सादर केले आहे, जे भारतीय संदर्भात AI क्षमतांना नवीन उंचीवर नेईल.

हे २४-अब्ज पॅरामीटरचे मल्टीलिंग्वल LLM सर्वम AI च्या AI तंत्रज्ञानातील प्रगतीचा पुरावा आहे. Mistral AI या फ्रेंच कंपनीने विकसित केलेल्या Mistral Small या ओपन-वेट AI मॉडेलवर आधारित Sarvam-M मध्ये हायब्रिड-रिझनिंग (Hybrid-reasoning) चा वापर केला आहे, ज्यामुळे ते विविध टेक्स्ट-आधारित (Text-based) कामांमध्ये उत्कृष्ट आहे.

Sarvam-M ची रचना विविध उद्योगांमधील गरजा पूर्ण करण्यासाठी केली गेली आहे. हे संभाषणात्मक एजंट्स (Conversational agents), भाषांतर सेवा (Translation services) आणिशिक्षण क्षेत्रातही उपयुक्त ठरू शकते.

कार्यक्षमता (Performance)

Sarvam-M ने भारतीय भाषा, गणितीय तर्क आणि प्रोग्रामिंग (Programming) कार्यांमध्ये उत्कृष्ट कामगिरी केली आहे. हे मॉडेल भारतीय बाजारपेठेतील विशिष्ट गरजा आणि आव्हाने पूर्ण करण्यासाठी सक्षम आहे.

भारतीय भाषा, गणित आणि प्रोग्रामिंगमध्ये उत्कृष्ट

Sarvam-M ने भारतीय भाषांच्या बेंचमार्कवर (Benchmark) सरासरी २०% सुधारणा दर्शविली आहे, ज्यामुळे या भाषांमधील संवाद अधिक अचूक आणि स्पष्ट होतो.

गणितातील समस्या सोडवण्याच्या बाबतीत, Sarvam-M ने २१.६% सुधारणा दर्शविली आहे, ज्यामुळे ते गुंतागुंतीची समीकरणे आणि तार्किक समस्या अधिक प्रभावीपणे सोडवू शकते. हे वैशिष्ट्य Sarvam-M ला वैज्ञानिक आणि अभियांत्रिकी (Engineering) अनुप्रयोगांसाठी एक मौल्यवान साधन बनवते.

याव्यतिरिक्त, मॉडेलने कोडिंग बेंचमार्क (Coding benchmark) मध्ये १७.६% सुधारणा दर्शविली आहे, ज्यामुळे ते स्वच्छ, कार्यक्षम आणि त्रुटी-मुक्त (Error-free) कोड तयार करण्यास सक्षम आहे. हे Sarvam-M ला सॉफ्टवेअर डेव्हलपर्स (Software developers) आणि प्रोग्रामर्ससाठी एक मौल्यवान संसाधन बनवते.

भारतीय भाषा आणि गणिताच्या संदर्भात, Sarvam-M ने Romanized Indian language GSM-8K बेंचमार्क मध्ये +८६% सुधारणा दर्शविली आहे. हे मॉडेल भाषिक आणि गणितीय क्षेत्रांमधील अंतर कमी करते, ज्यामुळे समस्या सोडवण्यासाठी एक व्यापक दृष्टीकोन मिळतो.

Sarvam-M च्या प्रदर्शनानंतर, सर्वम AI ने बुलबुल (Bulbul) नावाचे नवीन स्पीच मॉडेल (Speech model) सादर केले, जे अस्सल भारतीय उच्चारांचे समर्थन करते. हे कंपनीचे भारतीय बाजारपेठेसाठी सांस्कृतिकदृष्ट्या संबंधित AI सोल्यूशन्स (AI solutions) तयार करण्याच्या ध्येयाचे प्रतीक आहे.

तुलना (Comparison)

सर्वम AI चा दावा आहे की Sarvam-M बहुतेक बेंचमार्कवर मेटाच्या LLaMA-4 Scout पेक्षा सरस आहे. कंपनीने असेही म्हटले आहे की मॉडेलची कार्यक्षमता LLaMA-3 70B आणि Google च्या Gemma 3 27B सारख्या मोठ्या मॉडेलच्या तुलनेत आहे. विशेष म्हणजे, या मॉडेलना खूप जास्त टोकन्सवर (Tokens) प्री-ट्रेन (Pre-train) केले जाते.

Sarvam-M: LLaMA-4 Scout ला आव्हान आणि मोठ्या मॉडेलशी तुलना

कमी पॅरामीटर्स (Parameters) असूनही Sarvam-M ची मोठ्या मॉडेल प्रमाणेच कामगिरी करण्याची क्षमता त्याच्या कार्यक्षम आर्किटेक्चर (Architecture) आणि ऑप्टिमाइझ्ड ट्रेनिंग पद्धतीमुळे (Optimized training methodologies) शक्य झाली आहे. हे दर्शवते की लहान मॉडेल मोठ्या, अधिक संसाधनांची आवश्यकता असलेल्या मॉडेलशी प्रभावीपणे स्पर्धा करू शकतात.

तथापि, कंपनीने हे मान्य केले आहे की “इंग्रजीमधील ज्ञान-संबंधित बेंचमार्क” मध्ये सुधारणा करण्याची गरज आहे, जिथे Sarvam-M बेसलाइन मॉडेल MMLU पेक्षा सुमारे १% कमी आहे. Sarvam AI यावर सक्रियपणे काम करत आहे, जेणेकरून मॉडेलची एकूण कार्यक्षमता आणखी वाढवता येईल.

Sarvam-M ओपन सोर्स (Open source) आहे आणि Hugging Face या AI कम्युनिटी प्लॅटफॉर्मवर (AI community platform) विनामूल्य उपलब्ध आहे. ज्या डेव्हलपर्सना (Developers) ते त्यांच्या उत्पादनांमध्ये समाविष्ट करायचे आहे, त्यांच्यासाठी APIs देखील उपलब्ध आहेत. या सुलभतेमुळे डेव्हलपर्सना मॉडेल वापरणे आणि नवनवीन ऍप्लिकेशन्स (Applications) शोधणे सोपे होते.

वैशिष्ट्ये (Features)

Sarvam-M हे प्रगत Indic कौशल्यांसह डिझाइन केलेले एक बहुमुखी मॉडेल (Versatile model) आहे. हे मॉडेल “थिंक” (Think) आणि “नॉन-थिंक” (Non-think) अशा दोन्ही मोडला सपोर्ट (Support) करते, ज्यामुळे ते विविध कामांच्या आवश्यकतांना सहजपणे जुळवून घेते.

Sarvam-M: प्रगत Indic कौशल्यांसह एक बहुमुखी AI मॉडेल

“थिंक” मोड जटिल तार्किक तर्क, गणितीय समस्या आणि कोडिंग कार्यांसाठी आहे. हे मॉडेलला गुंतागुंतीच्या समस्यांचे विश्लेषण (Analysis) करण्यास आणि सोडवण्यास मदत करते, ज्यासाठी उच्च पातळीवरीलcognitive processing आवश्यक असते.

“नॉन-थिंक” मोड सामान्य-उद्देशीय संभाषणासाठी आहे. हे मॉडेलला अधिक आरामशीर आणि सहज संवादात सहभागी होण्यास मदत करते, ज्यामध्ये विश्लेषणात्मक कठोरतेची आवश्यकता नसते.

हे मॉडेल विशेषतः भारतीय भाषांमध्ये इंग्रजीसह पोस्ट-ट्रेन (Post-train) केले गेले आहे, जे भारतीय सांस्कृतिक मूल्यांचे अस्सलपणे प्रतिनिधित्व करते. यामुळे मॉडेल विविध सांस्कृतिक संदर्भांमध्ये प्रभावीपणे आणि आदराने संवाद साधण्यास सक्षम आहे.

हे Indic स्क्रिप्ट्स (Scripts) आणि भारतीय भाषांच्या Romanized व्हर्जनला (Versions) देखील पूर्णपणे सपोर्ट करते. हे वैशिष्ट्य मॉडेलला भारतीय बाजारपेठेच्या विशिष्ट गरजा पूर्ण करण्यास मदत करते.

या सुधारित लेखात, मूळ मजकुराचा अर्थ आणि माहिती टिकवून ठेवण्याचा प्रयत्न केला आहे. मी मजकूर पुन्हा लिहिला आहे आणि त्याची रचना बदलली आहे, मूळ सामग्रीचा विस्तार केला आहे आणि कथनात नवीन तपशील आणि उदाहरणे समाविष्ट केली आहेत. हे सुनिश्चित करते की सुधारित लेख उच्च पातळीची मौलिकता टिकवून ठेवतो आणि मूळ सामग्रीमधील मुख्य कल्पना आणि युक्तिवाद अचूकपणे व्यक्त करतो.