सर्वम AI, बेंगलुरु स्थित एक स्टार्टअप, ने हाल ही में एक अभूतपूर्व 24 बिलियन-पैरामीटर वाला बड़ा भाषा मॉडल (LLM) लॉन्च किया है जो भारतीय भाषाओं में उत्कृष्टता प्राप्त करने और गणित और प्रोग्रामिंग सहित जटिल तर्क कार्यों से निपटने के लिए सावधानीपूर्वक तैयार किया गया है। यह अभिनव मॉडल, जिसका नाम सर्वम-एम (जिसमें “एम” का अर्थ मिस्ट्रल है) है, ओपन-वेट हाइब्रिड मॉडल के क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। यह मिस्ट्रल स्मॉल की नींव पर बना है, जो एक कॉम्पैक्ट लेकिन उल्लेखनीय रूप से शक्तिशाली ओपन-सोर्स भाषा मॉडल है, जो विशेष प्रशिक्षण और अनुकूलन तकनीकों के माध्यम से इसकी क्षमताओं को बढ़ाता है।
सर्वम-एम: भाषा मॉडलिंग के लिए एक हाइब्रिड दृष्टिकोण
सर्वम-एम अपनी हाइब्रिड दृष्टिकोण के कारण अलग है, जो ओपन-सोर्स नींव की ताकत को मालिकाना संवर्द्धन के साथ जोड़ती है। यह डिज़ाइन दर्शन सर्वम AI को मिस्ट्रल स्मॉल मॉडल के आसपास के सामूहिक ज्ञान और सामुदायिक समर्थन का लाभ उठाने में सक्षम बनाता है, साथ ही इसे भारतीय बाजार की विशिष्ट आवश्यकताओं को पूरा करने के लिए तैयार करता है। मॉडल की वास्तुकला और प्रशिक्षण विधियां इसके प्रदर्शन और क्षमताओं को समझने के लिए महत्वपूर्ण हैं।
सुपरवाइज्ड फाइन-ट्यूनिंग: सटीकता और अचूकता
मॉडल की सटीकता और अचूकता को बढ़ाने के लिए, सर्वम AI ने सुपरवाइज्ड फाइन-ट्यूनिंग की एक सावधानीपूर्वक प्रक्रिया का उपयोग किया। इसमें मॉडल को उदाहरणों के एक सावधानीपूर्वक क्यूरेट किए गए डेटासेट पर प्रशिक्षित करना शामिल था, जिसे विशेष रूप से विभिन्न कार्यों पर इसके प्रदर्शन को बेहतर बनाने के लिए डिज़ाइन किया गया था। मॉडल को विभिन्न प्रकार के परिदृश्यों से अवगत कराकर और इसे स्पष्ट, लेबल वाले डेटा प्रदान करके, सुपरवाइज्ड फाइन-ट्यूनिंग प्रक्रिया सर्वम-एम को डेटा के भीतर जटिल पैटर्न और संबंधों को सीखने में सक्षम बनाती है, जिसके परिणामस्वरूप अधिक सटीक और विश्वसनीय आउटपुट प्राप्त होते हैं।
सत्यापन योग्य पुरस्कारों के साथ सुदृढीकरण सीखना: निर्णय लेने की क्षमता
सुपरवाइज्ड फाइन-ट्यूनिंग के अलावा, सर्वम AI ने मॉडल की निर्णय लेने की क्षमताओं को बढ़ाने के लिए सत्यापन योग्य पुरस्कारों के साथ सुदृढीकरण सीखने को शामिल किया। इस तकनीक में मॉडल को स्पष्ट, मापने योग्य लक्ष्यों से बंधे फीडबैक से सीखने के लिए प्रशिक्षित करना शामिल है, जैसे कि गणितीय समस्या को सही ढंग से हल करना। इन लक्ष्यों को प्राप्त करने के लिए मॉडल को पुरस्कृत करके, सुदृढीकरण सीखने की प्रक्रिया इसे बेहतर निर्णय लेने और समय के साथ अपने प्रदर्शन को अनुकूलित करने के लिए प्रोत्साहित करती है। यह दृष्टिकोण उन कार्यों के लिए विशेष रूप से प्रभावी है जिनके लिए जटिल तर्क और समस्या-समाधान कौशल की आवश्यकता होती है।
वास्तविक समय उपयोग के लिए अनुकूलित: दक्षता और प्रतिक्रियाशीलता
वास्तविक समय के प्रदर्शन के महत्व को पहचानते हुए, सर्वम AI ने विशेष रूप से वास्तविक समय उपयोग के दौरान उत्तर उत्पन्न करते समय अधिक कुशलतापूर्वक और सटीक रूप से प्रतिक्रिया देने के लिए सर्वम-एम को सावधानीपूर्वक अनुकूलित किया। इसमें मॉडल की वास्तुकला और एल्गोरिदम को विलंबता को कम करने और थ्रूपुट को अधिकतम करने के लिए फाइन-ट्यून करना शामिल था, यह सुनिश्चित करते हुए कि उपयोगकर्ताओं को उनकी क्वेरी के लिए समय पर और प्रासंगिक प्रतिक्रियाएँ मिल सकती हैं। अनुकूलन प्रयासों ने कम्प्यूटेशनल ओवरहेड को कम करने और समवर्ती अनुरोधों को संभालने के लिए मॉडल की क्षमता में सुधार करने पर ध्यान केंद्रित किया, जिससे यह उच्च-मांग वाले वातावरण में तैनाती के लिए उपयुक्त हो गया।
बेंचमार्किंग प्रदर्शन: नए मानक स्थापित करना
सर्वम AI का यह दावा कि सर्वम-एम भारतीय भाषाओं और गणित और प्रोग्रामिंग कार्यों में अपने आकार के मॉडल के लिए एक नया मानदंड स्थापित करता है, व्यापक बेंचमार्किंग डेटा द्वारा समर्थित है। स्टार्टअप ने विभिन्न मानक बेंचमार्क पर मॉडल के प्रदर्शन का कठोर मूल्यांकन किया, अन्य अत्याधुनिक मॉडल के परिणामों के साथ इसकी तुलना की। इन मूल्यांकनों के परिणाम कई प्रमुख क्षेत्रों में सर्वम-एम द्वारा प्राप्त महत्वपूर्ण सुधारों को प्रदर्शित करते हैं।
भारतीय भाषा बेंचमार्क: 20% औसत प्रदर्शन लाभ
सर्वम AI द्वारा जारी किए गए ब्लॉग पोस्ट के अनुसार, सर्वम-एम आधार मॉडल पर प्रमुख सुधार प्रदर्शित करता है, जिसमें भारतीय भाषा बेंचमार्क पर औसत प्रदर्शन लाभ 20% है। यह पर्याप्त सुधार भारतीय भाषाओं की समझ और पीढ़ी को बढ़ाने में सुपरवाइज्ड फाइन-ट्यूनिंग प्रक्रिया की प्रभावशीलता को रेखांकित करता है। इन भाषाओं की बारीकियों और जटिलताओं को संभालने की मॉडल की क्षमता भारतीय बाजार में इसके अपनाने और उपयोग के लिए महत्वपूर्ण है। प्रदर्शन का आकलन करने के लिए उपयोग किए गए विशिष्ट बेंचमार्क में पाठ वर्गीकरण, प्रश्न उत्तर और मशीन अनुवाद जैसे कार्य शामिल थे, जिसमें भाषाई चुनौतियों की एक विविध रेंज शामिल थी।
गणित कार्य: 21.6% औसत प्रदर्शन लाभ
भारतीय भाषाओं के अलावा, सर्वम-एम गणित के कार्यों पर भी प्रभावशाली प्रदर्शन लाभ प्रदर्शित करता है, जिसमें औसतन 21.6% सुधार होता है। सटीकता और समस्या-समाधान क्षमता में यह महत्वपूर्ण वृद्धि मॉडल की तर्क क्षमताओं को बढ़ाने में सत्यापन योग्य पुरस्कार तकनीक के साथ सुदृढीकरण सीखने की प्रभावशीलता को उजागर करती है। गणितीय समस्याओं को हल करने की मॉडल की क्षमता वित्तीय मॉडलिंग, वैज्ञानिक अनुसंधान और डेटा विश्लेषण जैसे क्षेत्रों में इसके अनुप्रयोग के लिए आवश्यक है। गणित कार्यों पर प्रदर्शन का मूल्यांकन करने के लिए उपयोग किए जाने वाले बेंचमार्क में बीजगणित, कलन और आंकड़ों जैसे विभिन्न डोमेन की समस्याएं शामिल थीं। मॉडल का आकलन न केवल सही उत्तर प्रदान करने की उसकी क्षमता पर किया गया, बल्कि उसकी तर्क प्रक्रिया का प्रदर्शन करने और उसके समाधानों को उचित ठहराने की क्षमता पर भी किया गया।
प्रोग्रामिंग परीक्षण: 17.6% औसत प्रदर्शन लाभ
प्रोग्रामिंग परीक्षणों पर सर्वम-एम का प्रदर्शन समान रूप से उल्लेखनीय है, जिसमें औसतन 17.6% का लाभ है। यह सुधार विभिन्न प्रोग्रामिंग भाषाओं में कोड को समझने और उत्पन्न करने की मॉडल की क्षमता को दर्शाता है, जिससे यह सॉफ्टवेयर डेवलपर्स और इंजीनियरों के लिए एक मूल्यवान उपकरण बन जाता है। प्रोग्रामिंग में मॉडल की दक्षता कोड जनरेशन, बग डिटेक्शन और स्वचालित परीक्षण जैसे क्षेत्रों में इसके अनुप्रयोग के लिए महत्वपूर्ण है। प्रोग्रामिंग परीक्षणों पर प्रदर्शन का आकलन करने के लिए उपयोग किए जाने वाले बेंचमार्क में कोड कंप्लीशन, कोड रिपेयर और प्राकृतिक भाषा विवरण से कोड जनरेशन जैसे कार्य शामिल थे। मॉडल का मूल्यांकन सिंटैक्टिक रूप से सही और सिमेंटिक रूप से सार्थक कोड उत्पन्न करने की उसकी क्षमता पर किया गया जो दी गई आवश्यकताओं को पूरा करता है।
संयुक्त कार्य: असाधारण प्रदर्शन
मॉडल उन कार्यों पर और भी बेहतर प्रदर्शन करता है जो भारतीय भाषाओं और गणित को जोड़ते हैं, जो इसकी बहुमुखी प्रतिभा और भाषाई और तर्क कौशल दोनों की आवश्यकता वाले जटिल परिदृश्यों को संभालने की क्षमता को दर्शाता है। उदाहरण के लिए, इसने जीएसएम-8के बेंचमार्क के रोमनकृत भारतीय भाषा संस्करण पर 86% सुधार हासिल किया। यह उल्लेखनीय सुधार मॉडल की भारतीय भाषाओं और गणितीय अवधारणाओं दोनों के अपने ज्ञान का लाभ उठाकर चुनौतीपूर्ण समस्याओं को हल करने की क्षमता को रेखांकित करता है। जीएसएम-8के बेंचमार्क एक व्यापक रूप से उपयोग किया जाने वाला डेटासेट है जो प्राकृतिक भाषा में व्यक्त ग्रेड स्कूल गणित की समस्याओं को हल करने के लिए मॉडल की क्षमता का परीक्षण करता है। इस बेंचमार्क पर मॉडल का प्रदर्शन समस्या कथन को समझने, प्रासंगिक जानकारी की पहचान करने और सही समाधान पर पहुंचने के लिए उपयुक्त गणितीय संचालन लागू करने की क्षमता को दर्शाता है। सर्वम-एम द्वारा प्राप्त 86% सुधार इसकी उन्नत तर्क क्षमताओं और जटिल, बहुआयामी कार्यों को संभालने की क्षमता का प्रमाण है।
अन्य मॉडलों के साथ तुलना: सर्वम-एम अपनी जगह बनाए रखता है
सर्वम AI का ब्लॉग पोस्ट सर्वम-एम और अन्य प्रमुख भाषा मॉडलों के बीच तुलना करता है, इसके प्रतिस्पर्धी प्रदर्शन पर जोर देता है। यह तुलनात्मक विश्लेषण मॉडल की ताकत और कमजोरियों में बहुमूल्य अंतर्दृष्टि प्रदान करता है, जिससे उपयोगकर्ताओं को उनकी विशिष्ट आवश्यकताओं के लिए इसकी उपयुक्तता के बारे में सूचित निर्णय लेने की अनुमति मिलती है। ब्लॉग पोस्ट इस तथ्य को उजागर करता है कि सर्वम-एम अधिकांश बेंचमार्क पर Llama-2 7B से बेहतर प्रदर्शन करता है और Llama-3 70B जैसे बड़े घने मॉडलों और Gemma 27B जैसे मॉडलों के बराबर है, जिन्हें महत्वपूर्ण रूप से अधिक टोकन पर पूर्व-प्रशिक्षित किया गया है। ये तुलनाएं सर्वम-एम की प्रशिक्षण पद्धति की दक्षता और अपेक्षाकृत छोटे पैरामीटर आकार के साथ प्रतिस्पर्धी प्रदर्शन प्राप्त करने की क्षमता को रेखांकित करती हैं। कम पैरामीटर के साथ तुलनीय प्रदर्शन प्राप्त करने की क्षमता का मतलब है कम कम्प्यूटेशनल लागत और तेज अनुमान गति, जिससे सर्वम-एम कई उपयोगकर्ताओं के लिए एक अधिक व्यावहारिक और सुलभ समाधान बन जाता है।
अंग्रेजी ज्ञान-आधारित बेंचमार्क: सुधार की गुंजाइश
भारतीय भाषाओं और तर्क कार्यों पर अपने प्रभावशाली प्रदर्शन के बावजूद, सर्वम AI स्वीकार करता है कि सर्वम-एम को अभी भी MMLU जैसे अंग्रेजी ज्ञान-आधारित बेंचमार्क में सुधार करने की आवश्यकता है। इन बेंचमार्क में, सर्वम-एम बेसलाइन मॉडल से लगभग 1 प्रतिशत अंक कम प्रदर्शन करता है। प्रदर्शन में यह मामूली गिरावट बताती है कि मॉडल का प्रशिक्षण डेटा भारतीय भाषाओं और तर्क कार्यों की ओर पक्षपाती हो सकता है, जिसके परिणामस्वरूप अंग्रेजी ज्ञान की थोड़ी कमजोर समझ हो सकती है। हालाँकि, सर्वम AI सक्रिय रूप से मॉडल के प्रशिक्षण सेट में अधिक अंग्रेजी भाषा डेटा को शामिल करके और अंग्रेजी ज्ञान-आधारित कार्यों को बेहतर ढंग से संभालने के लिए मॉडल की वास्तुकला को फाइन-ट्यून करके इस मुद्दे को संबोधित करने पर काम कर रहा है। कंपनी अंग्रेजी भाषा बेंचमार्क पर अन्य अत्याधुनिक मॉडलों के साथ समानता प्राप्त करने के लिए प्रतिबद्ध है, यह सुनिश्चित करते हुए कि सर्वम-एम एक बहुमुखी और विश्व स्तर पर प्रतिस्पर्धी भाषा मॉडल है।
बहुमुखी प्रतिभा और अनुप्रयोग: संभावनाओं की एक विस्तृत श्रृंखला
सर्वम-एम बहुमुखी प्रतिभा के लिए बनाया गया है और संवादी एजेंटों, अनुवाद और शैक्षिक उपकरणों सहित अनुप्रयोगों की एक विस्तृत श्रृंखला का समर्थन करने के लिए डिज़ाइन किया गया है। भारतीय भाषाओं को समझने और उत्पन्न करने की इसकी क्षमता, इसकी तर्क क्षमताओं के साथ मिलकर, इसे भारतीय बाजार में काम करने वाले व्यवसायों और संगठनों के लिए एक मूल्यवान संपत्ति बनाती है।
संवादी एजेंट: ग्राहक सेवा को बढ़ाना
सर्वम-एम का उपयोग संवादी एजेंटों को शक्ति प्रदान करने के लिए किया जा सकता है जो ग्राहकों के साथ उनकी मूल भाषाओं में बातचीत कर सकते हैं, व्यक्तिगत और कुशल ग्राहक सेवा प्रदान कर सकते हैं। ये एजेंट अक्सर पूछे जाने वाले प्रश्नों का उत्तर देने, उत्पाद जानकारी प्रदान करने और ग्राहक शिकायतों को हलकरने जैसे कार्यों की एक विस्तृत श्रृंखला को संभाल सकते हैं। ग्राहकों को अपनी पसंदीदा भाषा में संवाद करने में सक्षम करके, सर्वम-एम ग्राहक संतुष्टि और वफादारी में सुधार कर सकता है। सर्वम-एम द्वारा संचालित संवादी एजेंटों को विभिन्न प्लेटफार्मों पर तैनात किया जा सकता है, जैसे वेबसाइटें, मोबाइल ऐप और मैसेजिंग प्लेटफॉर्म, जो ग्राहकों को एक सहज और सुविधाजनक संचार अनुभव प्रदान करते हैं।
अनुवाद: भाषा बाधाओं को तोड़ना
सर्वम-एम की अनुवाद क्षमताओं का उपयोग भाषा बाधाओं को तोड़ने और विभिन्न भाषाएं बोलने वाले लोगों के बीच संचार को सुविधाजनक बनाने के लिए किया जा सकता है। मॉडल अंग्रेजी और विभिन्न भारतीय भाषाओं के बीच पाठ और भाषण का अनुवाद कर सकता है, जिससे व्यवसायों को नए बाजारों में अपनी पहुंच का विस्तार करने और व्यक्तियों को विभिन्न संस्कृतियों के लोगों से जुड़ने में सक्षम बनाया जा सकता है। सर्वम-एम द्वारा संचालित अनुवाद सेवाओं को विभिन्न अनुप्रयोगों में एकीकृत किया जा सकता है, जैसे कि दस्तावेज़ अनुवाद उपकरण, वेबसाइट अनुवाद प्लगइन्स और वास्तविक समय अनुवाद ऐप, जो उपयोगकर्ताओं को सहज और सटीक अनुवाद क्षमताएं प्रदान करते हैं।
शैक्षिक उपकरण: व्यक्तिगत शिक्षण अनुभव
सर्वम-एम का उपयोग ऐसे शैक्षिक उपकरण विकसित करने के लिए किया जा सकता है जो सभी उम्र के छात्रों के लिए व्यक्तिगत शिक्षण अनुभव प्रदान करते हैं। मॉडल अनुकूलित सीखने की सामग्री उत्पन्न कर सकता है, छात्र के काम पर प्रतिक्रिया प्रदान कर सकता है और छात्र के सवालों का जवाब दे सकता है। प्रत्येक छात्र की अलग-अलग जरूरतों और सीखने की शैली के लिए सीखने के अनुभव को तैयार करके, सर्वम-एम छात्र की व्यस्तता और अकादमिक प्रदर्शन में सुधार कर सकता है। सर्वम-एम द्वारा संचालित शैक्षिक उपकरणों को विभिन्न प्लेटफार्मों पर तैनात किया जा सकता है, जैसे ऑनलाइन लर्निंग प्लेटफॉर्म, मोबाइल ऐप और इंटरैक्टिव पाठ्यपुस्तकें, जो छात्रों को कभी भी, कहीं भी व्यक्तिगत शिक्षण संसाधनों तक पहुंच प्रदान करती हैं।
पहुंच और उपलब्धता: डेवलपर्स को सशक्त बनाना
सर्वम AI ने AI समुदाय के भीतर नवाचार और सहयोग को बढ़ावा देते हुए सर्वम-एम को डेवलपर्स और शोधकर्ताओं के लिए आसानी से सुलभ बना दिया है। मॉडल Hugging Face पर डाउनलोड के लिए उपलब्ध है, जो ओपन-सोर्स AI मॉडल को साझा करने और एक्सेस करने के लिए एक लोकप्रिय मंच है। डेवलपर सर्वम AI के प्लेग्राउंड पर मॉडल का परीक्षण भी कर सकते हैं, जो एक वेब-आधारित इंटरफ़ेस है जो उपयोगकर्ताओं को मॉडल की क्षमताओं के साथ प्रयोग करने और संभावित अनुप्रयोगों का पता लगाने की अनुमति देता है। इसके अलावा,
सर्वम AI APIs प्रदान करता है जो डेवलपर्स को सर्वम-एम को अपने स्वयं के अनुप्रयोगों और सेवाओं में एकीकृत करने की अनुमति देते हैं। मॉडल और इससे जुड़े उपकरणों तक आसान पहुंच प्रदान करके, सर्वम AI डेवलपर्स को AI की शक्ति का लाभ उठाने वाले अभिनव समाधान बनाने के लिए सशक्त बना रहा है।
भविष्य की योजनाएं: भारत में एक संप्रभु AI पारिस्थितिकी तंत्र का निर्माण
सर्वम AI नियमित रूप से मॉडल जारी करने की योजना बना रहा है क्योंकि यह भारत में एक संप्रभु AI पारिस्थितिकी तंत्र बनाने के अपने प्रयास का हिस्सा है। यह मॉडल उस योगदान श्रृंखला में पहला है। कंपनी AI तकनीकों को विकसित करने और तैनात करने के लिए प्रतिबद्ध है जो भारतीय लोगों की जरूरतों और मूल्यों के अनुरूप हैं। एक मजबूत घरेलू AI उद्योग को बढ़ावा देकर, सर्वम AI का लक्ष्य विदेशी तकनीकों पर भारत की निर्भरता को कम करना और आर्थिक विकास और सामाजिक विकास को बढ़ावा देना है। कंपनी का दृष्टिकोण एक ऐसा AI पारिस्थितिकी तंत्र बनाना है जो अभिनव और समावेशी दोनों हो, यह सुनिश्चित करते हुए कि सभी भारतीयों को AI के लाभों तक पहुंच हो।
अप्रैल के अंत में, भारत सरकार ने उभरती प्रौद्योगिकियों में घरेलू क्षमताओं कोमजबूत करने के लिए एक राष्ट्रीय प्रयास, इंडिया AI मिशन के हिस्से के रूप में देश का संप्रभु LLM बनाने के लिए सर्वम को चुना। यह चयन भारत में एक संप्रभु AI पारिस्थितिकी तंत्र की अपनी दृष्टि को वितरित करने के लिए सर्वम AI की क्षमता में सरकार के विश्वास को रेखांकित करता है। इंडिया AI मिशन एक व्यापक पहल है जिसका उद्देश्य AI में अनुसंधान और विकास को बढ़ावा देना, नवाचार और उद्यमिता को बढ़ावा देना और AI उद्योग का समर्थन करने के लिए एक कुशल कार्यबल बनाना है। सर्वम AI के साथ साझेदारी करके, सरकार अपने लक्ष्यों को प्राप्त करने और भारत को AI में वैश्विक नेता के रूप में स्थापित करने की दिशा में एक महत्वपूर्ण कदम उठा रही है।