माइक्रोसॉफ्ट अनुसंधान ने फी-4 पेश किया है, जो एक 14 बिलियन पैरामीटर वाला छोटा भाषा मॉडल है जिसे गणितीय तर्क में उन्नति के लिए डिज़ाइन किया गया है। यह मॉडल, जो पहले Azure AI Foundry पर उपलब्ध था, हाल ही में MIT लाइसेंस के तहत Hugging Face पर जारी किया गया है।
फी-4 की नवाचार
माइक्रोसॉफ्ट के अनुसार, फी-4 गणितीय तर्क में अपने समकक्षों और बड़े मॉडलों से बेहतर प्रदर्शन करता है, और यह इसके प्रशिक्षण में कई नवीन तकनीकों के कारण है, जिनमें शामिल हैं:
- सिंथेटिक डेटा प्रीट्रेनिंग और मध्य-प्रशिक्षण: मॉडल को अधिक संरचित सीखने का मार्ग प्रदान करने के लिए सिंथेटिक डेटा का उपयोग करके प्री-ट्रेनिंग और मध्य-प्रशिक्षण किया जाता है।
- जैविक डेटा प्रबंधन: प्रशिक्षण डेटा की गुणवत्ता सुनिश्चित करने के लिए जैविक डेटा को सावधानीपूर्वक क्यूरेट और फ़िल्टर किया जाता है।
- नई पोस्ट-प्रशिक्षण योजना: मॉडल के प्रदर्शन को और बेहतर बनाने के लिए नए पोस्ट-प्रशिक्षण विधियों का उपयोग किया जाता है।
इन नवाचारों के कारण, फी-4 ने एसटीईएम-केंद्रित प्रश्न-उत्तर क्षमताओं में अपने शिक्षक मॉडल GPT-4o को पीछे छोड़ दिया, जिससे यह साबित होता है कि माइक्रोसॉफ्ट की डेटा पीढ़ी और पोस्ट-प्रशिक्षण तकनीकें केवल ज्ञान आसवन नहीं हैं।
सिंथेटिक डेटा के अनोखे फायदे
बड़े भाषा मॉडल (एलएलएम) के प्रशिक्षण में सिंथेटिक डेटा का उपयोग नया नहीं है, और फी मॉडल में भी इस विधि का उपयोग किया गया है। माइक्रोसॉफ्ट का कहना है कि सिंथेटिक डेटा एक सस्ता विकल्प नहीं है, बल्कि यह जैविक डेटा से बेहतर है क्योंकि:
- अधिक क्रमिक सीखने का मार्ग: सिंथेटिक डेटा एलएलएम को प्रारंभिक समस्या कथन से लेकर अंतिम समाधान तक धीरे-धीरे सीखने के लिए मार्गदर्शन कर सकता है, जिससे तर्क प्रक्रिया को समझना आसान हो जाता है।
- तर्क वातावरण के साथ बेहतर संरेखण: जैविक डेटा में समस्या कथन और अंतिम समाधान शामिल होते हैं, जबकि सिंथेटिक डेटा अधिक विस्तृत चरण-दर-चरण तर्क प्रक्रिया प्रदान कर सकता है, जो वास्तविक तर्क परिदृश्यों के साथ बेहतर संरेखित होता है।
सावधानीपूर्वक क्यूरेटेड जैविक डेटा
सिंथेटिक डेटा के अलावा, माइक्रोसॉफ्ट ने सावधानीपूर्वक क्यूरेट किए गए जैविक डेटा का भी उपयोग किया, जिसमें सार्वजनिक वेबसाइटों और बाहरी डेटासेट से एकत्र किए गए लाखों उच्च-गुणवत्ता वाले गणित के प्रश्न और समाधान शामिल हैं। उन मामलों में जहां सटीक समाधान उपलब्ध नहीं थे, उन्होंने सटीकता बढ़ाने के लिए बहुमत वोट पद्धति का उपयोग करके समाधानों को संश्लेषित किया। इसके अतिरिक्त, उन्होंने अकादमिक पत्रों, शिक्षा मंचों और प्रोग्रामिंग ट्यूटोरियल को भी एकत्र किया।
माइक्रोसॉफ्ट ने सिंथेटिक डेटा पीढ़ी में उच्च-गुणवत्ता वाले प्राकृतिक डेटा की महत्वपूर्ण भूमिका पर जोर दिया, यह देखते हुए कि छोटी-छोटी गलतियाँ भी व्युत्पन्न सिंथेटिक दस्तावेजों की गुणवत्ता को गंभीर रूप से कम कर सकती हैं। इसलिए, उन्होंने नेटवर्क डेटा के प्रबंधन को बेहतर बनाने में बहुत प्रयास किया।
फी-4 का पोस्ट-ट्रेनिंग चरण
फी-4 के पोस्ट-ट्रेनिंग चरण का उद्देश्य इसे एक विश्वसनीय एआई सहायक बनाना है। इस चरण में निम्नलिखित चरण शामिल हैं:
- फाइन-ट्यूनिंग: मॉडल को गणित, कोडिंग, तर्क, संवाद, मॉडल पहचान और सुरक्षा जैसे विभिन्न क्षेत्रों से उत्पन्न उच्च-गुणवत्ता वाले डेटा का उपयोग करके फाइन-ट्यून किया जाता है।
- प्रत्यक्ष प्राथमिकता अनुकूलन (डीपीओ): मॉडल को मानव प्राथमिकताओं के साथ बेहतर ढंग से संरेखित करने और खराब व्यवहार को खत्म करने के लिए दो डीपीओ चरण किए जाते हैं।
- पिवोटल टोकन सर्च: पहले चरण में, माइक्रोसॉफ्ट ने पिवोटल टोकन सर्च नामक एक नई तकनीक का उपयोग करके वांछित/अवांछित परिणाम जोड़े उत्पन्न किए।
- GPT-4o एक निर्णायक के रूप में: दूसरे चरण में, उन्होंने GPT-4o का उपयोग एक निर्णायक के रूप में किया, प्रत्येक परिणाम जोड़े को सकारात्मक या नकारात्मक लेबल दिया।
फी-4 का मूल्यांकन
फी-4 का मूल्यांकन OpenAI के SIMPLE-EVALS फ्रेमवर्क का उपयोग करके किया गया था, और इसने कई बेंचमार्क में Llama-3.1-405B को पीछे छोड़ दिया। इसके अतिरिक्त, इसने GPQA (स्नातक स्तर के एसटीईएम प्रश्न-उत्तर) और MATH (गणितीय प्रतियोगिता) बेंचमार्क में अपने शिक्षक मॉडल GPT-4o को भी पीछे छोड़ दिया।
फी-4 मॉडल के प्रशिक्षण डेटा का विस्तृत विवरण
माइक्रोसॉफ्ट ने फी-4 मॉडल को प्रशिक्षित करते समय एक सावधानीपूर्वक डिज़ाइन की गई डेटा रणनीति का उपयोग किया, जो मुख्य रूप से सिंथेटिक डेटा और चयनित वास्तविक डेटा पर आधारित थी। इस संयुक्त दृष्टिकोण का उद्देश्य मॉडल की सीखने की प्रक्रिया को अनुकूलित करना और इसे गणितीय तर्क में उत्कृष्ट प्रदर्शन करना था।
सिंथेटिक डेटा जनरेशन
सिंथेटिक डेटा ने फी-4 के प्रशिक्षण में एक महत्वपूर्ण भूमिका निभाई। माइक्रोसॉफ्ट टीम ने सिंथेटिक डेटा को वास्तविक डेटा के एक सरल विकल्प के रूप में नहीं माना, बल्कि एक उपकरण के रूप में माना जो मॉडल को धीरे-धीरे सीखने के लिए मार्गदर्शन कर सकता है। सिंथेटिक डेटा जनरेशन प्रक्रिया में आमतौर पर निम्नलिखित चरण शामिल होते हैं:
- समस्या निर्माण: सबसे पहले, पूर्व-परिभाषित नियमों और टेम्पलेट्स के आधार पर विभिन्न गणितीय समस्याओं को उत्पन्न किया जाता है। इन समस्याओं में विभिन्न गणितीय क्षेत्र और कठिनाई स्तर शामिल होते हैं ताकि मॉडल की व्यापक शिक्षा सुनिश्चित की जा सके।
- चरणबद्ध समाधान: प्रत्येक उत्पन्न समस्या के लिए, एक चरणबद्ध समाधान बनाया जाता है, जो समस्या कथन से अंतिम उत्तर तक तर्क प्रक्रिया की विस्तृत व्याख्या करता है। इस चरणबद्ध समाधान में न केवल अंतिम उत्तर शामिल होता है, बल्कि मध्यवर्ती चरण और तर्क भी शामिल होते हैं, जिससे मॉडल को समस्या को हल करने की प्रक्रिया को समझने में मदद मिलती है।
- डेटा संवर्धन: डेटा की विविधता को बढ़ाने के लिए, सिंथेटिक डेटा को संवर्धित भी किया जाता है, जैसे कि समस्या के शब्दों को बदलना, संख्याओं को समायोजित करना या विभिन्न समाधान विधियों का उपयोग करना।
चयनित वास्तविक डेटा
सिंथेटिक डेटा के अलावा, फी-4 के प्रशिक्षण में बड़ी मात्रा में चयनित वास्तविक डेटा का भी उपयोग किया गया था। यह डेटा विभिन्न सार्वजनिक वेबसाइटों, अकादमिक पत्रों, शिक्षा मंचों और प्रोग्रामिंग ट्यूटोरियल से लिया गया था, जिसमें निम्नलिखित प्रकार शामिल हैं:
- गणितीय समस्याएँ और समाधान: सार्वजनिक वेबसाइटों और बाहरी डेटासेट से लाखों उच्च-गुणवत्ता वाली गणितीय समस्याएँ और उनके समाधान एकत्र किए गए थे। इन समस्याओं में विभिन्न गणितीय क्षेत्र और कठिनाई स्तर शामिल थे।
- अकादमिक पत्र: मॉडल की समझ और तर्क क्षमताओं को बेहतर बनाने के लिए बड़ी संख्या में अकादमिक पत्र भी एकत्र किए गए थे, जो गणितीय अवधारणाओं और सिद्धांतों की गहरी समझ प्रदान करते थे।
- शिक्षा मंच: शिक्षा मंचों से छात्रों द्वारा पूछे गए प्रश्न और विशेषज्ञों द्वारा प्रदान किए गए समाधान एकत्र किए गए थे, जिससे मॉडल को विभिन्न दृष्टिकोणों से गणितीय समस्याओं को समझने की अनुमति मिली।
- प्रोग्रामिंग ट्यूटोरियल: मॉडल की प्रोग्रामिंग क्षमताओं को बेहतर बनाने के लिए बड़ी संख्या में प्रोग्रामिंग ट्यूटोरियल भी एकत्र किए गए थे, जिनमें विभिन्न प्रोग्रामिंग भाषाएँ और एल्गोरिदम शामिल थे।
डेटा गुणवत्ता नियंत्रण
माइक्रोसॉफ्ट ने प्रशिक्षण डेटा की सटीकता और स्थिरता सुनिश्चित करने के लिए डेटा गुणवत्ता नियंत्रण में बहुत प्रयास किया। उन्होंने निम्नलिखित उपाय किए:
- मानव समीक्षा: कुछ महत्वपूर्ण डेटासेट के लिए, डेटा की सटीकता और गुणवत्ता सुनिश्चित करने के लिए मानव समीक्षा की जाती है।
- बहुमत वोट: उन समस्याओं के लिए जिनके लिए सटीक समाधान उपलब्ध नहीं थे, समाधान उत्पन्न करने के लिए बहुमत वोट पद्धति का उपयोग किया जाता है, जिससे सटीकता में सुधार होता है।
- डेटा सफाई: सभी डेटा को दोहराव वाले डेटा, गलत डेटा और अप्रासंगिक डेटा को हटाने के लिए साफ़ किया जाता है।
पोस्ट-ट्रेनिंग रणनीतियों का विस्तृत विश्लेषण
फी-4 के पोस्ट-ट्रेनिंग चरण का उद्देश्य इसे एक विश्वसनीय एआई सहायक बनाना है, इस चरण में मुख्य रूप से फाइन-ट्यूनिंग और डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (डीपीओ) शामिल हैं।
फाइन-ट्यूनिंग चरण
फाइन-ट्यूनिंग चरण का लक्ष्य मॉडल को विभिन्न कार्यों और क्षेत्रों के अनुकूल बनाना है। इस चरण में, माइक्रोसॉफ्ट ने निम्नलिखित क्षेत्रों से उत्पन्न उच्च-गुणवत्ता वाले डेटा का उपयोग किया:
- गणित: विभिन्न गणितीय समस्याओं और समाधानों सहित, मॉडल की गणितीय तर्क क्षमताओं को बेहतर बनाने के लिए डिज़ाइन किया गया है।
- कोडिंग: विभिन्न प्रोग्रामिंग समस्याओं और समाधानों सहित, मॉडल के कोड जनरेशन और समझ क्षमताओं को बेहतर बनाने के लिए डिज़ाइन किया गया है।
- तर्क: विभिन्न तार्किक तर्क समस्याओं सहित, मॉडल की तार्किक सोच क्षमताओं को बेहतर बनाने के लिए डिज़ाइन किया गया है।
- संवाद: विभिन्न संवाद डेटा सहित, मॉडल की प्राकृतिक भाषा समझ और जनरेशन क्षमताओं को बेहतर बनाने के लिए डिज़ाइन किया गया है।
- मॉडल पहचान: विभिन्न मॉडल पहचान विवरण सहित, मॉडल की अपनी क्षमताओं की समझ को बेहतर बनाने के लिए डिज़ाइन किया गया है।
- सुरक्षा: विभिन्न सुरक्षा समस्याओं और समाधानों सहित, मॉडल की सुरक्षा को बेहतर बनाने के लिए डिज़ाइन किया गया है।
डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (डीपीओ) चरण
डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (डीपीओ) चरण का लक्ष्य मॉडल के व्यवहार को मानव प्राथमिकताओं के साथ बेहतर ढंग से संरेखित करना और खराब व्यवहार को खत्म करना है। इस चरण में दो चरण शामिल हैं:
- पिवोटल टोकन सर्च: पहले चरण में, माइक्रोसॉफ्ट ने पिवोटल टोकन सर्च नामक एक नई तकनीक का उपयोग करके वांछित/अवांछित परिणाम जोड़े उत्पन्न किए। यह तकनीक वांछित और अवांछित व्यवहार के बीच अंतर करने में सक्षम महत्वपूर्ण टोकन को खोजने के लिए मॉडल के आउटपुट स्पेस की खोज करती है।
- GPT-4o एक निर्णायक के रूप में: दूसरे चरण में, उन्होंने GPT-4o का उपयोग एक निर्णायक के रूप में किया, प्रत्येक परिणाम जोड़े को सकारात्मक या नकारात्मक लेबल दिया। GPT-4o मानव प्राथमिकताओं के आधार पर मॉडल आउटपुट का मूल्यांकन करने में सक्षम है, जिससे मॉडल को मानव प्राथमिकताओं को बेहतर ढंग से सीखने में मदद मिलती है।
फी-4 का प्रदर्शन मूल्यांकन
फी-4 के प्रदर्शन का मूल्यांकन करने के लिए, माइक्रोसॉफ्ट ने OpenAI के SIMPLE-EVALS फ्रेमवर्क का उपयोग किया, जिसमें विभिन्न बेंचमार्क शामिल हैं जो विभिन्न कार्यों पर मॉडल के प्रदर्शन का मूल्यांकन कर सकते हैं।
बेंचमार्क
फी-4 ने निम्नलिखित बेंचमार्क में उत्कृष्ट प्रदर्शन किया:
- GPQA (स्नातक स्तर के एसटीईएम प्रश्न-उत्तर): इस बेंचमार्क में, फी-4 ने अपने शिक्षक मॉडल GPT-4o को पीछे छोड़ दिया, यह साबित करता है कि एसटीईएम क्षेत्र में इसकी प्रश्न-उत्तर क्षमता बहुत मजबूत है।
- MATH (गणितीय प्रतियोगिता): इस बेंचमार्क में, फी-4 ने अपने शिक्षक मॉडल GPT-4o को भी पीछे छोड़ दिया, यह साबित करता है कि जटिल गणितीय समस्याओं को हल करने में इसकी क्षमता बहुत उत्कृष्ट है।
- अन्य मॉडलों के साथ तुलना: कई बेंचमार्क में, फी-4 ने Llama-3.1-405B को भी पीछे छोड़ दिया, यह साबित करता है कि इसका समग्र प्रदर्शन बहुत मजबूत है।
प्रदर्शन विश्लेषण
फी-4 के प्रदर्शन मूल्यांकन के माध्यम से, निम्नलिखित निष्कर्ष निकाले जा सकते हैं:
- मजबूत गणितीय तर्क क्षमता: फी-4 ने गणितीय तर्क में बहुत अच्छा प्रदर्शन किया है, यह इसके प्रशिक्षण में उपयोग की गई नवीन विधियों के कारण है, जिसमें सिंथेटिक डेटा, चयनित वास्तविक डेटा और पोस्ट-ट्रेनिंग रणनीतियां शामिल हैं।
- शिक्षक मॉडल से बेहतर प्रदर्शन: कई बेंचमार्क में, फी-4 ने अपने शिक्षक मॉडल GPT-4o को भी पीछे छोड़ दिया, यह साबित करता है कि इसका प्रदर्शन केवल ज्ञान आसवन नहीं है।
- अन्य मॉडलों के साथ तुलना: फी-4 ने कई बेंचमार्क में Llama-3.1-405B को भी पीछे छोड़ दिया, यह साबित करता है कि इसका समग्र प्रदर्शन बहुत मजबूत है।
फी-4 की अनुप्रयोग संभावनाएं
फी-4, एक छोटे भाषा मॉडल के रूप में, जिसे जटिल गणितीय तर्क के लिए डिज़ाइन किया गया है, में व्यापक अनुप्रयोग संभावनाएं हैं। इसका उपयोग निम्नलिखित क्षेत्रों में किया जा सकता है:
- शिक्षा: गणितीय ट्यूटरिंग टूल के रूप में छात्रों को गणित की समस्याओं को हल करने में मदद करने और व्यक्तिगत सीखने के अनुभव प्रदान करने के लिए।
- अनुसंधान: अनुसंधान उपकरण के रूप में शोधकर्ताओं को गणितीय मॉडलिंग और डेटा विश्लेषण करने में मदद करने के लिए।
- इंजीनियरिंग: इंजीनियरिंग उपकरण के रूप में इंजीनियरों को डिजाइन और विश्लेषण करने में मदद करने के लिए।
- वित्त: वित्तीय उपकरण के रूप में वित्तीय विश्लेषकों को जोखिम मूल्यांकन और निवेश निर्णय लेने में मदद करने के लिए।
- अन्य क्षेत्र: अन्य क्षेत्रों में भी उपयोग किया जा सकता है जहां जटिल गणितीय तर्क की आवश्यकता होती है, जैसे कि चिकित्सा, रसद और विनिर्माण।
निष्कर्ष
माइक्रोसॉफ्ट फी-4 का उद्भव गणितीय तर्क के क्षेत्र में छोटे भाषा मॉडलों में एक महत्वपूर्ण प्रगति का प्रतीक है। इसकी अद्वितीय डेटा प्रशिक्षण रणनीति और पोस्ट-ट्रेनिंग विधियों ने इसे अपने समकक्षों और बड़े मॉडलों से बेहतर प्रदर्शन करने में सक्षम बनाया है, और भविष्य के एआई विकास के लिए नए विचार प्रस्तुत किए हैं। Hugging Face पर फी-4 के ओपन सोर्स के साथ, यह माना जाता है कि यह अधिक शोधकर्ताओं और डेवलपर्स के लिए सुविधा प्रदान करेगा, और विभिन्न क्षेत्रों में एआई तकनीक के अनुप्रयोग को बढ़ावा देगा।