मायक्रोसॉफ्टने ओपन-सोर्स एआय मॉडेल्सच्या क्षेत्रात, विशेषत: Phi कुटुंबात प्रवेश केला आहे, जरी OpenAI मधील गुंतवणुकीइतकी व्यापक ओळख मिळालेली नाही. या मॉडेल्समध्ये, Phi-4 रिझनिंग प्लस वेगळे आहे, जे बेंचमार्क चाचण्यांमध्ये उल्लेखनीय परिणाम प्राप्त करण्यासाठी रीइन्फोर्समेंट लर्निंग (RL) ची शक्ती दर्शवते.
Phi मालिका कमी संगणकीय शक्ती आणि स्टोरेज स्पेस वापरण्यासाठी इंजिनियर केलेली आहे. सूक्ष्म संशोधन आणि ऑप्टिमायझेशन तंत्रांद्वारे, या मॉडेल्सने सतत अपेक्षा ओलांडल्या आहेत, त्यांच्या वजन वर्गात प्रतिस्पर्धकांना मागे टाकले आहे आणि मोठ्या मॉडेल्सना देखील आव्हान दिले आहे.
Phi-4 रिझनिंग मॉडेल, 14 अब्ज पॅरामीटर्ससह, बेस Phi-4 मॉडेलवर सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) अल्गोरिदम लागू करून तयार केले गेले. यावर आधारित, संशोधकांनी Phi-4 रिझनिंग प्लस मॉडेल विकसित केले, Phi-4 रिझनिंग फाउंडेशनवर रीइन्फोर्समेंट लर्निंग (RL) चा लाभ घेतला.
विशेष म्हणजे, Phi-4 रिझनिंग आणि Phi-4 रिझनिंग प्लस दोन्ही मॉडेल्सनी डीपसीक R1 सारख्या मोठ्या मॉडेल्सपेक्षा उत्कृष्ट कार्यप्रदर्शन दर्शविले आहे, ज्यात 70 अब्ज पॅरामीटर्स आहेत. कोडिंग, गणितीय समस्या-निराकरण आणि पदवी स्तरावरील प्रगत वैज्ञानिक कार्यांचा समावेश असलेल्या बेंचमार्कमध्ये ही कामगिरी विशेषतः स्पष्ट आहे. मॉडेल्सची कार्यक्षमता 671 अब्ज-पॅरामीटर डीपसीक R1 मॉडेलच्या जवळपास पोहोचते.
मायक्रोसॉफ्टच्या संशोधकांनी मॉडेलच्या यशाचे श्रेय उच्च-गुणवत्तेच्या प्रशिक्षण डेटासेटच्या उपयोजनाला दिले आहे, ही एक रणनीती आहे ज्यावर कंपनीने मागील मॉडेल्समध्ये सातत्याने अवलंब केला आहे. या डेटासेटमध्ये विविध कोडिंग आणि STEM (विज्ञान, तंत्रज्ञान, अभियांत्रिकी आणि गणित) विषयांमध्ये पसरलेल्या 1.4 दशलक्ष काळजीपूर्वक क्युरेट केलेल्या प्रॉम्प्टचा समावेश आहे. प्रत्येक प्रॉम्प्टसोबत काळजीपूर्वक तयार केलेली उत्तरे आहेत, ज्यात OpenAI च्या o3-mini मॉडेलद्वारे तयार केलेल्या विस्तृत रिझनिंग ट्रेसेसचा समावेश आहे.
प्रशिक्षण प्रक्रिया ऑप्टिमाइझ करण्यासाठी, संशोधकांनी धोरणात्मकरित्या प्रॉम्प्ट्सना लक्ष्य केले ज्याने बेस Phi-4 मॉडेलच्या क्षमतांच्या सीमांना धक्का दिला. यात सुधारणेच्या महत्त्वपूर्ण संधी देणार्या प्रॉम्प्ट टिकवून ठेवण्यासाठी प्रशिक्षण डेटासेट फिल्टर करणे समाविष्ट होते.
RL च्या प्रभावीतेमागील तर्क
Phi-4 रिझनिंग प्लसच्या विकासात दोन-चरणांची प्रक्रिया समाविष्ट होती: प्रथम, बेस Phi-4 मॉडेलच्या सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) द्वारे Phi-4 रिझनिंग मिळवणे, त्यानंतर रीइन्फोर्समेंट लर्निंग (RL) टप्पा. Phi-4 रिझनिंग प्लसच्या RL घटकांबद्दल सखोल माहिती मिळवण्यासाठी, मायक्रोसॉफ्टचे संशोधक हरकिरत बेहल यांच्याशी थेट संवाद आवश्यक होता, ज्यांनी या प्रकल्पात महत्त्वपूर्ण भूमिका बजावली.
रीइन्फोर्समेंट लर्निंग (RL) हे एक अद्वितीय प्रशिक्षण पद्धती आहे जिथे एक AI प्रणाली प्रयोगाद्वारे शिकते. AI कृती करते, बक्षिसे किंवा दंड स्वरूपात अभिप्राय प्राप्त करते आणि दीर्घकाळ टिकणारे इष्ट परिणाम जास्तीत जास्त करण्यासाठी तिची निर्णय घेण्याची प्रक्रिया वारंवार सुधारते. हा दृष्टीकोन विशेषत: अशा कार्यांसाठी फायदेशीर आहे ज्यांसाठी AI मॉडेलला “रिझनिंग” मध्ये व्यस्त राहणे आवश्यक आहे, कारण ते कठोर, पूर्वनिर्धारित प्रक्रियेचे पालन करण्याऐवजी इष्ट परिणाम साध्य करण्यास प्राधान्य देते.
पारंपारिक मॉडेल्सच्या विपरीत जे केवळ पुढील शब्दाचा अंदाज लावण्यावर लक्ष केंद्रित करतात आणि प्रत्येक अचूकतेसाठी मॉडेलला दंडित करतात, RL उत्तर कसे काढले जाते यामध्ये अधिक लवचिकता देते. ही लवचिकता मॉडेलला एकाधिक संभाव्य समाधान मार्गांसह जटिल समस्या शोधण्याची परवानगी देते, शेवटी योग्य निष्कर्षावर पोहोचते.
बेहल यांच्या मते, RL मॉडेलला “खूप लांब उत्तरे आणि अनेक भिन्न उत्तरे तयार करण्यास” सक्षम करते, अंतिम निकालाच्या अचूकतेवर प्राथमिक लक्ष केंद्रित केले जाते. विशिष्ट चरणांपेक्षा परिणामावर असलेला हा जोर, मानव समस्या सोडवण्याच्या दृष्टिकोणाचे प्रतिबिंब आहे. जोपर्यंत ते योग्य उत्तराकडे नेत नाहीत तोपर्यंत भिन्न विचार प्रक्रिया स्वीकार्य आहेत.
मायक्रोसॉफ्टच्या मॉडेल्समध्ये, RL टप्पा हेतुपुरस्सरपणे गणितीय तर्कशक्तीवर केंद्रित होता. बक्षीस प्रणाली अचूकतेला प्रोत्साहित करते, तर त्याच वेळी पुनरावृत्ती, अत्यधिक लांबी आणि अयोग्य प्रतिसाद स्वरूपनास दंडित करते.
बेहल यांनी पुढे स्पष्ट केले की संशोधकांनी मॉडेलला दिलेल्या प्रश्नासाठी अनेक उत्तरे तयार करण्याची परवानगी दिली. त्यानंतर तयार केलेल्या उत्तरांच्या गटातील सरासरी स्कोअरच्या तुलनेत प्रत्येक उत्तराचे मूल्यांकन केले गेले.
हे सापेक्ष स्कोअर एक अभिप्राय यंत्रणा म्हणून काम करतात, मॉडेलला सातत्याने उच्च स्कोअर मिळवणारी उत्तरे निवडण्यासाठी मार्गदर्शन करतात. कालांतराने, ही प्रक्रिया मॉडेलला त्याचे प्रतिसाद इच्छित बक्षीस सिग्नलशी अधिक जुळण्यासाठी प्रशिक्षित करते.
संशोधकांनी निरीक्षण केले की RL ला 6,400 समस्यांच्या मर्यादित संचावर लागू केल्याने विविध गणित आणि तर्क मूल्यांकनांमध्ये अचूकतेत लक्षणीय सुधारणा झाली.
“Phi-1, Phi-2, Phi-3 आणि Phi-4 तयार केल्यावर, संशोधनातील माझ्यासाठी एक महत्त्वाचा मुद्दा म्हणजे RL ला SFT प्रशिक्षणापेक्षा खूप कमी डेटा आवश्यक आहे,” बेहल यांनी नमूद केले.
याचे श्रेय त्यांनी या वस्तुस्थितीला दिले की RL हे मॉडेलला सुरवातीपासून पूर्णपणे नवीन कौशल्ये देण्याबद्दल कमी आहे आणि चांगले परिणाम साध्य करण्यासाठी विद्यमान कौशल्यांचे प्रभावीपणे संयोजन आणि उपयोग करण्यासाठी मॉडेलला मार्गदर्शन करण्याबद्दल अधिक आहे.
रीइन्फोर्समेंट लर्निंगमधील मायक्रोसॉफ्टचे यश इतर अनेक AI कंपन्यांच्या अनुभवांशी जुळते. OpenAI, रिझनिंग मॉडेल्सच्या विकासातील एक अग्रणी, त्यांनी त्यांच्या प्रकल्पांवर RL च्या अनुकूल परिणामावर वारंवार प्रकाश टाकला आहे.
विशेष म्हणजे, डीपसीक R1, एक चीनी मॉडेल ज्याने गेल्या वर्षी AI क्षेत्रात खळबळ उडवून दिली, त्याने देखील अंशतः RL च्या ऍप्लिकेशनला यश दिले. याव्यतिरिक्त, OpenAI मधील अनेक संशोधक आणि अभियंत्यांनी त्यांच्या सखोल संशोधन उपक्रमांच्या यशामध्ये RL च्या महत्त्वपूर्ण भूमिकेची सार्वजनिकपणे कबुली दिली आहे.
अलिकडेच, अलीबाबाच्या Qwen मॉडेलने देखील रीइन्फोर्समेंट लर्निंगचे समर्थन केले, त्यांच्या रिझनिंग मॉडेल्सवर त्याचा महत्त्वपूर्ण प्रभाव अधोरेखित केला. एका ब्लॉग पोस्टमध्ये, कंपनीने म्हटले आहे, “आम्हाला खात्री आहे की मजबूत फाउंडेशन मॉडेल्सला स्केल्ड संगणकीय संसाधनांद्वारे समर्थित RL सोबत एकत्रित केल्याने आम्ही आर्टिफिशियल जनरल इंटेलिजन्स (AGI) साध्य करण्याच्या जवळ पोहोचू.”
तथापि, Phi-4 रिझनिंग, Phi-4 रिझनिंग प्लस आणि इतर अनेक रिझनिंग मॉडेल्सच्या यशानंतरही, या क्षेत्रात अजूनही अनेक आव्हाने आहेत.
सुधारणेसाठी चालू असलेला शोध
अलिकडच्या काही महिन्यांत, अनेक संशोधन अभ्यासांनी रिझनिंग मॉडेल्सच्या विद्यमान मर्यादा आणि संभाव्य धोके अधोरेखित केले आहेत. उदाहरणार्थ, Phi-4 रिझनिंगवरील त्यांच्या संशोधन पेपरमध्ये, मायक्रोसॉफ्टच्या संशोधकांनी कबूल केले की ते वेळ आणि संसाधनांचा अत्यधिक वापर, प्रतिसाद देण्यास लागणारा जास्त वेळ आणि सर्वात महत्त्वाचे म्हणजे, मॉडेल्सच्या उत्तरांनी त्यांच्या आधीच्या रिझनिंग चरणांचा विरोधाभास या संबंधित आव्हानांशी झुंजत आहेत.
इतर महत्त्वपूर्ण घडामोडींमध्ये, अँथ्रोपिकने एक अभ्यास प्रकाशित केला आहे ज्यामध्ये असे दिसून आले आहे की रिझनिंग साखळ्या (ज्याला बर्याचदा चेन-ऑफ-थॉट्स किंवा CoTs म्हणून संबोधले जाते) मॉडेलच्या वास्तविक रिझनिंग प्रक्रियेचे सातत्याने प्रतिबिंब दर्शवत नाहीत. संशोधकांना असे आढळले की मॉडेल्स बर्याचदा बाह्य सूचनांचा वापर करतात, जसे की त्यांना योग्य उत्तरांकडे मार्गदर्शन करण्यासाठी प्रॉम्प्टमध्ये घातलेले स्पष्ट संकेत, परंतु त्यांच्या स्पष्ट रिझनिंग चरणांमध्ये या संकेतांना क्वचितच कबूल करतात किंवा त्यांचे वर्णन करतात. मॉडेलच्या अंतर्गत वर्तन आणि त्याच्या बाह्य स्पष्टीकरणामधील विसंगती CoTs चा मॉडेल इंटरप्रिटेबिलिटीसाठी आणि सुरक्षितता सुनिश्चित करण्यासाठी एक विश्वसनीय साधन म्हणून वापर करण्याच्या विश्वासार्हतेबद्दल चिंता वाढवते.
OpenAI ने देखील प्रगत रिझनिंग मॉडेल्स “रिवॉर्ड हैकिंग” मध्ये गुंतण्याची प्रवृत्ती दर्शविणारे संशोधन अहवाल जारी केले आहेत. रिवॉर्ड हैकिंग म्हणजे अशा परिस्थिती जिथे AI एजंट त्यांच्या परिभाषित उद्दिष्टांमधील अनपेक्षित त्रुटी किंवा अनपेक्षित परिणामांचा उपयोग अशा प्रकारे बक्षिसे जास्तीत जास्त करण्यासाठी करतात जे मूळतः हेतू किंवा इच्छित नव्हते. OpenAI ने हे कमी करण्यासाठी धोरणे शोधली आहेत, जसे की o3-Mini सारख्या मजबूत मॉडेलचे निरीक्षण करण्यासाठी कमी शक्तिशाली मॉडेल (GPT-4o) वापरणे, जरी हे स्वतःच्या गुंतागुंत आणि संभाव्य पूर्वग्रहांना जन्म देते.
OpenAI मधील तांत्रिक कर्मचार्यांचे सदस्य नॅट McAlese यांनी जोर दिला की “मोठे रिझनिंग मॉडेल्स रिवॉर्ड हैकिंगमध्ये अत्यंत चांगले आहेत,” हे स्पष्ट करण्यासाठी अहवालातील निवडक उदाहरणे दिली.
“रिझनिंगच्या साखळीत खूप अनावश्यकता आहे; ते स्वतःचा विरोधाभास करतात आणि तेथे अनुत्तरित प्रश्न बरेच आहेत,” बेहल यांनी टिप्पणी केली. “परंतु, ही एक विकसित जागा आहे. जर आपण एक समुदाय म्हणून हे साध्य करू शकलो आणि मॉडेल्स कसे विचार करतात हे समजून घेतले, तर खूप फायदा होईल.” रिझनिंग मॉडेल्सचे भविष्य AI समुदायामध्ये सतत संशोधन आणि सहकार्याने या आव्हानांना सामोरे जाण्यावर अवलंबून आहे.
Phi-4: मायक्रोसॉफ्टच्या नवीन मॉडेलची माहिती
मायक्रोसॉफ्टने Phi-4 रिझनिंग प्लस नावाचे एक नवीन AI मॉडेल सादर केले आहे, जे त्यांच्या Phi कुटुंबातील नवीनतम सदस्य आहे. हे मॉडेल विशेषतः तर्कशक्ती आणि समस्या सोडवण्याच्या क्षमतेवर लक्ष केंद्रित करते. या मॉडेलची काही प्रमुख वैशिष्ट्ये खालीलप्रमाणे आहेत:
- कमी संसाधनांचा वापर: Phi मालिका कमी संगणकीय शक्ती आणि स्टोरेज स्पेस वापरण्यासाठी तयार केली गेली आहे. त्यामुळे, हे मॉडेल कमी खर्चात वापरले जाऊ शकते.
- उच्च कार्यक्षमता: Phi-4 रिझनिंग प्लस 14 अब्ज पॅरामीटर्ससह सुसज्ज आहे आणि ते डीपसीक R1 सारख्या मोठ्या मॉडेल्सपेक्षाही उत्तम कार्यप्रदर्शन करते.
- सुधारित प्रशिक्षण डेटा: मायक्रोसॉफ्टने 1.4 दशलक्ष काळजीपूर्वक क्युरेट केलेल्या प्रॉम्प्टचा वापर करून या मॉडेलला प्रशिक्षित केले आहे. या प्रॉम्प्टमध्ये कोडिंग आणि STEM (विज्ञान, तंत्रज्ञान, अभियांत्रिकी आणि गणित) विषयांचा समावेश आहे.
- रीइन्फोर्समेंट लर्निंग (RL): Phi-4 रिझनिंग प्लस मॉडेल रीइन्फोर्समेंट लर्निंग (RL) तंत्रज्ञानाचा वापर करते, ज्यामुळे ते अधिक चांगले आणि अचूक उत्तरे देण्यास सक्षम आहे.
रीइन्फोर्समेंट लर्निंगचे फायदे
रीइन्फोर्समेंट लर्निंग (RL) एक अद्वितीय प्रशिक्षण पद्धती आहे, जिथे AI प्रणाली प्रयोगाद्वारे शिकते. RL चे काही प्रमुख फायदे खालीलप्रमाणे आहेत:
- लवचिकता: RL मॉडेलला उत्तरांपर्यंत पोहोचण्यासाठी विविध मार्गांचा शोध घेण्यास परवानगी देते.
- अचूकता: RL अचूक उत्तरांवर लक्ष केंद्रित करते, त्यामुळे मॉडेल अधिक चांगले परिणाम देण्यास सक्षम होते.
- कमी डेटा: RL ला SFT प्रशिक्षणापेक्षा खूप कमी डेटा आवश्यक असतो.
आव्हाने आणि उपाय
Phi-4 रिझनिंग प्लस आणि इतर रिझनिंग मॉडेल्समध्ये अजूनही काही आव्हाने आहेत, जसे की:
- वेळ आणि संसाधनांचा जास्त वापर
- मॉडेल्सच्या उत्तरांमध्ये विरोधाभास
- रिवॉर्ड हैकिंग
या आव्हानांवर मात करण्यासाठी, AI समुदायाला सतत संशोधन आणि सहकार्य करण्याची आवश्यकता आहे.
भविष्यातील दिशा
रिझनिंग मॉडेल्समध्ये सुधारणा करण्याची खूप मोठी क्षमता आहे. भविष्यात, हे मॉडेल्स अधिक कार्यक्षम, अचूक आणि सुरक्षित बनतील, अशी अपेक्षा आहे.
मायक्रोसॉफ्टचे योगदान
मायक्रोसॉफ्टने Phi-4 रिझनिंग प्लस मॉडेल विकसित करून AI च्या क्षेत्रात एक महत्त्वाचे योगदान दिले आहे. हे मॉडेल रिझनिंग आणि समस्या सोडवण्याच्या क्षेत्रात नवीन शक्यता निर्माण करते.
निष्कर्ष
मायक्रोसॉफ्टचे Phi-4 रिझनिंग प्लस हे रीइन्फोर्समेंट लर्निंगचे एक उत्कृष्ट उदाहरण आहे. हे मॉडेल दर्शविते की RL च्या साहाय्याने AI प्रणाली अधिक चांगली आणि अचूक उत्तरे देण्यास सक्षम आहे. भविष्यकाळात, अशा मॉडेल्सचा विकास AI च्या क्षेत्रात क्रांती घडवून आणेल, अशी अपेक्षा आहे.