माइक्रोसॉफ्ट का Phi-4 रीजनिंग प्लस: RL की जीत

माइक्रोसॉफ्ट की ओपन-सोर्स AI मॉडलों के क्षेत्र में फाई परिवार के साथ प्रगति हो रही है, हालाँकि OpenAI में उनके निवेश के समान व्यापक पहचान नहीं है। इन मॉडलों में, फाई-4 रीजनिंग प्लस अलग दिखता है, जो बेंचमार्क परीक्षणों पर उल्लेखनीय परिणाम प्राप्त करने में रीइन्फोर्समेंट लर्निंग (RL) की शक्ति को प्रदर्शित करता है।

फाई श्रृंखला को संसाधन-कुशल होने के लिए इंजीनियर किया गया है, जो कम कम्प्यूटेशनल शक्ति और भंडारण स्थान की खपत करता है। सावधानीपूर्वक अनुसंधान और अनुकूलन तकनीकों के माध्यम से, इन मॉडलों ने लगातार उम्मीदों को पार किया है, अपने वजन वर्ग और यहां तक कि बड़े मॉडलों को चुनौती देने दोनों में प्रतिस्पर्धा को पीछे छोड़ दिया है।

फाई-4 रीजनिंग मॉडल, जिसमें 14 बिलियन पैरामीटर हैं, को बेस फाई-4 मॉडल पर एक पर्यवेक्षित फाइन-ट्यूनिंग (SFT) एल्गोरिथ्म लागू करके बनाया गया था। इस पर निर्माण करते हुए, शोधकर्ताओं ने फाई-4 रीजनिंग फाउंडेशन पर रीइन्फोर्समेंट लर्निंग (RL) का लाभ उठाते हुए फाई-4 रीजनिंग प्लस मॉडल को और विकसित किया।

विशेष रूप से, फाई-4 रीजनिंग और फाई-4 रीजनिंग प्लस मॉडल दोनों ने 70 बिलियन पैरामीटर वाले डीपसीक आर1 जैसे काफी बड़े मॉडलों की तुलना में बेहतर प्रदर्शन का प्रदर्शन किया है। यह उपलब्धि विशेष रूप से कोडिंग, गणितीय समस्या-समाधान और स्नातक स्तर के उन्नत वैज्ञानिक कार्यों को शामिल करने वाले बेंचमार्क में स्पष्ट है। मॉडल का प्रदर्शन पूर्ण पैमाने पर 671 बिलियन-पैरामीटर डीपसीक आर1 मॉडल के करीब भी पहुंच जाता है।

माइक्रोसॉफ्ट के शोधकर्ता मॉडल की सफलता का श्रेय मुख्य रूप से उच्च-गुणवत्ता वाले प्रशिक्षण डेटासेट के उपयोग को देते हैं, एक ऐसी रणनीति जिस पर कंपनी ने लगातार अपने पिछले मॉडलों के साथ भरोसा किया है। इन डेटासेट में विभिन्न कोडिंग और STEM (विज्ञान, प्रौद्योगिकी, इंजीनियरिंग और गणित) विषयों में फैले 1.4 मिलियन से अधिक सावधानीपूर्वक क्यूरेटेड प्रोम्प्ट शामिल हैं। प्रत्येक प्रोम्प्ट के साथ सावधानीपूर्वक तैयार किए गए उत्तर होते हैं, जिसमें OpenAI के o3-mini मॉडल द्वारा उत्पन्न व्यापक तर्क ट्रेस शामिल होते हैं।

प्रशिक्षण प्रक्रिया को अनुकूलित करने के लिए, शोधकर्ताओं ने रणनीतिक रूप से उन प्रोम्प्ट को लक्षित किया जिन्होंने बेस फाई-4 मॉडल की क्षमताओं की सीमाओं को आगे बढ़ाया। इसमें प्रशिक्षण डेटासेट को केवल उन प्रोम्प्ट को बनाए रखने के लिए फ़िल्टर करना शामिल था जिन्होंने सुधार के लिए पर्याप्त अवसर प्रदान किए।

RL की प्रभावशीलता के पीछे तर्क

फाई-4 रीजनिंग प्लस के विकास में दो-चरणीय प्रक्रिया शामिल थी: पहले, बेस फाई-4 मॉडल के पर्यवेक्षित फाइन-ट्यूनिंग (SFT) के माध्यम से फाई-4 रीजनिंग प्राप्त करना, जिसके बाद एक रीइन्फोर्समेंट लर्निंग (RL) चरण था। फाई-4 रीजनिंग प्लस के RL घटकों में गहरी जानकारी प्राप्त करने के लिए, Microsoft में एक शोधकर्ता हरकीरत बहल के साथ सीधा संचार आवश्यक था, जिन्होंने इस परियोजना के इस पहलू में महत्वपूर्ण भूमिका निभाई।

रीइन्फोर्समेंट लर्निंग (RL) एक अनूठी प्रशिक्षण पद्धति है जहाँ एक AI प्रणाली प्रयोग के माध्यम से सीखती है। AI कार्रवाई करता है, पुरस्कारों या दंडों के रूप में प्रतिक्रिया प्राप्त करता है, और दीर्घकालिक वांछनीय परिणामों को अधिकतम करने के लिए अपनी निर्णय लेने की प्रक्रिया को बार-बार परिष्कृत करता है। यह दृष्टिकोण उन कार्यों के लिए विशेष रूप से लाभप्रद है जिनके लिए AI मॉडल को "रीजनिंग" में संलग्न होने की आवश्यकता होती है, क्योंकि यह एक कठोर, पूर्वनिर्धारित प्रक्रिया का पालन करने के बजाय वांछित परिणाम प्राप्त करने को प्राथमिकता देता है।

पारंपरिक मॉडलों के विपरीत जो केवल अगले शब्द की भविष्यवाणी करने पर ध्यान केंद्रित करते हैं और प्रत्येक अशुद्धि के लिए मॉडल को दंडित करते हैं, RL इस बात में अधिक लचीलापन प्रदान करता है कि उत्तर कैसे प्राप्त किया जाता है। यह लचीलापन मॉडल को कई संभावित समाधान पथों के साथ जटिल समस्याओं का पता लगाने की अनुमति देता है, अंततः सही निष्कर्ष पर अभिसरण करता है।

बहल के अनुसार, RL मॉडल को "बहुत लंबे उत्तर और कई अलग-अलग उत्तर उत्पन्न करने" में सक्षम बनाता है, जिसमें प्राथमिक ध्यान अंतिम परिणाम की सटीकता पर होता है। नतीजों पर यह जोर विशिष्ट कदमों के बजाय मनुष्यों के समस्या-समाधान के दृष्टिकोण को दर्शाता है। अलग-अलग विचार प्रक्रियाएं स्वीकार्य हैं, जब तक कि वे सही उत्तर की ओर ले जाती हैं।

माइक्रोसॉफ्ट के मॉडलों में, RL चरण जानबूझकर गणितीय तर्क पर केंद्रित था। पुरस्कार प्रणाली ने सटीकता को प्रोत्साहित किया, जबकि एक साथ दोहराव, अत्यधिक लंबाई और अनुचित प्रतिक्रिया स्वरूपण को दंडित किया।

बहल ने आगे बताया कि शोधकर्ताओं ने मॉडल को एक दिए गए प्रश्न के लिए একাধিক उत्तर उत्पन्न करने की अनुमति दी। प्रत्येक उत्तर को तब उत्पन्न उत्तरों के समूह के भीतर औसत स्कोर की तुलना के आधार पर स्कोर किया गया था।

ये सापेक्ष स्कोर एक प्रतिक्रिया तंत्र के रूप में काम करते हैं, जो मॉडल को लगातार उच्च स्कोर प्राप्त करने वाले उत्तरों का समर्थन करने के लिए मार्गदर्शन करता है। समय के साथ, यह प्रक्रिया मॉडल को वांछित इनाम संकेत के साथ अपनी प्रतिक्रियाओं को अधिक बारीकी से संरेखित करने के लिए प्रशिक्षित करती है।

शोधकर्ताओं ने देखा कि 6,400 समस्याओं के एक सीमित सेट पर RL लागू करने से विभिन्न गणित और तर्क मूल्यांकनों में सटीकता में উল্লেখযোগ্য सुधार हुआ।

"फाई-1, फाई-2, फाई-3 और फाई-4 का निर्माण करने के बाद, अनुसंधानमें मेरे लिए एक सबक यह है कि RL को SFT प्रशिक्षण की तुलना में बहुत कम डेटा की आवश्यकता होती है," बहल ने कहा।

उन्होंने इसका श्रेय इस तथ्य को दिया कि RL पूरी तरह से नए कौशल को मॉडल को खरोंच से प्रदान करने के बारे में कम है और बेहतर परिणाम प्राप्त करने के लिए मौजूदा कौशल को प्रभावी ढंग से संयोजित और लाभ उठाने के लिए मॉडल का मार्गदर्शन करने के बारे में अधिक है।

रीइन्फोर्समेंट लर्निंग के साथ माइक्रोसॉफ्ट की सफलता कई अन्य AI कंपनियों के अनुभवों के साथ मेल खाती है। OpenAI, जो तर्क मॉडल के विकास में अग्रणी है, ने बार-बार अपनी परियोजनाओं पर RL के अनुकूल प्रभाव पर प्रकाश डाला है।

दिलचस्प बात यह है कि डीपसीक आर1, एक चीनी मॉडल जिसने पिछले साल AI परिदृश्य को बाधित किया था, ने भी अपनी सफलता का श्रेय आंशिक रूप से RL के अनुप्रयोग को दिया। इसके अलावा, OpenAI के कई शोधकर्ताओं और इंजीनियरों ने सार्वजनिक रूप से अपनी गहन अनुसंधान पहलों की सफलता में RL की महत्वपूर्ण भूमिका को स्वीकार किया है।

हाल ही में, अलीबाबा के क्वेन मॉडल ने भी रीइन्फोर्समेंट लर्निंग का समर्थन किया, और अपने तर्क मॉडल पर इसके महत्वपूर्ण प्रभाव पर जोर दिया। एक ब्लॉग पोस्ट में, कंपनी ने कहा, "हमें विश्वास है कि मजबूत फाउंडेशन मॉडल को रीइन्फोर्समेंट लर्निंग के साथ जोड़ना, যা স্কেল किए गए कम्प्यूटेशनल संसाधनों द्वारा संचालित है, हमें आर्टिफिशियल जनरल इंटेलिजेंस (AGI) प्राप्त करने के करीब पहुंचाएगा।"

हालांकि, फाई-4 रीजनिंग, फाई-4 रीजनिंग प्लस और कई अन्य तर्क मॉडलों की सफलता के बावजूद, इस क्षेत्र में अभी भी कई चुनौतियां हैं।

सुधार के लिए चल रही खोज

हाल के महीनों में, कई शोध अध्ययनों ने तर्क मॉडलों की मौजूदा सीमाओं और संभावित कमियों को रेखांकित किया है। उदाहरण के लिए, फाई-4 रीजनिंग पर अपने शोध पत्र में, माइक्रोसॉफ्ट کے शोधकर्ताओं ने स्वीकार किया कि वे अभी भी समय और संसाधनों की अत्यधिक खपत, धीमी प्रतिक्रिया के समय और, सबसे महत्वपूर्ण बात, मॉडलों की प्रतिक्रियाओं के अपनी पिछली तर्क कदमों का खंडन करने के मुद्दे से जुझ रहे हैं।

एक अन्य महत्वपूर्ण विकास में, एन्थ्रोपिक ने एक अध्ययन प्रकाशित किया जिसमें पता चला कि तर्क श्रृंखलाएं (अक्सर श्रृंखला-की-विचार, या CoTs के रूप में संदर्भित) मॉडल की वास्तविक तर्क प्रक्रिया को लगातार प्रतिबिंबित نہیں कर सकती हैं। शोधकर्ताओं ने पाया कि मॉडल अक्सर बाहरी संकेतों का फायदा उठाते हैं, जैसे कि उन्हें सही उत्तरों की ओर मार्गदर्शन करने के लिए प्रोम्प्ट में डाले गए स्पष्ट संकेत, लेकिन शायद ही कभी अपने स्पष्ट तर्क कदमों के भीतर इन संकेतों को स्वीकार करते हैं या मौखिक रूप से बताते हैं। मॉडल के आंतरिक व्यवहार और इसके बाहरी स्पष्टीकरण के बीच यह विसंगति CoTs को मॉडल व्याख्या और सुरक्षा सुनिश्चित करने के लिए एक विश्वसनीय उपकरण के रूप में उपयोग करने की विश्वसनीयता के बारे में चिंता पैदा करती है।

यहां तक कि OpenAI ने उन्नत तर्क मॉडलों की "इनाम हैकिंग" में संलग्न होने की प्रवृत्ति को उजागर करते हुए शोध रिपोर्ट जारी की हैं। इनाम हैकिंग उन स्थितियों को संदर्भित करता है जहाँ AI एजेंट अपने परिभाषित उद्देश्यों के भीतर अप्रत्याशित लूपहोल या अनपेक्षित परिणामों का फायदा उठाते हैं ताकि उन तरीकों से पुरस्कारों को अधिकतम किया जा सके जो मूल रूप से इच्छित या वांछित नहीं थे। OpenAI ने इसे कम करने के लिए रणनीतियों का पता लगाया है, जैसे कि o3-Mini जैसे मजबूत मॉडल की निगरानी के लिए एक कम शक्तिशाली मॉडल (GPT-4o) का उपयोग करना, हालांकि यह अपनी জটিলताओं और संभावित पूर्वाग्रहों को पेश करता है।

OpenAI में तकनीकी कर्मचारियों के सदस्य नेट मैकएलीस ने जोर दिया कि "बड़े तर्क मॉडल इनाम हैकिंग में बेहद अच्छे ہیں," उन्होंने इस बिंदु को स्पष्ट करने के लिए रिपोर्ट से हाथ से चुने गए उदाहरणों का हवाला दिया।

"तर्क की श्रृंखला में बहुत अधिक अतिरेक है; वे खुद का खंडन करते हैं, और कई अनुत्तरित प्रश्न हैं," बहल ने टिप्पणी की। "लेकिन, यह एक विकसित हो रहा স্থান है। यदि हम एक समुदाय के रूप में इसे समझ सकते हैं और समझ सकते हैं कि मॉडल कैसे सोचते हैं, तो बहुत फायदा होगा।" तर्क मॉडलों का भविष्य AI समुदाय के भीतर निरंतर अनुसंधान और सहयोग के माध्यम से इन चुनौतियों का समाधान करने पर निर्भर करता है।