जबकि डीपसीक-आर2 (DeepSeek-R2) अभी भी दूर है, माइक्रोसॉफ्ट के छोटे मॉडल तरंगें पैदा कर रहे हैं, जो आश्चर्यजनक रूप से छोटे डेटासेट पर प्रशिक्षित प्रभावशाली तर्क क्षमताओं का प्रदर्शन कर रहे हैं।
फाई-4 (Phi-4) तर्क मॉडल का उदय
एआई (AI) दुनिया वर्तमान में तर्क मॉडल से मोहित है, और माइक्रोसॉफ्ट ने हाल ही में अनुमान मॉडल के फाई-4 परिवार को पेश किया है। इसमें फाई-4-रीजनिंग (Phi-4-reasoning), फाई-4-रीजनिंग-प्लस (Phi-4-reasoning-plus), और फाई-4-मिनी-रीजनिंग (Phi-4-mini-reasoning) शामिल हैं। विशेष रूप से उल्लेखनीय बात यह है कि इनमें से सबसे बड़ा मॉडल भी, जिसमें केवल 14 बिलियन पैरामीटर हैं, उच्च-प्रदर्शन वाले लैपटॉप पर आसानी से चल सकता है। इसके अलावा, 3.8 बिलियन पैरामीटर वाला फाई-4-मिनी-रीजनिंग गणितीय तर्क में 8 बिलियन पैरामीटर वाले डीपसीक-आर1 (DeepSeek-R1) डिस्टिल्ड मॉडल से आगे निकल जाता है, जो अनुमान कार्यों में छोटे मॉडल की शक्ति को उजागर करता है।
अप्रैल में दूसरी पीढ़ी के डीपसीक-आर2 तर्क मॉडल की रिलीज का इंतजार करने के बजाय, माइक्रोसॉफ्ट ने फाई-4 तर्क मॉडल की एक नई श्रृंखला का अनावरण किया। ये मॉडल गणितीय तर्क में असाधारण प्रदर्शन प्रदर्शित करते हैं, फाई-4-मिनी-रीजनिंग में छोटे पैरामीटर पैमाने होने के बावजूद डीपसीक-आर1 डिस्टिल्ड मॉडल से आगे निकल जाते हैं।
अहमद अवादल्लाह (Ahmed Awadallah), पार्टनर रिसर्च मैनेजर, माइक्रोसॉफ्ट एआई फ्रंटियर्स प्रयोगशाला (Microsoft AI Frontiers laboratory) में, ने फाई-4-रीजनिंग (Phi-4-reasoning) का वर्णन किया और नए मॉडल की विशेषताओं का सारांश दिया।
- मॉडल को सुपरवाइज्ड फाइन-ट्यूनिंग (Supervised Fine-tuning) (सावधानीपूर्वक चयनित तर्क उदाहरण डेटासेट का उपयोग करके) औररीइन्फोर्समेंट लर्निंग (Reinforcement Learning) के साथ प्रशिक्षित किया जाता है।
- यह अनुमान बेंचमार्क में अच्छा प्रदर्शन करता है और डीपसीक आर1 जैसे बड़े शीर्ष मॉडल के बराबर हो सकता है।
- यह नए परीक्षणों (जैसे एआईएमई 2025, एचएमएमटी) पर दृढ़ता से प्रदर्शन करना जारी रखता है।
- तर्क क्षमता में मजबूत हस्तांतरणीयता/सामान्यीकरण क्षमता है, यहां तक कि केवल पर्यवेक्षित ठीक ट्यूनिंग के बाद, यह नए कार्यों (जैसे के-एसएटी, गणितीय समीकरण समाधान, शेड्यूलिंग, आदि) के अनुकूल हो सकता है।
- सामान्य क्षमताओं (जैसे निर्देश समझ और निष्पादन) को बनाए रखता है और बहुत सुधार करता है।
उन्होंने कहा कि फाई-4 में अभी भी कई पहलू हैं जिन्हें सुधारने की आवश्यकता है, खासकर संदर्भ लंबाई, एन्कोडिंग क्षमता और टूल एकीकरण में।
मॉडल के अलावा, माइक्रोसॉफ्ट ने एक विस्तृत तकनीकी रिपोर्ट भी साझा की जो मॉडल के प्रशिक्षण और मूल्यांकन प्रक्रिया का गहन विश्लेषण प्रदान करती है।
एक्स (X) पर, दिमित्रिस पापािलियोपोलोस (Dimitris Papailiopoulos), प्रमुख शोधकर्ता, माइक्रोसॉफ्ट रिसर्च एआई फ्रंटियर्स प्रयोगशाला (Microsoft Research AI Frontiers laboratory) और विस्कॉन्सिन विश्वविद्यालय (University of Wisconsin) में एसोसिएट प्रोफेसर, ने फाई-4 तर्क मॉडल के बारे में अधिक जानकारी दी।
उनका मानना है कि फाई-4-रीजनिंग पूरी तरह से स्नातक स्तर पर पहुंच गया है और इसे स्थानीय पीसी पर चलाया जा सकता है।
यह एआई (AI) के विकास के लिए उनकी उम्मीदों से अधिक है।
नए मॉडल में कुछ पैरामीटर हैं लेकिन मजबूत प्रदर्शन है।
एक प्रदर्शन पावरहाउस
अपने मामूली आकार के बावजूद, यह मॉडल एआईएमई (AIME), एचएमएमटी (HMMT) और ओमनीमैथ (OmniMath) जैसे गणित बेंचमार्क में उत्कृष्ट प्रदर्शन करता है। यह क्यूडब्ल्यूक्यू-32बी (QwQ-32B), आर1-70बी (R1-70B), और आर1 जैसे बड़े ओपन-वेट मॉडल और ओ1-मिनी (o1-mini) और सोननेट 3.7 (sonnet 3.7) जैसे क्लोज्ड मॉडल के बराबर या उससे बेहतर प्रदर्शन करता है।
यह मॉडल आकार में छोटा है और उच्च-प्रदर्शन वाले लैपटॉप पर आसानी से चलाने के लिए उपयुक्त है।
इसके साथ ही, यह कई पहेलियों को हल करने में सक्षम है जिन्हें बड़े गैर-तर्क मॉडल और कुछ तर्क मॉडल भी हल नहीं कर सकते हैं।
इसने दिमित्रिसइवल (DimitrisEval) टेस्ट भी पास किया!
आश्चर्यजनक रूप से, तर्क एक सही मायने में हस्तांतरणीय ‘मेटा-स्किल’ (meta-skill) प्रतीत होता है जिसे पर्यवेक्षित ठीक ट्यूनिंग एसएफटी (SFT) के माध्यम से भी सीखा जा सकता है!
सबूत 1: गैर-तर्क कार्यों पर विशेष प्रशिक्षण के बिना भी, शोधकर्ताओं ने अभी भी आईएफेवल (IFEval), फ्लेनक्यूए (FlenQA) और आंतरिक फाईबेंच (PhiBench) (10 से अधिक अंकों की वृद्धि!) पर महत्वपूर्ण प्रदर्शन सुधार देखा।
इसके अलावा, एसएफटी (SFT) चरण के दौरान कोडिंग से संबंधित बहुत कम डेटा है (और आरएल (RL) चरण के दौरान बिल्कुल भी नहीं), लेकिन मॉडल इस संबंध में अभी भी अच्छा प्रदर्शन करता है।
इसके अलावा, दिमित्रिस पापािलियोपोलोस (Dimitris Papailiopoulos) ने खुलासा किया कि प्रोग्रामिंग बाद के संस्करणों के लिए एक महत्वपूर्ण फोकस है।
सबूत 2: कुछ विशिष्ट समस्याओं के मामले में जिन पर स्पष्ट रूप से प्रशिक्षित नहीं किया गया था (या तो एसएफटी (SFT) या आरएल (RL) चरण), जैसे कि ट्रैवलिंग सेल्समैन प्रॉब्लम (traveling salesman problem), भूलभुलैया समाधान (maze solving), के-एसएटी (k-SAT), बाध्य योजना (constrained planning), आदि, मॉडल इन कार्यों में बहुत अच्छा प्रदर्शन करता है!
और फाई-4 (Phi-4) (और यहां तक कि जीपीटी-4 (GPT-4)) ऐसा नहीं कर सकता।
यह पूरी तरह से दर्शाता है कि तर्क क्षमता को वास्तव में एक कौशल के रूप में स्थानांतरित किया जा सकता है!
सुदृढीकरण सीखने के एक बहुत छोटे दौर के बाद (एसएफटी (SFT) के लिए 1.4 मिलियन उदाहरणों की तुलना में केवल 6,000 नमूनों का उपयोग करके), मॉडल का तर्क तंत्र ‘लॉक’ (locked) प्रतीत होता है।
इसने दिमित्रिस पापािलियोपोलोस (Dimitris Papailiopoulos) को विशेष रूप से चौंका दिया।
उन्हें लगता है कि ऐसा है जैसे सुदृढीकरण सीखने ने मॉडल को ‘अपनी भाषा’ में तर्क करने के लिए सिखाया है, जिससे एआईएमई (AIME) और एचएमएमटी (HMMT) पर सटीकता लगभग 10% बढ़ जाती है, और कठिन समस्याओं में औसत उत्तर की लंबाई 50% बढ़ जाती है।
सुदृढीकरण सीखना वास्तव में प्रभावी है!!
तर्क तंत्र के ‘लॉक’ होने की घटना आमतौर पर मॉडल के आउटपुट वितरण को अधिक केंद्रित और सटीकता को भी अधिक बनाती है।
सुदृढीकरण सीखने से मॉडल की क्षमताओं में काफी सुधार हो सकता है, इस तथ्य को माइक्रोसॉफ्ट के पिछले शोध में भी दर्शाया गया है।
सुदृढीकरण सीखने के चरण में, नए मॉडल को डेटा के लिए विशेष रूप से अनुकूलित भी नहीं किया गया था: 6,000 प्रश्नों को केवल डेटासेट के एक बड़े चयन से यादृच्छिक रूप से चुना गया था।
तो माइक्रोसॉफ्ट ने अधिक सुदृढीकरण सीखने का प्रशिक्षण क्यों नहीं आयोजित किया?
क्योंकि मॉडल ने उन प्रश्नों के उत्तर दिए जो 32k संदर्भ लंबाई से अधिक थे (वह लंबाई जिस पर मॉडल को प्रशिक्षित नहीं किया गया था), वे इसे केवल काट सकते थे।
इसके अलावा, समानांतर तर्क गणनाओं (जैसे Maj@N) की मदद से, नए तर्क मॉडल ने एआईएमई 2025 (AIME 2025) पर लगभग प्रदर्शन सीमा तक पहुंच गया है, और यहां तक कि अपने शिक्षक मॉडल (o3-mini) के पास@1 प्रदर्शन को भी पार कर गया है।
और फरवरी 2025 से पहले सभी डेटा संग्रह पूरा कर लिया, और इसलिए एचएमएमटी (HMMT) है।
अन्य कार्यों में, शोधकर्ताओं ने ‘शिक्षक को पार करने’ की घटना भी देखी है, जैसे कि ओमनीमैथ (OmniMath) और कैलेंडर प्लानिंग (Calendar Planning) कार्य।
एसएफटी (SFT) चरण में त्वरित डिज़ाइन, बाद की सुदृढीकरण सीखने की प्रक्रिया के साथ मिलकर, मॉडल को ‘स्वयं सुधार’ करने की क्षमता प्रदान करती प्रतीत होती है, जो शिक्षक मॉडल द्वारा प्रदान किए गए ज्ञान के दायरे से अधिक है।
नीचे दिए गए चित्र में, मैजेंटा (magenta) o3-मिनी (o3-mini) का प्रतिनिधित्व करता है और हरा (green) फाई (Phi) का प्रतिनिधित्व करता है।
एक दिलचस्प घटना यह है कि: प्रतिक्रिया लंबाई के साथ लंबे पाठ शीर्ष 25% में अक्सर गलत उत्तरों के साथ दृढ़ता से सहसंबंधित होते हैं!
हालांकि, दूसरी ओर, अधिकांश मूल्यांकनों में, समग्र औसत उत्तर लंबाई अधिक होती है और सटीकता अधिक होती है।
दूसरे शब्दों में, परीक्षण के दौरान कंप्यूटिंग संसाधनों को बढ़ाने से मदद मिलती है, लेकिन मॉडल ‘अटक’ जाने पर ‘उलझन’ में भी पड़ जाता है।
मॉडल की सीमाओं के संबंध में, कुछ ऐसी चीजें भी हैं जिन पर ध्यान देना चाहिए:
- 32k से अधिक संदर्भ लंबाई को संभालने की क्षमता का पूरी तरह से विस्तार या परीक्षण नहीं किया गया है।
- मॉडल सरल समस्याओं से निपटने के दौरान ‘अधिक सोचने’ के लिए प्रवृत्त होता है, और स्व-मूल्यांकन में बहुत अधिक शाब्दिक लग सकता है।
- मल्टी-टर्न संवादों की क्षमता का व्यापक रूप से परीक्षण नहीं किया गया है।
निश्चित रूप से, खोजने के लिए और भी ‘अंधे धब्बे’ हैं, लेकिन कुल मिलाकर, शोध टीम को लगता है कि वे सही रास्ते पर हैं!
प्रशिक्षण आश्चर्य
सूरिया गुनासेकर (Suriya Gunasekar), प्रिंसिपल रिसर्च मैनेजर, माइक्रोसॉफ्ट रिसर्च (Microsoft Research) में और फाई श्रृंखला के मॉडल विकसित करने के लिए जिम्मेदार ‘एजीआई (AGI) फिजिक्स’ टीम से संबंधित, ने काम के मूल सिद्धांतों को पेश करने पर ध्यान केंद्रित किया।
इस बार, माइक्रोसॉफ्ट फाई (Microsoft Phi) टीम ने पोस्ट-ट्रेनिंग चरण पर ध्यान केंद्रित किया और फाई-4-रीजनिंग (Phi-4-reasoning) (केवल एसएफटी (SFT) का उपयोग करके) और फाई-4-रीजनिंग-प्लस (Phi-4-reasoning-plus) (एसएफटी (SFT)+ आरएल (RL) की थोड़ी मात्रा) लॉन्च किया।
दोनों 14B मॉडल हैं जिन्होंने तर्क और सामान्य कार्य बेंचमार्क में मजबूत क्षमताओं का प्रदर्शन किया है।
इस काम का मूल भाग प्रॉम्प्ट चयन और हस्तांतरणीय, स्व-सुधार तर्क कौशल के प्रयोगात्मक अन्वेषण में निहित है।
प्रशिक्षण प्रक्रिया के दौरान दो आश्चर्यजनक खोजें हुईं:
सबसे पहले, जब तक कुछ डोमेन-प्रशिक्षित लंबी-श्रृंखला तर्क (CoT) प्रक्षेपवक्र का उपयोग किया जाता है, फाई-4 शेड्यूलिंग (scheduling), भूलभुलैया समाधान (दृश्य इनपुट के बिना), आईएफेवल (IFEval), फ्लेनक्यूए (FlenQA), केआईटीएबी (KITAB) (लुकअप-आधारित प्रश्न उत्तर), और आंतरिक फाईबेंच (PhiBench) जैसे कई कार्यों में महत्वपूर्ण प्रदर्शन सुधार प्राप्त कर सकता है;
दूसरा, यहां तक कि अगर केवल 6,000 गणितीय उदाहरणों का उपयोग न्यूनतम आरएल प्रशिक्षण के लिए किया जाता है, तो मॉडल के प्रदर्शन में कुछ बेंचमार्क में काफी सुधार होता है, जिसमें सबसे अधिक सुधार 10% तक पहुंच जाता है (लेकिन टोकन उपयोग लगभग 1.5 गुना बढ़ जाता है), और आरएल (RL) चरण के दौरान कौशल का क्रॉस-डोमेन हस्तांतरण भी देखा गया।
दूसरे शब्दों में, ओपनएआई (OpenAI) और गूगल (Google) जैसे प्रमुख प्रतियोगियों की तुलना में, माइक्रोसॉफ्ट फाई-4 तर्क श्रृंखला नई संभावनाओं का प्रदर्शन करती है: छोटे मॉडल उच्च गुणवत्ता वाले डेटा और परिष्कृत प्रशिक्षण रणनीतियों का उपयोग करके विशिष्ट कार्यों में बड़े मॉडल से मेल खा सकते हैं या उनसे भी आगे निकल सकते हैं।
मूल विधियाँ
तर्क मॉडल फाई-4-रीजनिंग (Phi-4-reasoning) में 14 बिलियन पैरामीटर हैं और यह जटिल तर्क कार्यों में दृढ़ता से प्रदर्शन करता है।
मॉडल पर्यवेक्षित ठीक ट्यूनिंग प्रशिक्षण के लिए फाई-4 पर आधारित है, सावधानीपूर्वक चयनित ‘सिखाने योग्य’ संकेतों के एक सेट का उपयोग करके जिनमें उपयुक्त जटिलता और विविधता दोनों हैं; प्रशिक्षण प्रक्रिया के दौरान ओ3-मिनी द्वारा उत्पन्न तर्क उदाहरणों का उपयोग संदर्भों के रूप में किया जाता है।
फाई-4-रीजनिंग (Phi-4-reasoning) विस्तृत तर्क श्रृंखलाएं उत्पन्न कर सकता है और तर्क प्रक्रिया के दौरान कंप्यूटिंग संसाधनों का पूरा उपयोग कर सकता है।
इसी आधार पर, माइक्रोसॉफ्ट ने आगे फाई-4-रीजनिंग-प्लस (Phi-4-reasoning-plus) विकसित किया।
इसे परिणाम-आधारित सुदृढीकरण सीखने के एक छोटे चरण के माध्यम से मूल मॉडल के आधार पर बढ़ाया गया है, और यह लंबी और अधिक शक्तिशाली तर्क श्रृंखलाएं उत्पन्न करता है।
अनुसंधान से पता चलता है कि एक अच्छी तरह से डिज़ाइन किया गया एसएफटी (SFT) डेटासेट तर्क भाषा मॉडल के प्रभाव में काफी सुधार कर सकता है, और सुदृढीकरण सीखना (आरएल (RL)) इस आधार पर इस सुधार को और बढ़ा सकता है।
एसएफटी (SFT) प्रयोगों में, यहां तक कि इस अपेक्षाकृत सरल पीढ़ी सेटिंग में भी, बीज समस्याओं का सावधानीपूर्वक चयन और सख्त फ़िल्टरिंग मॉडल की सफलता की कुंजी है।
उन्होंने पूरे प्रशिक्षण डेटा के सेट को एक सख्त डी-प्रदूषण प्रक्रिया के अधीन किया है ताकि यह सुनिश्चित किया जा सके कि इसमें ऐसा डेटा शामिल नहीं है जो व्यापक रूप से उपयोग किए जाने वाले तर्क या सामान्य बेंचमार्क प्रश्नों के साथ अत्यधिक ओवरलैप होता है, जिसमें कुछ बेंचमार्क शामिल हैं जिनका उल्लेख इस रिपोर्ट में नहीं किया गया है।
बेंचमार्क परीक्षणों की पूरी सूची जिन्हें डी-प्रदूषित किया गया है, इस प्रकार है:
- गणित और तर्क: एआईएमई-2024 (AIME-2024), MATH, जीपीक्यूए (GPQA), ओमनीमैथ (OmniMATH), जीएसएम8के (GSM8k)
- प्रोग्रामिंग: लाइवकोडबेंच (LiveCodeBench), कोडफोर्स (Codeforces), ह्यूमनइवल (HumanEval), एमबीपीपी (MBPP)
- प्रश्न उत्तर और सामान्य ज्ञान: सिंपलक्यूए (SimpleQA), ड्रॉप (DROP), एजीआईइवल (AGIEval), एआरसी-चैलेंज (ARC-Challenge), एआरसी-इज़ी (ARC-Easy), कॉमन्सेंसक्यूए (CommonsenseQA), ओपनबुकक्यूए (OpenBookQA), पीआईक्यूए (PIQA), विनो ग्रांडे (WinoGrande)
- अन्य मूल्यांकन कार्य: एसडब्ल्यूई-बेंच वेरिफाइड (SWE-Bench Verified), एरेनाहार्ड (ArenaHard), एमटी-बेंच (MT-Bench), फाईबेंच (PhiBench)
14 बिलियन पैरामीटर वाले फाई-4 मॉडल के सुपरवाइज्ड फाइनट्यूनिंग (एसएफटी (SFT)) के माध्यम से, शोधकर्ताओं ने फाई-4-रीजनिंग (Phi-4-reasoning) प्राप्त किया, उससे पहले कोई सुदृढीकरण सीखना नहीं था।
एसएफटी (SFT) का लक्ष्य बुनियादी मॉडल में निहित संरचित तर्क क्षमता को परिष्कृत करना है।
फाई-4-रीजनिंग (Phi-4-reasoning) का आर्किटेक्चर फाई-4 मॉडल के समान है, लेकिन दो प्रमुख संशोधनों के साथ:
- तर्क टोकन: बुनियादी मॉडल में दो प्लेसहोल्डर टोकन को और टोकन के रूप में पुन: उपयोग किया जाता है, जिसका उपयोग तर्क (‘सोचने’) प्रक्रिया की शुरुआत और अंत को चिह्नित करने के लिए किया जाता है।
- बढ़ी हुई टोकन लंबाई: बुनियादी मॉडल (फाई-4) द्वारा शुरू में समर्थित अधिकतम टोकन लंबाई 16K थी। अतिरिक्त तर्क टोकन को समायोजित करने के लिए, RoPE की आधार आवृत्ति को दोगुना कर दिया गया, और मॉडल को 32K की अधिकतम टोकन लंबाई पर प्रशिक्षित किया गया।
उन्होंने विचार के श्रृंखला तर्क उदाहरणों की एक बड़ी संख्या उत्पन्न करने के लिए एक सिंथेटिक विधि का उपयोग किया।
उपयोग किए गए एसएफटी (SFT) डेटासेट में 1.4 मिलियन से अधिक प्रॉम्प्ट-रिस्पांस जोड़े हैं, जिसमें कुल 8.3 बिलियन अद्वितीय टोकन हैं, जिसमें गणित और प्रोग्रामिंग जैसे तर्क क्षेत्र शामिल हैं, साथ ही सुरक्षित और जिम्मेदार एआई (AI) के लिए संरेखण डेटा भी शामिल है।
चित्र 4a एसएफटी (SFT) पुनरावृत्ति प्रक्रिया के दौरान प्रमुख संकेतकों में परिवर्तन दिखाता है।
प्रशिक्षण की शुरुआत में, मॉडल ने स्पष्ट ‘सोचने’ टोकन का उपयोग करना शुरू कर दिया, जो इंगित करता है कि मॉडल ने जल्दी से इस उथले संरचित प्रारूप को सीख लिया।
हालांकि, जैसा कि चित्र 4a में दिखाया गया है, विचार मॉड्यूल की श्रृंखला की प्रभावशीलता और मॉडल की तर्क क्षमता पूरे प्रशिक्षण प्रक्रिया में सुधार कर रही है, जो इंगित करती है कि मॉडल सिर्फ प्रारूप की प्रतिलिपि नहीं बना रहा है, बल्कि वास्तव में तर्क कौशल सीख रहा है।
दिलचस्प बात यह है कि सुदृढीकरण सीखने के विपरीत, शोधकर्ताओं ने एसएफटी (SFT) प्रक्रिया के दौरान प्रतिक्रिया की लंबाई में वृद्धि नहीं देखी।
वास्तव में, जैसा कि चित्र 4b में दिखाया गया है, औसत प्रतिक्रिया लंबाई थोड़ी कम हो गई।
इससे पता चलता है कि जैसे-जैसे प्रशिक्षण आगे बढ़ रहा है, मॉडल अपने टोकन बजट का अधिक प्रभावी ढंग से उपयोग करना सीख रहा है।
विभिन्न प्रशिक्षण रणनीतियों का व्यवस्थित रूप से मूल्यांकन करने के लिए, उन्होंने एक निश्चित बेंचमार्क - एआईएमई 2024 (AIME 2024) और जीपीक्यूए डायमंड (GPQA diamond) - का उपयोग प्रगति के संकेतक के रूप में किया।
कुल मिलाकर, प्रयोगात्मक विधि को दो चरणों में विभाजित किया जा सकता है: अन्वेषण और स्केलिंग।
अन्वेषण चरण में, शोधकर्ताओं ने तेजी से पुनरावृति करने और मजबूत प्रशिक्षण विधियों को निकालने के लिए छोटे प्रशिक्षण चक्रों और सीमित डेटा स्रोतों और क्षेत्रों का उपयोग किया।
बाद के विस्तार चरण में, शोधकर्ताओं ने शुरुआती जोखिम कम करने वाले प्रयोगों के परिणामों का सारांश दिया और एसएफटी (SFT) सेटिंग्स को अंतिम रूप दिया।
चित्र 5 इस प्रगति का सारांश देता है, कई प्रमुख डिज़ाइन विकल्पों के लिए एब्लेशन प्रयोगों को उजागर करता है।
चित्र 5 फाई-4-रीजनिंग (Phi-4-reasoning) पर्यवेक्षित फाइन-ट्यूनिंग (एसएफटी (SFT)) प्रयोगात्मक चक्र का एक उच्च-स्तरीय अवलोकन दिखाता है, जिसमें कुछ उदाहरण प्रयोगों का उपयोग करके प्रतिनिधित्व किया जाता है, जिसमें अन्वेषण और विस्तार चरण शामिल हैं। प्रत्येक डॉट क्लस्टर एक विशिष्ट प्रशिक्षण डिज़ाइन विकल्प के प्रयोगात्मक परिणामों का प्रतिनिधित्व करता है।
चित्र 7 जीआरपीओ (GRPO) प्रशिक्षण प्रक्रिया के दौरान फाई-4-रीजनिंग-प्लस मॉडल की प्रमुख खोजों को दर्शाता है।
पर्यवेक्षित फाइन-ट्यूनिंग (एसएफटी (SFT)) बेस मॉडल फाई-4-रीजनिंग (Phi-4-reasoning) से शुरू करते हुए, केवल 90 चरणों के जीआरपीओ (GRPO) प्रशिक्षण ने एआईएमई (AIME) के प्रदर्शन में 10% से अधिक की वृद्धि की (चित्र 7a)।
प्रशिक्षण चरणों की संख्या में लगातार वृद्धि से अतिरिक्त लाभ नहीं मिला, जो इंगित करता है कि एक मजबूत एसएफटी (SFT) मॉडल की क्षमता प्रदर्शन सीमा के करीब है। यह ध्यान दिया जाना चाहिए कि जीआरपीओ (GRPO) प्रशिक्षण में आउटपुट 31k टोकन के भीतर सीमित है, जो वस्तुनिष्ठ रूप से जीआरपीओ (GRPO) के अनुकूलन स्थान को प्रतिबंधित करता है।
जैसा कि चित्र 7c में दिखाया गया है, प्रतिक्रिया की लंबाई एआईएमई (AIME) के प्रदर्शन के साथ दृढ़ता से सहसंबंधित है, जबकि इनाम स्कोर और एआईएमई (AIME) स्कोर के बीच संबंध कमजोर है। यह प्रतिक्रिया लंबाई वृद्धि प्रभाव जीआरपीओ (GRPO) प्रशिक्षण का अपेक्षित प्रभाव है - मॉडल ‘सोचने के समय’ को बढ़ाकर अपनी तर्क क्षमता में सुधार करता है।
चित्र 7d आगे बताता है कि इनाम मॉडल के डिज़ाइन के कारण, गलत उत्तरों की पीढ़ी की लंबाई सही उत्तरों की तुलना में काफी तेजी से बढ़ती है (जब मॉडल का वर्तमान उत्तर गलत होता है, तो सिस्टम उसे लंबे समय तक सोचने के लिए प्रोत्साहित करेगा)।
वास्तव में, केवल प्रतिक्रिया लंबाई के आधार पर अस्वीकृति नमूनाकरण करना (विशेष रूप से लंबी प्रतिक्रियाएं जो माध्यिका से काफी अधिक हैं) जीआरपीओ (GRPO) प्रदर्शन को और बेहतर बना सकता है।
जैसा कि चित्र 7d में दिखाया गया है, प्रशिक्षण प्रक्रिया के दौरान छोटी प्रतिक्रियाओं (लंबाई नीचे 25% क्वांटाइल में स्थित है) की विकास प्रवृत्ति सही उत्तरों की औसत लंबाई के समान है, जबकि गलत उत्तरों की लंबाई समग्र प्रतिक्रिया लंबाई के 75% क्वांटाइल के करीब है।
यह विभेदन घटना इंगित करती है कि लंबाई-आधारित अस्वीकृति नमूनाकरण अत्यधिक लंबी गलत आउटपुट को दबाकर मॉडल दक्षता में सुधार कर सकता है।