मायक्रोसॉफ्टचे छोटे मॉडेल: गणिताचा 'चीट कोड'

मायक्रोसॉफ्टचे छोटे मॉडेल चमकले: 6,000 नमुन्यांवर प्रशिक्षित ‘गणित चीट कोड’

डीपसीक-आर2 (DeepSeek-R2) अजूनही दूर असताना, मायक्रोसॉफ्टचे (Microsoft) लहान मॉडेल (model) आश्चर्यकारकपणे लहान डेटासेटवर (dataset) प्रशिक्षित असूनही प्रभावी तर्क क्षमता दर्शवत आहेत, ज्यामुळे ते सध्या खूप चर्चेत आहेत.

फाई-4 रिझनिंग मॉडेलचा उदय

सध्या कृत्रिम बुद्धिमत्ता (Artificial intelligence) क्षेत्रात रिझनिंग मॉडेलची (reasoning model) मागणी वाढली आहे आणि मायक्रोसॉफ्टने (Microsoft) अलीकडेच फाई-4 (Phi-4) इन्फरन्स मॉडेलची (inference model) मालिका सादर केली आहे. यात फाई-4-रिझनिंग (Phi-4-reasoning), फाई-4-रिझनिंग-प्लस (Phi-4-reasoning-plus) आणि फाई-4-मिनी-रिझनिंग (Phi-4-mini-reasoning) यांचा समावेश आहे. विशेष म्हणजे, यापैकी सर्वात मोठे मॉडेल, ज्यात फक्त 14 अब्ज पॅरामीटर्स (parameter) आहेत, ते उच्च-कार्यक्षमतेच्या लॅपटॉपवर (laptop) देखील सहजतेने चालू शकतात. याव्यतिरिक्त, 3.8 अब्ज पॅरामीटर असलेले फाई-4-मिनी-रिझनिंग (Phi-4-mini-reasoning) हे 8 अब्ज पॅरामीटर असलेल्या डीपसीक-आर1 (DeepSeek-R1) डिस्टिल्ड मॉडेलला (distilled model) गणितीय तर्कात मागे टाकते, जे लहान मॉडेलची अनुमान कार्यातील (inference tasks) क्षमता दर्शवते.

एप्रिलमध्ये डीपसीक-आर2 (DeepSeek-R2) रिझनिंग मॉडेलची दुसरी पिढी रिलीज होण्याची वाट पाहण्याऐवजी, मायक्रोसॉफ्टने (Microsoft) फाई-4 (Phi-4) रिझनिंग मॉडेलची एक नवीन मालिका सादर केली. हे मॉडेल गणितीय तर्कात (mathematical reasoning) उत्कृष्ट कार्यप्रदर्शन दर्शवतात आणि फाई-4-मिनी-रिझनिंगचे (Phi-4-Mini-Reasoning) पॅरामीटर स्केल (parameter scale) लहान असूनही, डीपसीक-आर1 (DeepSeek-R1) डिस्टिल्ड मॉडेलला (distilled model) मागे टाकतात.

मायक्रोसॉफ्ट एआय फ्रंटियर्स (Microsoft AI Frontiers) प्रयोगशाळेतील भागीदार संशोधन व्यवस्थापक (Partner Research Manager) अहमद अवदल्लाह (Ahmed Awadallah) यांनी फाई-4-रिझनिंगचे (Phi-4-reasoning) वर्णन केले आणि नवीन मॉडेलच्या वैशिष्ट्यांचा सारांश दिला.

  • हे मॉडेल पर्यवेक्षित फाइन-ट्यूनिंगच्या (Supervised Fine-tuning) (काळजीपूर्वक निवडलेल्या रिझनिंग उदाहरण डेटासेटचा (reasoning example dataset) वापर करून) आणि रिइन्फोर्समेंट लर्निंगने (Reinforcement Learning) प्रशिक्षित आहे.
  • हे अनुमान बेंचमार्क (inference benchmarks) मध्ये चांगले कार्य करते आणि डीपसीक आर1 (DeepSeek R1) सारख्या मोठ्या टॉप (top) मॉडेलशी तुलना करता येते.
  • नवीन चाचण्यांमध्ये (जसे की AIME 2025, HMMT) देखील ते सातत्याने मजबूत कार्यप्रदर्शन करते.
  • रिझनिंग क्षमतेमध्ये (Reasoning ability) मजबूत हस्तांतरणीयता (transferability)/ सामान्यीकरण क्षमता (generalization ability) आहे, पर्यवेक्षित फाइन-ट्यूनिंगनंतर (supervised fine-tuning) देखील ते नवीन कार्यांमध्ये (जसे की के-सॅट (k-SAT), गणितीय समीकरण सोडवणे, शेड्युलिंग (scheduling) इ.) जुळवून घेऊ शकते.
  • सूचना आकलन (instruction understanding) आणि अंमलबजावणी (execution) यांसारख्या सामान्य क्षमता (general capabilities) टिकवून ठेवते आणि त्यात मोठ्या प्रमाणात सुधारणा करते.

त्यांनी सांगितले की फाई-4 (Phi-4) मध्ये अजूनही अनेक सुधारणा आवश्यक आहेत, विशेषत: संदर्भ लांबी (context length), एन्कोडिंग क्षमता (encoding ability) आणि टूल इंटिग्रेशनमध्ये (tool integration).

मॉडेल व्यतिरिक्त, मायक्रोसॉफ्टने (Microsoft) एक तपशीलवार तांत्रिक अहवाल (technical report) देखील शेअर (share) केला आहे, जो मॉडेलच्या प्रशिक्षण (training) आणि मूल्यांकन प्रक्रियेचे (evaluation process) सखोल विश्लेषण प्रदान करतो.

एक्स (X) वर, मायक्रोसॉफ्ट रिसर्च एआय फ्रंटियर्स (Microsoft Research AI Frontiers) प्रयोगशाळेतील मुख्य संशोधक (Principal Researcher) आणि विस्कॉन्सिन विद्यापीठातील (University of Wisconsin) सहयोगी प्राध्यापक (Associate Professor) दिमित्रिस पापािलिओपौलोस (Dimitris Papailiopoulos) यांनी फाई-4 (Phi-4) रिझनिंग मॉडेलबद्दल (reasoning model) अधिक माहिती दिली.

त्यांचा असा विश्वास आहे की फाई-4-रिझनिंगने (Phi-4-reasoning) पूर्णपणे पदवीधर स्तरावर (graduate level) मजल मारली आहे आणि ते लोकल पीसीवर (local PC) देखील चालवता येते.

कृत्रिम बुद्धिमत्तेच्या (artificial intelligence) विकासासाठी ही बाब त्यांच्या अपेक्षेपेक्षा अधिक आहे.

नवीन मॉडेलमध्ये पॅरामीटर्सची (parameters) संख्या कमी आहे, परंतु कार्यप्रदर्शन उत्तम आहे.

कार्यक्षमतेचे ऊर्जा केंद्र

आकाराने लहान असूनही, हे मॉडेल एआयएमई (AIME), एचएमएमटी (HMMT) आणि ओम्नीमॅथ (OmniMath) सारख्या गणित बेंचमार्कमध्ये (mathematics benchmarks) उत्कृष्ट आहे. हे क्यूडब्ल्यूक्यू-32बी (QwQ-32B), आर1-70बी (R1-70B) आणि आर1 (R1) सारख्या मोठ्या ओपन-वेट (open-weight) मॉडेल आणि ओ1-मिनी (o1-mini) आणि सॉनेट 3.7 (sonnet 3.7) सारख्या क्लोज्ड (closed) मॉडेलच्या बरोबरीने किंवा त्याहून अधिक चांगले कार्य करते.

हे मॉडेल आकाराने लहान आहे आणि उच्च-कार्यक्षमतेच्या लॅपटॉपवर (laptop) सहजतेने चालण्यास योग्य आहे.

त्याच वेळी, हे अनेक कोडी सोडवण्यास सक्षम आहे, जी मोठी नॉन-रिझनिंग (non-reasoning) मॉडेल आणि काही रिझनिंग मॉडेल (reasoning model) देखील सोडवू शकत नाहीत.

याने दिमित्रिसइवॅल (DimitrisEval) चाचणी देखील उत्तीर्ण केली!

आश्चर्याची गोष्ट म्हणजे, रिझनिंग (reasoning) हे खऱ्या अर्थाने हस्तांतरणीय ‘मेटा-स्किल’ (meta-skill) आहे, जे पर्यवेक्षित फाइन-ट्यूनिंग एसएफटीद्वारे (supervised fine-tuning SFT) देखील शिकले जाऊ शकते!

पुरावा 1: नॉन-रिझनिंग (non-reasoning) कार्यांवर विशेष प्रशिक्षण नसतानाही, संशोधकांनी आयएफइवॅल (IFEval), फ्लेनक्यूए (FlenQA) आणि अंतर्गत फाईबेंच (PhiBench) (10 गुणांपेक्षा जास्त वाढ!) वर लक्षणीय सुधारणा दिसून आली.

याव्यतिरिक्त, एसएफटी (SFT) टप्प्यात कोडिंगशी (coding) संबंधित खूपच कमी डेटा (data) आहे (आणि आरएल (RL) टप्प्यात अजिबात नाही), तरीही मॉडेल या संदर्भात चांगले कार्य करते.

दिमित्रिस पापािलिओपौलोस (Dimitris Papailiopoulos) यांनी उघड केले की प्रोग्रामिंग (programming) हा पुढील आवृत्त्यांसाठी महत्त्वाचा केंद्रबिंदू आहे.

पुरावा 2: काही विशिष्ट समस्या ज्यांवर स्पष्टपणे प्रशिक्षण दिले गेले नाही (एसएफटी (SFT) किंवा आरएल (RL) टप्प्यात), जसे की प्रवासाचा मार्ग निश्चित करण्याची समस्या (traveling salesman problem), भूलभुलैया सोडवणे (maze solving), के-सॅट (k-SAT), प्रतिबंधित नियोजन (constrained planning) इत्यादी कार्यांमध्ये मॉडेल खूप चांगले कार्य करते!

आणि फाई-4 (Phi-4) (आणि अगदी जीपीटी-4 (GPT-4)) हे करू शकत नाही.

हे पूर्णपणे स्पष्ट करते की रिझनिंग क्षमता (reasoning ability) खरोखरच एक कौशल्य म्हणून हस्तांतरित केली जाऊ शकते!

रिइन्फोर्समेंट लर्निंगचा (reinforcement learning) एक अतिशय लहान राऊंड (round) (एसएफटीसाठी (SFT) 1.4 दशलक्ष उदाहरणांच्या तुलनेत फक्त 6,000 नमुने वापरून) केल्यानंतर, मॉडेलची रिझनिंग यंत्रणा (reasoning mechanism) ‘लॉक’ (lock) झाली आहे.

यामुळे दिमित्रिस पापािलिओपौलोस (Dimitris Papailiopoulos) विशेषतः आश्चर्यचकित झाले.

त्यांना असे वाटते की जणू काही रिइन्फोर्समेंट लर्निंगने (reinforcement learning) मॉडेलला ‘त्याच्या स्वतःच्या भाषेत’ तर्क करायला शिकवले आहे, ज्यामुळे एआयएमई (AIME) आणि एचएमएमटी (HMMT) मध्ये अचूकता सुमारे 10% ने वाढली आहे आणि कठीण समस्यांमध्ये सरासरी उत्तराची लांबी 50% ने वाढली आहे.

रिइन्फोर्समेंट लर्निंग (reinforcement learning) खरोखरच प्रभावी आहे!!

रिझनिंग यंत्रणा (reasoning mechanism) ‘लॉक’ (lock) होण्याची घटना सामान्यतः मॉडेलचे आउटपुट वितरण (output distribution) अधिक केंद्रित करते आणि अचूकता देखील जास्त असते.

रिइन्फोर्समेंट लर्निंग (reinforcement learning) मॉडेलची क्षमता लक्षणीयरीत्या सुधारू शकते, हे मायक्रोसॉफ्टच्या (Microsoft) मागील संशोधनातून दिसून आले आहे.

रिइन्फोर्समेंट लर्निंगच्या (reinforcement learning) टप्प्यात, नवीन मॉडेल डेटासाठी (data) विशेष ऑप्टिमाइज (optimize) केलेले नाही: 6,000 प्रश्न यादृच्छिकपणे डेटासेटच्या (dataset) मोठ्या निवडामध्ये निवडले गेले.

मग मायक्रोसॉफ्टने (Microsoft) अधिक रिइन्फोर्समेंट लर्निंग (reinforcement learning) प्रशिक्षण का आयोजित केले नाही?

कारण मॉडेलने (model) प्रश्नांची उत्तरे 32k संदर्भ लांबीपेक्षा (context length) जास्त दिली (ज्या लांबीवर मॉडेलला (model) प्रशिक्षित केले गेले नाही), त्यामुळे त्यांना ते कमी करावे लागले.

याव्यतिरिक्त, समांतर रिझनिंग गणनेच्या (parallel reasoning calculations) मदतीने (जसे की Maj@N), नवीन रिझनिंग मॉडेलने (reasoning model) एआयएमई 2025 (AIME 2025) वर जवळपास कार्यक्षमतेची मर्यादा गाठली आहे आणि त्याच्या शिक्षक मॉडेलच्या (teacher model) (o3-mini) पास@1 (pass@1) कार्यक्षमतेला देखील मागे टाकले आहे.

आणि फेब्रुवारी 2025 पूर्वी सर्व डेटा संकलन पूर्ण केले, आणि तसेच एचएमएमटी (HMMT).

इतर कार्यांमध्ये, संशोधकांनी ‘शिक्षकाला मागे टाकण्याची’ (surpassing the teacher) घटना देखील पाहिली आहे, जसे की ओम्नीमॅथ (OmniMath) आणि कॅलेंडर प्लॅनिंग कार्ये (Calendar Planning tasks).

एसएफटी (SFT) टप्प्यातील त्वरित डिझाइन (prompt design), त्यानंतरच्या रिइन्फोर्समेंट लर्निंग प्रक्रियेमुळे (reinforcement learning process) मॉडेलला (model) ‘स्वतःमध्ये सुधारणा’ करण्याची क्षमता मिळाली आहे, जी शिक्षक मॉडेलने (teacher model) दिलेल्या ज्ञानाच्या पलीकडे आहे.

खालील आकृतीमध्ये, किरमिजी रंग o3-mini दर्शवितो आणि हिरवा रंग फाई (Phi) दर्शवितो.

एक मनोरंजक गोष्ट अशी आहे की: प्रतिसादाची लांबी (response lengths) असलेल्या लांब टेक्स्ट्स (texts) (वरच्या 25% मध्ये) अनेकदा चुकीच्या उत्तरांशी जोरदारपणे संबंधित असतात!

परंतु, दुसरीकडे, बहुतेक मूल्यांकनांमध्ये (evaluations), एकूण सरासरी उत्तराची लांबी (overall average answer length) जास्त असते आणि अचूकता देखील जास्त असते.

दुसऱ्या शब्दांत, चाचणी दरम्यान संगणकीय संसाधने (computing resources) वाढवणे उपयुक्त ठरते, परंतु जेव्हा मॉडेल (model) ‘अडकते’, तेव्हा ते ‘भरकटण्याची’ शक्यता असते.

मॉडेलच्या (model) मर्यादांबद्दल देखील काही गोष्टी लक्षात घेण्यासारख्या आहेत:

  • 32k पेक्षा जास्त संदर्भ लांबी (context lengths) हाताळण्याची क्षमता पूर्णपणे विस्तारित किंवा तपासली गेली नाही.
  • साध्या समस्यांशी (simple problems) व्यवहार करताना मॉडेल ‘अतिविचार’ (overthinking) करण्याची शक्यता असते आणि स्व-मूल्यांकनात (self-assessment) खूपच विस्तृत वाटू शकते.
  • मल्टी-टर्न (multi-turn) संवादाची क्षमता (dialogues) मोठ्या प्रमाणावर तपासली गेली नाही.

नक्कीच, शोधण्यासाठी आणखी ‘अंधळे स्पॉट’ (blind spots) आहेत, परंतु एकंदरीत, संशोधन टीमला (research team) असे वाटते की ते योग्य मार्गावर आहेत!

प्रशिक्षणातील आश्चर्य

सूरिया गुनासेकर (Suriya Gunasekar), मायक्रोसॉफ्ट रिसर्चमधील (Microsoft Research) मुख्य संशोधन व्यवस्थापक (Principal Research Manager) आणि फाई (Phi) मालिका विकसित करण्यासाठी जबाबदार असलेल्या ‘एजीआय फिजिक्स’ (AGI Physics) टीमचे सदस्य आहेत, त्यांनी या कामाच्या मूलभूत तत्त्वांची ओळख करून दिली.

यावेळी, मायक्रोसॉफ्ट फाई (Microsoft Phi) टीमने पोस्ट-ट्रेनिंग (post-training) टप्प्यावर लक्ष केंद्रित केले आणि फाई-4-रिझनिंग (Phi-4-reasoning) (केवळ एसएफटी (SFT) वापरून) आणि फाई-4-रिझनिंग-प्लस (Phi-4-reasoning-plus) (एसएफटी+ (SFT+) थोड्या प्रमाणात आरएल (RL)) लाँच (launch) केले.

दोन्ही 14B मॉडेल आहेत, ज्यांनी रिझनिंग (reasoning) आणि सामान्य कार्य बेंचमार्कमध्ये (general task benchmarks) मजबूत क्षमता दर्शविली आहेत.

या कार्याचा मूळ आधार त्वरित निवड (prompt selection) आणि हस्तांतरणीय (transferable), स्व-सुधारित रिझनिंग कौशल्यांचे (self-improving reasoning skills) प्रायोगिक अन्वेषण आहे.

प्रशिक्षण प्रक्रियेदरम्यान दोन आश्चर्यकारक गोष्टी समोर आल्या:

प्रथम, जोपर्यंत काही डोमेन-प्रशिक्षित लांब-चेन रिझनिंग (CoT) ट्रॅजेक्टरीजचा (trajectories) वापर केला जातो, तोपर्यंत फाई-4 (Phi-4) शेड्युलिंग (scheduling), भूलभुलैया सोडवणे (maze solving) (व्हिज्युअल इनपुटशिवाय (visual input)), आयएफइव्हा (IFEva), फ्लेनक्यूए (FlenQA), केआयटीएबी (KITAB) (लुकअप-आधारित प्रश्न उत्तरे (lookup-based question answering)) आणि अंतर्गत फाईबेंच (PhiBench) सारख्या अनेक कार्यांमध्ये लक्षणीय सुधारणा करू शकते;

दुसरे म्हणजे, जरी किमान आरएल (RL) प्रशिक्षणासाठी (training) फक्त 6,000 गणितीय उदाहरणे वापरली गेली, तरी काही बेंचमार्कमध्ये (benchmarks) मॉडेलच्या (model) कार्यक्षमतेत लक्षणीय सुधारणा झाली, ज्यात सर्वाधिक सुधारणा 10% पर्यंत पोहोचली (परंतु टोकनचा (token) वापर सुमारे 1.5 पट वाढला), आणि आरएल (RL) टप्प्यात कौशल्यांचे क्रॉस-डोमेन हस्तांतरण (cross-domain transfer) देखील दिसून आले.

दुसऱ्या शब्दांत, ओपनएआय (OpenAI) आणि गुगल (Google) सारख्या प्रमुख प्रतिस्पर्धकांच्या तुलनेत, मायक्रोसॉफ्ट फाई-4 (Microsoft Phi-4) रिझनिंग मालिका (reasoning series) नवीन शक्यता दर्शवते: लहान मॉडेल उच्च-गुणवत्तेचा डेटा (data) आणि परिष्कृत प्रशिक्षण धोरणे (refined training strategies) वापरून विशिष्ट कार्यांमध्ये मोठ्या मॉडेलशी जुळू शकतात किंवा त्यांना मागे टाकू शकतात.

मूलभूत पद्धती

रिझनिंग मॉडेल (Reasoning model) फाई-4-रिझनिंगमध्ये (Phi-4-reasoning) 14 अब्ज पॅरामीटर्स (parameter) आहेत आणि ते जटिल रिझनिंग (reasoning) कार्यांमध्ये जोरदारपणे कार्य करते.

हे मॉडेल पर्यवेक्षित फाइन-ट्यूनिंग प्रशिक्षणासाठी (supervised fine-tuning training) फाई-4 (Phi-4) वर आधारित आहे, ‘शिकवण्यायोग्य’ (teachable) प्रॉम्प्ट्सचा (prompts) काळजीपूर्वक निवडलेला संच वापरून, ज्यात योग्य गुंतागुंत आणि विविधता दोन्ही आहेत; ओ3-मिनीने (o3-mini) व्युत्पन्न केलेले रिझनिंग उदाहरणे (reasoning examples) प्रशिक्षण प्रक्रियेदरम्यान संदर्भ म्हणून वापरले जातात.

फाई-4-रिझनिंग (Phi-4-reasoning) तपशीलवार रिझनिंग साखळ्या (reasoning chains) व्युत्पन्न करू शकते आणि रिझनिंग प्रक्रियेदरम्यान संगणकीय संसाधनांचा (computing resources) पुरेपूर वापर करू शकते.

या आधारावर, मायक्रोसॉफ्टने (Microsoft) फाई-4-रिझनिंग-प्लस (Phi-4-reasoning-plus) विकसित केले.

हे मूळ मॉडेलच्या आधारावर परिणामांवर आधारित रिइन्फोर्समेंट लर्निंगच्या (outcome-based reinforcement learning) एका लहान टप्प्यात वर्धित केले आहे आणि लांब आणि अधिक शक्तिशाली रिझनिंग साखळ्या (reasoning chains) व्युत्पन्न करते.

संशोधन दर्शविते की एक चांगल्या प्रकारे डिझाइन केलेला एसएफटी डेटासेट (SFT dataset) रिझनिंग भाषेच्या मॉडेलचा (reasoning language models) प्रभाव लक्षणीयरीत्या सुधारू शकतो आणि रिइन्फोर्समेंट लर्निंग (RL) या आधारावर आणखी सुधारणा करू शकते.

एसएफटी (SFT) प्रयोगांमध्ये, या तुलनेने सोप्या जनरेशन (generation) सेटिंगमध्ये देखील, सीड (seed) समस्यांची काळजीपूर्वक निवड आणि कठोर फिल्टरिंग (strict filtering) मॉडेलच्या (model) यशासाठी महत्त्वपूर्ण आहे.

प्रशिक्षण डेटाचा (training data) संपूर्ण संच त्यांनी कठोरपणे दूषित केला आहे, जेणेकरून त्यात मोठ्या प्रमाणावर वापरल्या जाणाऱ्या रिझनिंग (reasoning) किंवा सामान्य बेंचमार्क प्रश्नांशी (general benchmark questions) मोठ्या प्रमाणातoverlap (ओव्हरलॅप) असलेला डेटा (data) नाही, ज्यात या अहवालात नमूद केलेल्या नसलेल्या काही बेंचमार्कचा (benchmarks) समावेश आहे.

दूषित केलेल्या बेंचमार्क चाचण्यांची (benchmark tests) संपूर्ण यादी खालीलप्रमाणे आहे:

  • गणित आणि रिझनिंग (Mathematics and Reasoning): एआयएमई-2024 (AIME-2024), मॅथ (MATH), जीपीक्यूए (GPQA), ओम्नीमॅथ (OmniMATH), जीएसएम8के (GSM8k)
  • प्रोग्रामिंग (Programming): लाइव्हकोडबेंच (LiveCodeBench), कोडफोर्सेस (Codeforces), ह्यूमनइवॅल (HumanEval), एमबीपीपी (MBPP)
  • प्रश्न उत्तरे आणि सामान्य ज्ञान (Question Answering and General Knowledge): सिम्पलक्यूए (SimpleQA), ड्रॉप (DROP), एजीआयइवॅल (AGIEval), एआरसी-चॅलेंज (ARC-Challenge), एआरसी-इझी (ARC-Easy), कॉमनसेन्सक्यूए (CommonsenseQA), ओपनबुकक्यूए (OpenBookQA), पीआयक्यूए (PIQA), विनोग्रेड (WinoGrande)
  • इतर मूल्यांकन कार्ये (Other Evaluation Tasks): एसडब्ल्यूई-बेंच व्हेरिफाईड (SWE-Bench Verified), अरेनाहार्ड (ArenaHard), एमटी-बेंच (MT-Bench), फाईबेंच (PhiBench)

14 अब्ज पॅरामीटर (parameter) असलेल्या फाई-4 (Phi-4) मॉडेलच्या (model) पर्यवेक्षित फाइनट्यूनिंगद्वारे (Supervised Finetuning (SFT)), संशोधकांनी फाई-4-रिझनिंग (Phi-4-reasoning) मिळवले, त्यापूर्वी कोणतेही रिइन्फोर्समेंट लर्निंग (reinforcement learning) नव्हते.

एसएफटीचे (SFT) उद्दिष्ट मूलभूत मॉडेलमध्ये (basic model) असलेल्या संरचित रिझनिंग क्षमतेला (structured reasoning ability) परिष्कृत करणे आहे.

फाई-4-रिझनिंगचे (Phi-4-reasoning) आर्किटेक्चर (architecture) फाई-4 (Phi-4) मॉडेलप्रमाणेच आहे, परंतु त्यात दोन महत्त्वाचे बदल आहेत:

  • रिझनिंग टोकन्स (Reasoning tokens): मूलभूत मॉडेलमधील (basic model) दोन प्लेसहोल्डर टोकन्स (placeholder tokens) आणि टोकन्स (tokens) म्हणून पुन्हा वापरले जातात, जे रिझनिंग (thinking) प्रक्रियेच्या सुरूवातीस आणि शेवटी चिन्हांकित करण्यासाठी वापरले जातात.
  • वाढलेली टोकन लांबी (Increased Token Length): मूलभूत मॉडेलद्वारे (basic model) (फाई-4 (Phi-4)) सुरुवातीला समर्थित असलेली कमाल टोकन लांबी (maximum token length) 16K होती. अतिरिक्त रिझनिंग टोकन्स (reasoning tokens) सामावून घेण्यासाठी, RoPE ची बेस फ्रिक्वेन्सी (base frequency) दुप्पट करण्यात आली आणि मॉडेलला 32K च्या कमाल टोकन लांबीवर प्रशिक्षित केले गेले.

त्यांनी चेन-ऑफ-थॉट रिझनिंग उदाहरणे (chain-of-thought reasoning examples) मोठ्या प्रमाणात व्युत्पन्न करण्यासाठी सिंथेटिक पद्धतीचा (synthetic method) वापर केला.

वापरलेल्या एसएफटी डेटासेटमध्ये (SFT dataset) 1.4 दशलक्षांपेक्षा जास्त प्रॉम्प्ट-रिस्पॉन्स जोड्या (prompt-response pairs) आहेत, ज्यात एकूण 8.3 अब्ज युनिक टोकन्स (unique tokens) आहेत, ज्यात गणित (mathematics) आणि प्रोग्रामिंग (programming) यांसारख्या रिझनिंग क्षेत्रांचा (reasoning fields) तसेच सुरक्षित आणि जबाबदार एआयसाठी (safe and responsible AI) अलाइनमेंट डेटाचा (alignment data) समावेश आहे.

आकृती 4a एसएफटी (SFT) पुनरावृत्ती प्रक्रियेदरम्यान (iteration process) मुख्य निर्देशकांमध्ये (key indicators) होणारे बदल दर्शवते.

प्रशिक्षणाच्या सुरुवातीला, मॉडेलने (model) स्पष्ट ‘थिंकिंग’ टोकन्सचा (thinking tokens) वापर करण्यास सुरुवात केली, जे दर्शविते की मॉडेलने हे उथळ संरचित स्वरूप (shallow structured format) त्वरित शिकले.

तथापि, आकृती 4a मध्ये दर्शविल्याप्रमाणे, चेन-ऑफ-थॉट (chain-of-thought) मॉडेलची परिणामकारकता आणि मॉडेलची रिझनिंग क्षमता (reasoning ability) संपूर्ण प्रशिक्षण प्रक्रियेदरम्यान सुधारत आहे, जे दर्शविते की मॉडेल फक्त स्वरूपाची कॉपी (copy) करत नाही, तर प्रत्यक्षात रिझनिंग कौशल्ये (reasoning skills) शिकत आहे.

विशेष म्हणजे, रिइन्फोर्समेंट लर्निंगच्या (reinforcement learning) विपरीत, संशोधकांना एसएफटी (SFT) प्रक्रियेदरम्यान प्रतिसादाच्या लांबीत वाढ (increase in response length) दिसली नाही.

खरं तर, आकृती 4b मध्ये दर्शविल्याप्रमाणे, सरासरी प्रतिसादाची लांबी (average response length) थोडीशी कमी झाली.

हे दर्शविते की प्रशिक्षण जसजसे पुढे सरकते, तसतसे मॉडेल त्याचे टोकन बजेट (token budget) अधिक प्रभावीपणे वापरण्यास शिकत आहे.

वेगवेगळ्या प्रशिक्षण धोरणांचे (training strategies) पद्धतशीरपणे मूल्यांकन करण्यासाठी, त्यांनी एक निश्चित बेंचमार्क (fixed benchmark) - एआयएमई 2024 (AIME 2024) आणि जीपीक्यूए डायमंड (GPQA diamond) - प्रगतीचा सूचक म्हणून वापरला.

एकंदरीत, प्रायोगिक पद्धतीला (experimental method) दोन टप्प्यांमध्ये विभागले जाऊ शकते: अन्वेषण (exploration) आणि स्केलिंग (scaling).

अन्वेषण टप्प्यात, संशोधकांनी लहान प्रशिक्षण चक्रांचा (training cycles) आणि मर्यादित डेटा स्रोतांचा (limited data sources) आणि क्षेत्रांचा वापर जलद पुनरावृत्ती (iterate) करण्यासाठी आणि मजबूत प्रशिक्षण पद्धती काढण्यासाठी केला.

त्यानंतरच्या विस्तार टप्प्यात, संशोधकांनी लवकर जोखीम कमी करण्याच्या प्रयोगांचे (risk reduction experiments) निष्कर्ष सारांशित केले आणि एसएफटी (SFT) सेटिंग्ज (settings) अंतिम केल्या.

आकृती 5 या प्रगतीचा सारांश देते, काही प्रमुख डिझाइन निवडींसाठी (design choices) ॲब्लेशन प्रयोगांवर (ablation experiments) प्रकाश टाकते.

आकृती 5 फाई-4-रिझनिंग (Phi-4-reasoning) पर्यवेक्षित फाइन-ट्यूनिंगच्या (supervised fine-tuning (SFT)) प्रायोगिक चक्राचे उच्च-स्तरीय विहंगावलोकन (high-level overview) दर्शवते, ज्यात काही उदाहरण प्रयोगांचा (example experiments) वापर करून अन्वेषण (exploration) आणि विस्तार (expansion) टप्प्यांचा समावेश आहे. प्रत्येक डॉट क्लस्टर (dot cluster) विशिष्ट प्रशिक्षण डिझाइन निवडीच्या (training design choice) प्रायोगिक परिणामांचे प्रतिनिधित्व करते.

आकृती 7 जीआरपीओ (GRPO) प्रशिक्षण प्रक्रियेदरम्यान (training process) फाई-4-रिझनिंग-प्लस (Phi-4-reasoning-plus) मॉडेलचे (model) महत्त्वाचे निष्कर्ष दर्शवते.

पर्यवेक्षित फाइन-ट्यूनिंग (supervised fine-tuning (SFT)) बेस मॉडेल (base model) फाई-4-रिझनिंगपासून (Phi-4-reasoning) सुरुवात करून, जीआरपीओ प्रशिक्षणाच्या (GRPO training) केवळ 90 पायऱ्यांनी एआयएमई कार्यक्षमतेत (AIME performance) 10% पेक्षा जास्त वाढ केली (आकृती 7a).

प्रशिक्षण पायऱ्यांची संख्या (number of training steps) वाढवणे चालू ठेवल्याने कोणतेही अतिरिक्त फायदे मिळाले नाहीत, जे दर्शविते की एका मजबूत एसएफटी (SFT) मॉडेलची (model) क्षमता कार्यक्षमतेच्या कमाल मर्यादेच्या जवळ आहे. हे लक्षात घेतले पाहिजे की जीआरपीओ प्रशिक्षणातील (GRPO training) आउटपुट 31k टोकन्समध्ये (tokens) मर्यादित आहे, जे जीआरपीओच्या ऑप्टिमायझेशन जागेला (optimization space) वस्तुनिष्ठपणे प्रतिबंधित करते.

आकृती 7c मध्ये दर्शविल्याप्रमाणे, प्रतिसादाची लांबी (response length) एआयएमई कार्यक्षमतेशी (AIME performance) जोरदारपणे संबंधित आहे, तर रिवॉर्ड स्कोअर (reward score) आणि एआयएमई स्कोअरमधील (AIME score) संबंध कमकुवत आहे. प्रतिसादाच्या लांबीच्या वाढीचा (response length growth) हा परिणाम जीआरपीओ प्रशिक्षणाचा (GRPO training) अपेक्षित परिणाम आहे - मॉडेल ‘विचार करण्यासाठी वेळ’ (thinking time) वाढवून त्याची रिझनिंग क्षमता (reasoning ability) सुधारते.

आकृती 7d पुढे उघड करते की रिवॉर्ड मॉडेलच्या (reward model) डिझाइनमुळे, चुकीच्या उत्तरांची जनरेशन लांबी (generation length) योग्य उत्तरांपेक्षा खूप वेगाने वाढते (जेव्हा मॉडेलचे (model) सध्याचे उत्तर (answer) चुकीचे असते, तेव्हा सिस्टम (system) त्याला जास्त वेळ विचार करण्यास प्रोत्साहित करेल).

खरं तर, केवळ प्रतिसादाच्या लांबीवर (response length) आधारित रिजेक्शन सॅम्पलिंग (rejection sampling) (विशेषत: लांब प्रतिसाद जे माध्यकापेक्षा लक्षणीयरीत्या जास्त आहेत) जीआरपीओ कार्यक्षमता (GRPO performance) आणखी सुधारू शकते.

आकृती 7d मध्ये दर्शविल्याप्रमाणे, प्रशिक्षणादरम्यान (training process) लहान प्रतिसादांची (लांबी खालच्या 25% क्वांटाइलमध्ये (quantile) असलेली) वाढीची प्रवृत्ती योग्य उत्तरांच्या सरासरी लांबीसारखीच (average length) आहे, तर चुकीच्या उत्तरांची लांबी (length of wrong answers) एकूण प्रतिसादाच्या लांबीच्या (overall response length) 75% क्वांटाइलच्या (quantile) जवळ आहे.

हे भिन्नता दर्शविते की लांबी-आधारित रिजेक्शन सॅम्पलिंग (length-based rejection sampling) जास्त लांबीच्या चुकीच्या आउटपुटला (output) दाबून मॉडेलची (model) कार्यक्षमता सुधारू शकते.