Microsoft Phi: AI में छोटी भाषा मॉडल की छलांग

Microsoft Phi: AI में छोटी भाषा मॉडल की छलांग

Azure AI Foundry पर Phi-3 की रिलीज के साथ छोटे भाषा मॉडल (SLM) की अपनी रेंज पेश करने के एक साल बाद, Microsoft ने अपनी अगली पीढ़ी के मॉडल का अनावरण किया है: Phi-4-reasoning, Phi-4-reasoning-plus, और Phi-4-mini-reasoning। ये नवाचार SLM के लिए एक महत्वपूर्ण मोड़ हैं, जो कॉम्पैक्ट और कुशल AI के साथ प्राप्त किए जा सकने वाले को फिर से परिभाषित करते हैं।

Phi-Reasoning मॉडल का उदय

नए Phi-reasoning मॉडल को जटिल कार्यों के लिए अनुमान-समय स्केलिंग का उपयोग करने के लिए इंजीनियर किया गया है, जिसके लिए बहु-चरणीय अपघटन और आंतरिक प्रतिबिंब की आवश्यकता होती है। ये मॉडल गणितीय तर्क में असाधारण क्षमताओं का प्रदर्शन करते हैं, जो एजेंट जैसे अनुप्रयोगों के लिए खुद को नींव के रूप में स्थापित करते हैं जो जटिल और बहुमुखी कार्यों को संभालते हैं। ऐतिहासिक रूप से, ऐसी क्षमताएं काफी बड़े मॉडल के लिए विशिष्ट थीं। Phi-reasoning मॉडल SLM की एक नई श्रेणी पेश करते हैं जो आकार और प्रदर्शन के बीच संतुलन बनाने के लिए डिस्टिलेशन, रीइन्फोर्समेंट लर्निंग और उच्च-गुणवत्ता वाले डेटा का लाभ उठाते हैं। उनका कॉम्पैक्ट आकार उन्हें कम-विलंबता वातावरण के लिए उपयुक्त बनाता है, जबकि उनकी मजबूत तर्क क्षमताएं बहुत बड़े मॉडल को टक्कर देती हैं। दक्षता और क्षमता का यह मिश्रण संसाधन-बाधित उपकरणों को भी जटिल तर्क कार्यों को प्रभावी ढंग से निष्पादित करने की अनुमति देता है।

Phi-4-Reasoning और Phi-4-Reasoning-Plus: एक गहरी गोता

Phi-4-Reasoning: ओपन-वेट रीजनिंग मॉडल

Phi-4-reasoning 14 बिलियन पैरामीटर के साथ एक ओपन-वेट रीजनिंग मॉडल के रूप में खड़ा है। यह जटिल तर्क कार्यों में काफी बड़े मॉडल के साथ प्रतिस्पर्धा करने के लिए डिज़ाइन किया गया है। इस मॉडल को OpenAI के o3-mini से प्राप्त सावधानीपूर्वक क्यूरेट किए गए तर्क उदाहरणों पर Phi-4 के सुपरवाइज्ड फाइन-ट्यूनिंग के माध्यम से प्रशिक्षित किया गया था। Phi-4-reasoning विस्तृत तर्क श्रृंखला उत्पन्न करता है, जो अनुमान के दौरान अतिरिक्त संगणना समय का प्रभावी ढंग से उपयोग करता है। यह उपलब्धि इस बात को रेखांकित करती है कि कैसे सटीक डेटा क्यूरेशन और उच्च-गुणवत्ता वाले सिंथेटिक डेटासेट छोटे मॉडल को अपने बड़े समकक्षों को टक्कर देने के लिए सशक्त बनाते हैं।

Phi-4-Reasoning-Plus: रीइन्फोर्समेंट लर्निंग के साथ रीजनिंग को बढ़ाना

Phi-4-reasoning की क्षमताओं पर निर्माण करते हुए, Phi-4-reasoning-plus अनुमान के दौरान अतिरिक्त संगणना समय का फायदा उठाने के लिए रीइन्फोर्समेंट लर्निंग के साथ आगे प्रशिक्षण से गुजरता है। यह Phi-4-reasoning की तुलना में 1.5 गुना अधिक टोकन संसाधित करता है, जिसके परिणामस्वरूप सटीकता बढ़ जाती है।

प्रदर्शन बेंचमार्क

अपने काफी छोटे आकार के बावजूद, Phi-4-reasoning और Phi-4-reasoning-plus दोनों OpenAI के o1-mini और DeepSeek-R1-Distill-Llama-70B को गणितीय तर्क और PhD-स्तर की वैज्ञानिक पूछताछ सहित विभिन्न बेंचमार्क में बेहतर प्रदर्शन करते हैं। प्रभावशाली रूप से, वे AIME 2025 परीक्षण पर पूर्ण DeepSeek-R1 मॉडल (671 बिलियन पैरामीटर के साथ) को भी पार करते हैं, जो 2025 के USA Math Olympiad के लिए योग्यता प्रतियोगिता के रूप में कार्य करता है। दोनों मॉडल Azure AI Foundry और Hugging Face पर आसानी से उपलब्ध हैं।

Phi-4-Mini-Reasoning: सीमित वातावरण के लिए कॉम्पैक्ट पावरहाउस

Phi-4-mini-reasoning विशेष रूप से एक कॉम्पैक्ट तर्क मॉडल की मांग को संबोधित करने के लिए डिज़ाइन किया गया है। यह ट्रांसफॉर्मर-आधारित भाषा मॉडल गणितीय तर्क के लिए अनुकूलित है और उन वातावरणों में उच्च-गुणवत्ता, चरण-दर-चरण समस्या-समाधान क्षमताएं प्रदान करता है जहां कंप्यूटिंग शक्ति या विलंबता विवश है। Deepseek-R1 मॉडल द्वारा उत्पन्न सिंथेटिक डेटा का उपयोग करके फाइनट्यून किया गया, यह प्रभावी रूप से उन्नत तर्क क्षमताओं के साथ दक्षता को संतुलित करता है। यह इसे शैक्षिक अनुप्रयोगों, एम्बेडेड ट्यूटरिंग सिस्टम और एज या मोबाइल सिस्टम पर हल्के परिनियोजन के लिए आदर्श बनाता है। मॉडल को दस लाख से अधिक विविध गणितीय समस्याओं पर प्रशिक्षित किया जाता है, जो कठिनाई में मध्य विद्यालय से लेकर पीएचडी-स्तर तक होती है, जो शैक्षिक संदर्भों की एक विस्तृत श्रृंखला में इसकी बहुमुखी प्रतिभा और प्रभावशीलता सुनिश्चित करती है।

Phi इन एक्शन: क्षितिज का विस्तार

पिछले एक साल में Phi के विकास ने लगातार आकार के सापेक्ष गुणवत्ता की सीमाओं को आगे बढ़ाया है, परिवार विविध आवश्यकताओं के अनुरूप नई सुविधाओं को शामिल करने के लिए विस्तारित हो रहा है। इन मॉडलों को विभिन्न विंडोज 11 उपकरणों में सीपीयू और जीपीयू दोनों पर स्थानीय रूप से चलाया जा सकता है, जिससे विभिन्न हार्डवेयर कॉन्फ़िगरेशन वाले उपयोगकर्ताओं को लचीलापन और पहुंच मिलती है।

Copilot+ PCs के साथ एकीकरण: AI-पावर्ड कंप्यूटिंग का एक नया युग

Phi मॉडल Copilot+ PCs का एक अभिन्न अंग हैं, जो NPU-अनुकूलित Phi Silica संस्करण का लाभ उठाते हैं। Phi का यह अत्यधिक कुशल संस्करण, ऑपरेटिंग सिस्टम द्वारा प्रबंधित, मेमोरी में प्री-लोड होने के लिए डिज़ाइन किया गया है, जो तेजी से प्रतिक्रिया समय और ऊर्जा-कुशल टोकन थ्रूपुट प्रदान करता है। यह इसे पीसी पर अन्य अनुप्रयोगों के साथ समवर्ती रूप से लागू करने में सक्षम बनाता है, जिससे मल्टीटास्किंग क्षमताओं और समग्र सिस्टम प्रदर्शन में वृद्धि होती है।

वास्तविक दुनिया के अनुप्रयोग

Phi मॉडल पहले से ही कोर अनुभवों में उपयोग किए जा रहे हैं जैसे कि Click to Do, जो सभी ऑन-स्क्रीन सामग्री के लिए बुद्धिमान टेक्स्ट टूल प्रदान करता है। वे अनुप्रयोगों में सहज एकीकरण के लिए डेवलपर API के रूप में भी उपलब्ध हैं। मॉडल वर्तमान में Outlook जैसे विभिन्न उत्पादकता अनुप्रयोगों में उपयोग किए जा रहे हैं, जहां वे ऑफ़लाइन Copilot सारांश सुविधाएँ प्रदान करते हैं। Phi-4-reasoning और Phi-4-mini-reasoning मॉडल Phi Silica के लिए कम-बिट अनुकूलन का लाभ उठाते हैं और जल्द ही Copilot+ PC NPUs पर चलाने के लिए उपलब्ध होंगे।

जिम्मेदार AI और सुरक्षा के लिए Microsoft की प्रतिबद्धता

Microsoft में, जिम्मेदार AI एक मौलिक सिद्धांत है जो Phi मॉडल सहित AI सिस्टम के विकास और परिनियोजन का मार्गदर्शन करता है। Phi मॉडल Microsoft AI सिद्धांतों के अनुरूप विकसित किए गए हैं: जवाबदेही, पारदर्शिता, निष्पक्षता, विश्वसनीयता और सुरक्षा, गोपनीयता और सुरक्षा, और समावेशिता। मॉडल के Phi परिवार उनकी जिम्मेदार और नैतिक उपयोग सुनिश्चित करने के लिए पर्यवेक्षित फाइन-ट्यूनिंग (SFT), डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (DPO), और मानव प्रतिक्रिया से रीइन्फोर्समेंट लर्निंग (RLHF) तकनीकों के संयोजन का उपयोग करके पोस्ट-ट्रेनिंग सुरक्षा के लिए एक मजबूत दृष्टिकोण अपनाता है।

Phi मॉडल के तकनीकी आधार: एक विस्तृत परीक्षा

Microsoft के Phi मॉडल छोटे भाषा मॉडल के क्षेत्र में एक महत्वपूर्ण उन्नति का प्रतिनिधित्व करते हैं, विशेष रूप से अपेक्षाकृत कम मापदंडों के साथ जटिल तर्क कार्यों को करने की उनकी क्षमता में। यह खंड उन तकनीकी विवरणों पर प्रकाश डालता है जो इन मॉडलों को इतना प्रभावशाली प्रदर्शन प्राप्त करने में सक्षम बनाते हैं।

वास्तु नवाचार

Phi मॉडल ट्रांसफॉर्मर आर्किटेक्चर पर आधारित हैं, जो एक डीप लर्निंग मॉडल है जिसने प्राकृतिक भाषा प्रसंस्करण में क्रांति ला दी है। ट्रांसफॉर्मर पाठ में लंबी दूरी की निर्भरताओं को कैप्चर करने में उत्कृष्ट हैं, जिससे मॉडल भाषा के संदर्भ और बारीकियों को समझ सकते हैं।

  • अटेंशन मैकेनिज्म: ट्रांसफॉर्मर आर्किटेक्चर का मूल अटेंशन मैकेनिज्म है, जो मॉडल को आउटपुट उत्पन्न करते समय इनपुट के सबसे प्रासंगिक हिस्सों पर ध्यान केंद्रित करने की अनुमति देता है। यह तर्क कार्यों के लिए विशेष रूप से महत्वपूर्ण है, जहां मॉडल को सही निष्कर्ष पर पहुंचने के लिए प्रमुख जानकारी और रिश्तों की पहचान करने की आवश्यकता होती है।

  • स्केल्ड डॉट-प्रोडक्ट अटेंशन: Phi मॉडल स्केल्ड डॉट-प्रोडक्ट अटेंशन का उपयोग करते हैं, जो अटेंशन मैकेनिज्म का एक परिष्कृत संस्करण है जिसमें डॉट उत्पादों को बहुत बड़ा होने से रोकने के लिए एक स्केलिंग फैक्टर शामिल है, जिससे प्रशिक्षण के दौरान अस्थिरता हो सकती है।

  • मल्टी-हेड अटेंशन: इनपुट के विभिन्न पहलुओं को कैप्चर करने के लिए, Phi मॉडल मल्टी-हेड अटेंशन का उपयोग करते हैं, जहां कई अटेंशन मैकेनिज्म समानांतर में काम करते हैं। प्रत्येक हेड इनपुट के एक अलग सबसेट पर ध्यान केंद्रित करता है, जिससे मॉडल को अधिक जटिल प्रतिनिधित्व सीखने की अनुमति मिलती है।

  • फीड-फॉरवर्ड नेटवर्क: अटेंशन परतों के बाद, ट्रांसफॉर्मर आर्किटेक्चर में फीड-फॉरवर्ड नेटवर्क शामिल हैं जो आगे जानकारी संसाधित करते हैं। इन नेटवर्कों में न्यूरॉन्स की कई परतें होती हैं जो अटेंशन आउटपुट से सुविधाओं को निकालने के लिए सीखती हैं।

प्रशिक्षण पद्धतियां: एक बहुआयामी दृष्टिकोण

Phi मॉडल के प्रशिक्षण में पर्यवेक्षित फाइन-ट्यूनिंग, रीइन्फोर्समेंट लर्निंग और डेटा डिस्टिलेशन सहित तकनीकों का एक संयोजन शामिल है।

  • पर्यवेक्षित फाइन-ट्यूनिंग (SFT): पर्यवेक्षित फाइन-ट्यूनिंग में मॉडल को एक लेबल वाले डेटासेट पर प्रशिक्षित करना शामिल है, जहां इनपुट एक प्रश्न या समस्या है, और आउटपुट सही उत्तर या समाधान है। यह मॉडल को विशिष्ट इनपुट को संबंधित आउटपुट के साथ जोड़ना सीखने में मदद करता है।

  • रीइन्फोर्समेंट लर्निंग (RL): रीइन्फोर्समेंट लर्निंग एक तकनीक है जहां मॉडल एक वातावरण के साथ बातचीत करके और अपनी क्रियाओं के लिए पुरस्कार या दंड प्राप्त करके निर्णय लेना सीखता है। भाषा मॉडल के संदर्भ में, वातावरण नियमों या बाधाओं का एक सेट हो सकता है, और मॉडल की प्रतिक्रियाओं की सटीकता के आधार पर इनाम दिया जा सकता है।

  • डेटा डिस्टिलेशन: डेटा डिस्टिलेशन एक तकनीक है जहां एक छोटे मॉडल को एक बड़े, अधिक जटिल मॉडल के व्यवहार की नकल करने के लिए प्रशिक्षित किया जाता है। यह छोटे मॉडल को कम संसाधनों की आवश्यकता होने पर भी बड़े मॉडल के तुलनीय प्रदर्शन को प्राप्त करने की अनुमति देता है।

डेटा क्यूरेशन: प्रदर्शन का आधारशिला

Phi मॉडल का प्रदर्शन प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा की गुणवत्ता पर बहुत अधिक निर्भर है। Microsoft ने उच्च-गुणवत्ता वाले डेटासेट को क्यूरेट करने में महत्वपूर्ण प्रयास किए हैं जो विशेष रूप से तर्क कार्यों के लिए डिज़ाइन किए गए हैं।

  • सिंथेटिक डेटा जेनरेशन: उपलब्ध डेटा को बढ़ाने के लिए, Microsoft ने सिंथेटिक डेटा उत्पन्न करने के लिए तकनीकों का विकास किया है जो वास्तविक दुनिया के डेटा की विशेषताओं की नकल करता है। यह मॉडल को एक बड़े और अधिक विविध डेटासेट पर प्रशिक्षित करने की अनुमति देता है, जो उनकी सामान्यीकरण क्षमता में सुधार करता है।

  • डेटा फ़िल्टरिंग: Microsoft प्रशिक्षण डेटासेट से शोर या अप्रासंगिक डेटा को हटाने के लिए कठोर डेटा फ़िल्टरिंग तकनीकों को नियोजित करता है। यह सुनिश्चित करता है कि मॉडल को साफ और सटीक डेटा पर प्रशिक्षित किया जाता है, जो बेहतर प्रदर्शन की ओर ले जाता है।

  • डेटा ऑगमेंटेशन: मौजूदा डेटा पर परिवर्तन लागू करके प्रशिक्षण डेटासेट की विविधता को बढ़ाने के लिए डेटा ऑगमेंटेशन तकनीकों का उपयोग किया जाता है। यह मॉडल को इनपुट में विविधताओं के लिए अधिक मजबूत होने में मदद करता है।

अनुकूलन तकनीकें: दक्षता और सटीकता को संतुलित करना

Phi मॉडल को दक्षता और सटीकता दोनों के लिए अनुकूलित किया गया है, जिससे वे प्रदर्शन का त्याग किए बिना संसाधन-बाधित उपकरणों पर चल सकते हैं।

  • क्वांटाइजेशन: क्वांटाइजेशन एक तकनीक है जहां मॉडल के मापदंडों की परिशुद्धता को कम किया जाता है, जो मॉडल के मेमोरी पदचिह्न और संगणना आवश्यकताओं को कम करता है।

  • प्रूनिंग: प्रूनिंग एक तकनीक है जहां मॉडल में कम महत्वपूर्ण कनेक्शन हटा दिए जाते हैं, जो मॉडल के आकार और जटिलता को कम करता है।

  • ज्ञान डिस्टिलेशन: ज्ञान डिस्टिलेशन में एक बड़े, अधिक जटिल मॉडल से ज्ञान को एक छोटे मॉडल में स्थानांतरित करना शामिल है। यह छोटे मॉडल को कम संसाधनों की आवश्यकता होने पर भी बड़े मॉडल के तुलनीय प्रदर्शन को प्राप्त करने की अनुमति देता है।

Phi Silica NPU: एक हार्डवेयर-सॉफ़्टवेयर सहक्रियात्मक दृष्टिकोण

Microsoft के Phi मॉडल को Phi Silica NPU (न्यूरल प्रोसेसिंग यूनिट) के साथ कसकर एकीकृत करने के लिए डिज़ाइन किया गया है, जो एक विशेष हार्डवेयर त्वरक है जिसे डीप लर्निंग वर्कलोड के लिए अनुकूलित किया गया है।

  • लो-बिट ऑप्टिमाइजेशन: Phi Silica NPU लो-बिट ऑप्टिमाइजेशन का समर्थन करता है, जो मॉडल को कम परिशुद्धता के साथ चलाने की अनुमति देता है, जिससे उनकी मेमोरी पदचिह्न और संगणना आवश्यकताओं को और कम किया जा सकता है।

  • मेमोरी में प्री-लोडिंग: Phi मॉडल को मेमोरी में प्री-लोड करने के लिए डिज़ाइन किया गया है, जो उन्हें जल्दी और कुशलता से लागू करने की अनुमति देता है।

  • ऑपरेटिंग सिस्टम मैनेजमेंट: Phi Silica NPU को ऑपरेटिंग सिस्टम द्वारा प्रबंधित किया जाता है, जो इसे उपयोगकर्ता अनुभव में सहजता से एकीकृत करने की अनुमति देता है।

संक्षेप में, Microsoft के Phi मॉडल छोटे भाषा मॉडल के क्षेत्र में एक महत्वपूर्ण उपलब्धि का प्रतिनिधित्व करते हैं। अभिनव वास्तु डिजाइनों, कठोर प्रशिक्षण पद्धतियों, सावधानीपूर्वक डेटा क्यूरेशन और हार्डवेयर-सॉफ़्टवेयर सह-डिजाइन को मिलाकर, Microsoft ने मॉडलों का एक परिवार बनाया है जो शक्तिशाली और कुशल दोनों हैं, जो AI-पावर्ड अनुप्रयोगों की एक विस्तृत श्रृंखला को सक्षम करते हैं।