माइक्रोसॉफ्ट का फी-4: ऑन-डिवाइस AI

फी परिवार का विस्तार: मल्टीमॉडल क्षमताओं का परिचय

माइक्रोसॉफ्ट ने स्मॉल लैंग्वेज मॉडल्स (SLMs) के बढ़ते क्षेत्र में फी (Phi) परिवार के साथ योगदान दिया है, जो कॉम्पैक्ट मॉडल्स का एक सूट है। फी का चौथा जनरेशन दिसंबर में पेश किया गया था, और अब, माइक्रोसॉफ्ट दो महत्वपूर्ण एडिशन के साथ लाइनअप को बढ़ा रहा है: Phi-4-multimodal और Phi-4-mini। अपने सिबलिंग्स के अनुरूप, ये नए मॉडल Azure AI Foundry, Hugging Face और Nvidia API कैटलॉग के माध्यम से, MIT लाइसेंस के तहत आसानी से उपलब्ध होंगे।

Phi-4-multimodal, विशेष रूप से, उल्लेखनीय है। यह एक 5.6 बिलियन पैरामीटर मॉडल है जो ‘मिक्सचर-ऑफ-LoRAs’ (लो-रैंक एडाप्टेशन) नामक एक सोफिस्टिकेटेड तकनीक का लाभ उठाता है। यह एप्रोच मॉडल को स्पीच, विज़ुअल इनपुट और टेक्स्टुअल डेटा को एक साथ प्रोसेस करने में सक्षम बनाता है। LoRAs विशिष्ट कार्यों में एक बड़े लैंग्वेज मॉडल के परफॉरमेंस को बढ़ावा देने के लिए एक नॉवेल मेथड को रीप्रेजेंट करते हैं, इसके सभी पैरामीटर्स में एक्सटेंसिव फाइन-ट्यूनिंग की आवश्यकता को दरकिनार करते हुए। इसके बजाय, LoRA का उपयोग करने वाले डेवलपर्स स्ट्रेटेजिक रूप से मॉडल में नई वेट्स की एक छोटी संख्या डालते हैं। केवल इन नए पेश किए गए वेट्स को ट्रेनिंग दी जाती है, जिसके परिणामस्वरूप काफी तेज और अधिक मेमोरी-एफ्फिसिएंट प्रोसेस होती है। आउटकम अधिक लाइटवेट मॉडल्स का एक कलेक्शन है जो स्टोर करने, शेयर करने और डिप्लॉय करने में कहीं अधिक आसान हैं।

इस एफिशिएंसी के इम्प्लीकेशन्स महत्वपूर्ण हैं। Phi-4-multimodal लो-लेटेंसी इन्फेरेंस प्राप्त करता है – जिसका अर्थ है कि यह जानकारी को प्रोसेस कर सकता है और बहुत तेज़ी से रेस्पोंसेस प्रोवाइड कर सकता है – जबकि ऑन-डिवाइस एग्जीक्यूशन के लिए ऑप्टिमाइज़्ड है। यह कम्प्यूटेशनल ओवरहेड में एक ड्रामेटिक रिडक्शन में ट्रांसलेट होता है, जिससे उन डिवाइस पर सोफिस्टिकेटेड AI ऍप्लिकेशन्स को चलाना संभव हो जाता है जिनमें पहले आवश्यक प्रोसेसिंग पावर की कमी थी।

संभावित उपयोग के मामले: स्मार्टफोन से लेकर फाइनेंसियल सर्विसेज तक

Phi-4-multimodal के संभावित ऍप्लिकेशन्स विविध और दूरगामी हैं। मॉडल को स्मार्टफोन पर निर्बाध रूप से काम करने, वाहनों के भीतर एडवांस्ड फीचर्स को पावर देने, या लाइटवेट एंटरप्राइज ऍप्लिकेशन्स को चलाने की कल्पना करें। एक कंपेलिंग उदाहरण एक बहुभाषी फाइनेंसियल सर्विसेज एप्लीकेशन है, जो विभिन्न भाषाओं में यूजर क्वेरीज को समझने और उनका जवाब देने में सक्षम है, डाक्यूमेंट्स जैसे विज़ुअल डेटा को प्रोसेस करता है, और यह सब यूजर के डिवाइस पर कुशलता से काम करते हुए।

इंडस्ट्री एनालिस्ट्स Phi-4-multimodal की ट्रांसफॉर्मेशनल पोटेंशियल को पहचान रहे हैं। इसे डेवलपर्स के लिए एक महत्वपूर्ण कदम के रूप में देखा जाता है, खासकर उन लोगों के लिए जो मोबाइल डिवाइस या एनवायरनमेंट के लिए AI-ड्रिवेन ऍप्लिकेशन्स बनाने पर ध्यान केंद्रित करते हैं जहां कम्प्यूटेशनल रिसोर्सेज कंस्ट्रेंड हैं।

फॉरेस्टर के वाइस प्रेसिडेंट और प्रिंसिपल एनालिस्ट चार्ली दाई, टेक्स्ट, इमेज और ऑडियो प्रोसेसिंग को रोबस्ट रीजनिंग क्षमताओं के साथ इंटीग्रेटेड करने की मॉडल की क्षमता पर प्रकाश डालते हैं। वह जोर देकर कहते हैं कि यह कॉम्बिनेशन AI ऍप्लिकेशन्स को बढ़ाता है, डेवलपर्स और एंटरप्राइजेज को “वर्सटाइल, एफिशिएंट और स्केलेबल सॉल्यूशंस” प्रोवाइड करता है।

एवरेस्ट ग्रुप के एक पार्टनर युगल जोशी, कंप्यूट-कंस्ट्रेंड एनवायरनमेंट में डिप्लॉयमेंट के लिए मॉडल की उपयुक्तता को स्वीकार करते हैं। जबकि वह ध्यान देते हैं कि मोबाइल डिवाइस सभी जनरेटिव AI उपयोग के मामलों के लिए आइडियल प्लेटफार्म नहीं हो सकते हैं, वह नए SLMs को माइक्रोसॉफ्ट के डीपसीक (DeepSeek) से इंस्पिरेशन लेने के रिफ्लेक्शन के रूप में देखते हैं, जो लार्ज-स्केल कंप्यूट इंफ्रास्ट्रक्चर पर रिलायंस को कम करने पर केंद्रित एक और इनिशिएटिव है।

बेंचमार्किंग परफॉरमेंस: स्ट्रेंथ्स एंड एरियाज फॉर ग्रोथ

जब बेंचमार्क परफॉरमेंस की बात आती है, तो Phi-4-multimodal, Gemini-2.0-Flash और GPT-4o-realtime-preview जैसे मॉडल्स की तुलना में एक परफॉरमेंस गैप को एक्सहिबिट करता है, खासकर स्पीच क्वेश्चन आंसरिंग (QA) टास्क में। माइक्रोसॉफ्ट स्वीकार करता है कि Phi-4 मॉडल्स का छोटा आकार स्वाभाविक रूप से क्वेश्चन-आंसरिंग के लिए फैक्टुअल नॉलेज को बनाए रखने की उनकी कैपेसिटी को सीमित करता है। हालाँकि, कंपनी मॉडल के फ्यूचर इटरेशन्स में इस कैपेबिलिटी को बढ़ाने के लिए चल रहे प्रयासों पर जोर देती है।

इसके बावजूद, Phi-4-multimodal अन्य क्षेत्रों में इम्प्रेससिव स्ट्रेंथ्स को डेमोंस्ट्रेट करता है। विशेष रूप से, यह मैथेमेटिकल और साइंटिफिक रीजनिंग, ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR), और विज़ुअल साइंस रीजनिंग से इन्वोल्विंग टास्क में Gemini-2.0-Flash Lite और Claude-3.5-Sonnet सहित कई पॉपुलर LLMs से बेहतर परफॉरमेंस करता है। ये एजुकेशनल सॉफ्टवेयर से लेकर साइंटिफिक रिसर्च टूल्स तक, ऍप्लिकेशन्स की एक वाइड रेंज के लिए क्रूशियल कैपेबिलिटीज हैं।

Phi-4-mini: कॉम्पैक्ट साइज़, इम्प्रेससिव परफॉरमेंस

Phi-4-multimodal के साथ, माइक्रोसॉफ्ट ने Phi-4-mini भी पेश किया। यह मॉडल और भी अधिक कॉम्पैक्ट है, जिसमें 3.8 बिलियन पैरामीटर हैं। यह एक डेंस डिकोडर-ओनली ट्रांसफार्मर आर्किटेक्चर पर आधारित है और 128,000 टोकन तक के सीक्वेंसेस को सपोर्ट करता है।

माइक्रोसॉफ्ट में जनरेटिव AI के VP, वेइझू चेन, Phi-4-mini के छोटे आकार के बावजूद रिमार्केबल परफॉरमेंस पर प्रकाश डालते हैं। नए मॉडल्स को डिटेल्ड करते हुए एक ब्लॉग पोस्ट में, वह कहते हैं कि Phi-4-mini “टेक्स्ट-बेस्ड टास्क में बड़े मॉडल्स से बेहतर परफॉरमेंस करना जारी रखता है, जिसमें रीजनिंग, मैथ, कोडिंग, इंस्ट्रक्शन-फॉलोइंग और फंक्शन-कॉलिंग शामिल हैं।” यह अंडरस्कोर करता है कि स्पेसिफिक एप्लीकेशन डोमेन में सिग्नीफिकेंट वैल्यू डिलीवर करने के लिए छोटे मॉडल्स की भी पोटेंशियल है।

IBM का ग्रेनाइट अपडेट: रीजनिंग क्षमताओं को बढ़ाना

SLMs में एडवांस्मेंट्स केवल माइक्रोसॉफ्ट तक ही सीमित नहीं हैं। IBM ने अपने ग्रेनाइट फैमिली ऑफ़ फंडामेंटल मॉडल्स में एक अपडेट भी जारी किया है, जिसमें ग्रेनाइट 3.2 2B और 8B मॉडल पेश किए गए हैं। इन नए मॉडल्स में इम्प्रूव्ड “चेन ऑफ़ थॉट” कैपेबिलिटीज हैं, जो रीजनिंग एबिलिटीज को बढ़ाने का एक क्रूशियल आस्पेक्ट है। यह इम्प्रूवमेंट मॉडल्स को उनके प्रेडेसेस्सर्स की तुलना में सुपीरियर परफॉरमेंस अचीव करने की अनुमति देता है।

इसके अलावा, IBM ने डाक्यूमेंट्स अंडरस्टैंडिंग टास्क के लिए विशेष रूप से डिज़ाइन किया गया एक नया विज़न लैंग्वेज मॉडल (VLM) का अनावरण किया है। यह VLM परफॉरमेंस को डेमोंस्ट्रेट करता है जो DocVQA, ChartQA, AI2D, और OCRBench1 जैसे बेंचमार्क पर Llama 3.2 11B और Pixtral 12B जैसे काफी बड़े मॉडल्स से मेल खाता है या उससे आगे निकल जाता है। यह स्पेसिफिक डोमेन में कॉम्पिटिटिव परफॉरमेंस डिलीवर करने वाले छोटे, स्पेशलाइज्ड मॉडल्स के बढ़ते ट्रेंड को हाईलाइट करता है।

ऑन-डिवाइस AI का भविष्य: एक पैराडाइम शिफ्ट

Phi-4-multimodal और Phi-4-mini का इंट्रोडक्शन, IBM के ग्रेनाइट अपडेट के साथ, एक ऐसे भविष्य की ओर एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है जहां पावरफुल AI कैपेबिलिटीज डिवाइस की एक वाइड रेंज पर आसानी से उपलब्ध हैं। इस शिफ्ट के विभिन्न इंडस्ट्रीज और ऍप्लिकेशन्स के लिए प्रोफाउंड इम्प्लीकेशन्स हैं:

  • AI का डेमोक्रेटाईजेशन: छोटे, अधिक एफिशिएंट मॉडल AI को डेवलपर्स और यूजर्स की एक व्यापक रेंज के लिए एक्सेसिबल बनाते हैं, न कि केवल उन लोगों के लिए जिनके पास बड़े पैमाने पर कंप्यूटिंग रिसोर्सेज तक पहुंच है।
  • एनहांस्ड प्राइवेसी एंड सिक्योरिटी: ऑन-डिवाइस प्रोसेसिंग क्लाउड पर सेंसिटिव डेटा ट्रांसमिट करने की आवश्यकता को कम करता है, प्राइवेसी और सिक्योरिटी को बढ़ाता है।
  • इम्प्रूव्ड रेस्पोंसिवनेस एंड लेटेंसी: लोकल प्रोसेसिंग क्लाउड-बेस्ड AI से एसोसिएटेड डिले को समाप्त करता है, जिससे फास्टर रेस्पोंस टाइम्स और अधिक सीमलेस यूजर एक्सपीरियंस होता है।
  • ऑफलाइन फंक्शनैलिटी: ऑन-डिवाइस AI इंटरनेट कनेक्शन के बिना भी काम कर सकता है, रिमोट या लो-कनेक्टिविटी एनवायरनमेंट में ऍप्लिकेशन्स के लिए नई पॉसिबिलिटीज खोलता है।
  • रिड्यूस्ड एनर्जी कंसम्पशन: छोटे मॉडल्स को ऑपरेट करने के लिए कम एनर्जी की आवश्यकता होती है, जो मोबाइल डिवाइस के लिए लॉन्गर बैटरी लाइफ और रिड्यूस्ड एनवायरनमेंटल इम्पैक्ट में योगदान देता है।
  • एज कंप्यूटिंग ऍप्लिकेशन्स: इसमें ऑटोनोमस ड्राइविंग, स्मार्ट मैन्युफैक्चरिंग और रिमोट हेल्थकेयर जैसे सेक्टर्स शामिल हैं।

SLMs में एडवांस्मेंट्स AI लैंडस्केप में एक पैराडाइम शिफ्ट ला रहे हैं। जबकि लार्ज लैंग्वेज मॉडल्स एक महत्वपूर्ण भूमिका निभाते रहते हैं, फी परिवार जैसे कॉम्पैक्ट, एफिशिएंट मॉडल्स का उदय एक ऐसे भविष्य का मार्ग प्रशस्त कर रहा है जहां AI अधिक परवेसिव, एक्सेसिबल और हमारे रोजमर्रा के जीवन में इंटीग्रेटेड है। फोकस केवल आकार से एफिशिएंसी, स्पेशलाइजेशन और उन डिवाइस पर सीधे पावरफुल AI कैपेबिलिटीज डिलीवर करने की क्षमता पर शिफ्ट हो रहा है जिनका हम हर दिन उपयोग करते हैं। यह ट्रेंड तेज होने की संभावना है, जिससे विभिन्न सेक्टर्स में और भी अधिक इनोवेटिव ऍप्लिकेशन्स और AI का व्यापक रूप से अपनाया जाएगा। रिसोर्स-कंस्ट्रेंड डिवाइस पर मल्टीमॉडल इनपुट को समझने जैसे काम्प्लेक्स टास्क को परफॉर्म करने की क्षमता आर्टिफीसियल इंटेलिजेंस के एवोलुशन में एक नया चैप्टर खोलती है।
तेजी से इंटेलिजेंट और कैपेबल SLM बनाने की रेस जारी है, और माइक्रोसॉफ्ट की नई पेशकश एक बड़ा कदम है।