गूगल डीपमाइंड का जेम्मा 3n: ऑन-डिवाइस AI क्रांति

तेज़, होशियार और हमारे निजी उपकरणों पर अधिक निजी आर्टिफिशियल इंटेलिजेंस की अटूट खोज, AI मॉडल को डिजाइन और तैनात करने के तरीके में एक गहरा परिवर्तन ला रही है। हम एक ऐसे युग में प्रवेश कर रहे हैं जहाँ AI सिर्फ एक दूरस्थ सेवा नहीं है; यह एक स्थानीयकृत खुफिया जानकारी है जो सीधे हमारे फोन, टैबलेट और लैपटॉप में एम्बेडेड है। यह बदलाव लगभग तात्कालिक जवाबदेही, काफी कम मेमोरी मांगों और उपयोगकर्ता गोपनीयता पर नए सिरे से जोर देने का वादा करता है। जैसे-जैसे मोबाइल हार्डवेयर का तेजी से विकास जारी है, ध्यान कॉम्पैक्ट, लाइटनिंग-फास्ट मॉडल बनाने पर है जो हमारी दैनिक डिजिटल इंटरैक्शन को फिर से परिभाषित करने में सक्षम हैं।

ऑन-डिवाइस मल्टीमॉडल AI की चुनौती

इस प्रयास में सबसे महत्वपूर्ण बाधाओं में से एक मोबाइल उपकरणों के संसाधन-बाधित वातावरण में उच्च गुणवत्ता, मल्टीमॉडल AI प्रदान करना है। क्लाउड-आधारित सिस्टम के विपरीत, जो विशाल कम्प्यूटेशनल शक्ति से लाभान्वित होते हैं, ऑन-डिवाइस मॉडल को RAM और प्रोसेसिंग क्षमता पर सख्त सीमाओं के साथ काम करना चाहिए। मल्टीमॉडल AI, जिसमें टेक्स्ट, इमेज, ऑडियो और वीडियो की व्याख्या करने की क्षमता शामिल है, को आमतौर पर बड़े मॉडल की आवश्यकता होती है जो अधिकांश मोबाइल उपकरणों को अभिभूत कर सकते हैं। इसके अलावा, क्लाउड पर निर्भरता विलंबता और गोपनीयता संबंधी चिंताएं पेश करती है, जो प्रदर्शन से समझौता किए बिना स्थानीय रूप से चलने में सक्षम मॉडल की आवश्यकता को रेखांकित करती है।

जेम्मा 3n: मोबाइल AI में एक बड़ी छलांग

इन चुनौतियों का समाधान करने के लिए, Google और Google डीपमाइंड ने जेम्मा 3n पेश किया है, जो एक अभूतपूर्व AI मॉडल है जिसे विशेष रूप से मोबाइल-फर्स्ट परिनियोजन के लिए डिज़ाइन किया गया है। जेम्मा 3n को एंड्रॉइड और क्रोम प्लेटफॉर्म पर प्रदर्शन के लिए अनुकूलित किया गया है और यह जेमिनी नैनो के अगले पुनरावृत्ति के लिए आधार के रूप में कार्य करता है। यह नवाचार एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, जो वास्तविक समय की प्रतिक्रिया समय को बनाए रखते हुए बहुत छोटे मेमोरी पदचिह्नों वाले उपकरणों में मल्टीमॉडल AI क्षमताएं लाता है। यह इस साझा बुनियादी ढांचे पर निर्मित पहला खुला मॉडल भी है, जो डेवलपर्स को प्रयोग के लिए तत्काल पहुंच प्रदान करता है।

प्रति-लेयर एम्बेडिंग (PLE): एक प्रमुख नवाचार

जेम्मा 3n के मूल में प्रति-लेयर एम्बेडिंग (PLE) का अनुप्रयोग निहित है, एक तकनीक जो RAM उपयोग को नाटकीय रूप से कम करती है। जबकि कच्चे मॉडल का आकार क्रमशः 5 बिलियन और 8 बिलियन पैरामीटर है, वे 2 बिलियन और 4 बिलियन पैरामीटर मॉडल के बराबर मेमोरी पदचिह्नों के साथ कार्य करते हैं। गतिशील मेमोरी खपत 5B मॉडल के लिए सिर्फ 2GB और 8B संस्करण के लिए 3GB है। यह एक नेस्टेड मॉडल कॉन्फ़िगरेशन के माध्यम से प्राप्त किया जाता है जहाँ 4B सक्रिय मेमोरी पदचिह्न मॉडल में MatFormer नामक विधि का उपयोग करके प्रशिक्षित 2B सबमॉडल शामिल होता है। यह डेवलपर्स को अलग-अलग मॉडल लोड करने की आवश्यकता के बिना गतिशील रूप से प्रदर्शन मोड को स्विच करने की अनुमति देता है। आगे के संवर्द्धन, जैसे कि KVC साझाकरण और सक्रियण क्वांटिज़ेशन, विलंबता को और कम करते हैं और प्रतिक्रिया गति में तेजी लाते हैं। उदाहरण के लिए, मोबाइल पर प्रतिक्रिया समय जेम्मा 3 4B की तुलना में 1.5 गुना बेहतर हुआ है, जबकि बेहतर आउटपुट गुणवत्ता बनाए रखी गई है।

प्रदर्शन बेंचमार्क

जेम्मा 3n द्वारा प्राप्त प्रदर्शन मेट्रिक्स मोबाइल परिनियोजन के लिए इसकी उपयुक्तता पर प्रकाश डालते हैं। यह स्वचालित वाक् पहचान और अनुवाद जैसे कार्यों में उत्कृष्ट प्रदर्शन करता है, जिससे भाषण को अनुवादित पाठ में निर्बाध रूपांतरण सक्षम होता है। WMT24++ (ChrF) जैसे बहुभाषी बेंचमार्क पर, यह 50.1% का स्कोर प्राप्त करता है, जो जापानी, जर्मन, कोरियाई, स्पेनिश और फ्रेंच जैसी भाषाओं में अपनी ताकत का प्रदर्शन करता है। इसकी “मिक्स’एन’मैच” क्षमता विभिन्न गुणवत्ता और विलंबता संयोजनों के लिए अनुकूलित सबमॉडल के निर्माण को सक्षम बनाती है, जो डेवलपर्स को और भी अधिक अनुकूलन प्रदान करती है।

मल्टीमॉडल क्षमताएं और अनुप्रयोग

जेम्मा 3n का आर्किटेक्चर विभिन्न तौर तरीकों, जिसमें टेक्स्ट, ऑडियो, इमेज और वीडियो शामिल हैं, से इंटरलीव्ड इनपुट का समर्थन करता है, जिससे अधिक प्राकृतिक और संदर्भ-समृद्ध इंटरैक्शन की अनुमति मिलती है। यह ऑफ़लाइन भी संचालित हो सकता है, नेटवर्क कनेक्टिविटी के बिना भी गोपनीयता और विश्वसनीयता सुनिश्चित करता है। संभावित उपयोग के मामले विशाल हैं, जिनमें शामिल हैं:

  • लाइव विज़ुअल और ऑडिटरी फीडबैक: विज़ुअल और ऑडिटरी दोनों चैनलों के माध्यम से उपयोगकर्ता इनपुट के लिए रीयल-टाइम प्रतिक्रियाएं प्रदान करना।
  • संदर्भ-जागरूक सामग्री पीढ़ी: विभिन्न सेंसर इनपुट द्वारा निर्धारित उपयोगकर्ता के वर्तमान संदर्भ के आधार पर अनुरूप सामग्री बनाना।
  • उन्नत वॉयस-आधारित अनुप्रयोग: अधिक परिष्कृत वॉयस इंटरैक्शन और नियंत्रण को सक्षम करना।

जेम्मा 3n की मुख्य विशेषताएं

जेम्मा 3n में कई विशेषताएं शामिल हैं, जिनमें शामिल हैं:

  • मोबाइल-फर्स्ट डिज़ाइन: इष्टतम मोबाइल प्रदर्शन के लिए Google, डीपमाइंड, क्वालकॉम, मीडियाटेक और सैमसंग सिस्टम एलएसआई के बीच सहयोग के माध्यम से विकसित किया गया।
  • कम मेमोरी पदचिह्न: प्रति-लेयर एम्बेडिंग (PLE) का उपयोग करके क्रमशः 5B और 8B पैरामीटर मॉडल के लिए 2GB और 3GB के परिचालन पदचिह्न प्राप्त करता है।
  • बेहतर प्रतिक्रिया समय: जेम्मा 3 4B की तुलना में मोबाइल पर 1.5 गुना तेज प्रतिक्रिया प्रदान करता है।
  • बहुभाषी प्रवीणता: WMT24++ (ChrF) पर 50.1% का बहुभाषी बेंचमार्क स्कोर प्राप्त करता है।
  • मल्टीमॉडल इनपुट: ऑडियो, टेक्स्ट, इमेज और वीडियो को स्वीकार करता है और समझता है, जटिल मल्टीमॉडल प्रोसेसिंग और इंटरलीव्ड इनपुट को सक्षम करता है।
  • डायनेमिक सबमॉडल: नेस्टेड सबमॉडल और मिक्स’एन’मैच क्षमताओं के साथ MatFormer प्रशिक्षण का उपयोग करके डायनेमिक ट्रेड-ऑफ का समर्थन करता है।
  • ऑफ़लाइन ऑपरेशन: इंटरनेट कनेक्शन के बिना संचालित होता है, गोपनीयता और विश्वसनीयता सुनिश्चित करता है।
  • आसान पहुंच: Google AI स्टूडियो और Google AI Edge के माध्यम से उपलब्ध है, जिसमें टेक्स्ट और इमेज प्रोसेसिंग क्षमताएं हैं।

निहितार्थ और भविष्य की दिशाएं

जेम्मा 3n उच्च-प्रदर्शन AI को पोर्टेबल और निजी बनाने के लिए एक स्पष्ट मार्ग प्रदान करता है। नवीन वास्तुकला के माध्यम से RAM सीमाओं को संबोधित करके और बहुभाषी और मल्टीमॉडल क्षमताओं को बढ़ाकर, शोधकर्ताओं ने रोजमर्रा के उपकरणों में सीधे उन्नत AI लाने के लिए एक व्यवहार्य समाधान विकसित किया है। लचीला सबमॉडल स्विचिंग, ऑफ़लाइन तत्परता और तेज़ प्रतिक्रिया समय मोबाइल-फर्स्ट AI के लिए एक व्यापक दृष्टिकोण का प्रतिनिधित्व करते हैं। भविष्य का शोध संभवतः मॉडल की क्षमताओं को बढ़ाने, उपकरणों की एक विस्तृत श्रृंखला के साथ इसकी अनुकूलता का विस्तार करने और संवर्धित वास्तविकता, रोबोटिक्स और IoT जैसे क्षेत्रों में नए अनुप्रयोगों की खोज पर ध्यान केंद्रित करेगा।