जेम्मा 3n: ऑन-डिवाइस अनुमान क्रांति

गूगल ने जेम्मा 3n का अनावरण किया है, जो एक अभूतपूर्व मल्टीमॉडल छोटा भाषा मॉडल है जो अब नवीन LiteRT Hugging Face समुदाय पर पूर्वावलोकन में उपलब्ध है, साथ ही पहले लॉन्च किए गए मॉडलों की एक सरणी है। जेम्मा 3n को पाठ, छवियों, वीडियो और ऑडियो सहित इनपुट की एक विविध श्रेणी को संसाधित करने के लिए इंजीनियर किया गया है। इसके अलावा, यह फाइन-ट्यूनिंग, पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) के माध्यम से अनुकूलन और फ़ंक्शन कॉलिंग को सुविधाजनक बनाता है, जो सभी उपन्यास AI Edge SDK द्वारा संचालित हैं।

जेम्मा 3n: शक्ति का अनावरण

जेम्मा 3n को दो अलग-अलग पैरामीटर वेरिएंट में पेश किया जाता है: जेम्मा 3n 2B और जेम्मा 3n 4B। दोनों पुनरावृत्तियों पाठ और छवि इनपुट को संभालने के लिए सुसज्जित हैं, Google के अनुमानों के अनुसार, निकट भविष्य में ऑडियो समर्थन को एकीकृत करने के लिए निर्धारित किया गया है। यह अपने पूर्ववर्ती, गैर-मल्टीमॉडल जेम्मा 3 1B की तुलना में पैमाने में एक महत्वपूर्ण छलांग का प्रतिनिधित्व करता है, जिसने इस वर्ष की शुरुआत में शुरुआत की थी और एक मोबाइल GPU पर प्रति सेकंड 2,585 टोकन को प्रबंधित करने के लिए केवल 529MB की मांग की थी।

Google के तकनीकी विनिर्देशों के अनुसार, जेम्मा 3n चयनात्मक पैरामीटर सक्रियण का लाभ उठाता है, जो कुशल पैरामीटर प्रबंधन के लिए डिज़ाइन की गई एक नवीन तकनीक है। इसका तात्पर्य है कि दो मॉडल में 2B या 4B की तुलना में अधिक संख्या में पैरामीटर शामिल हैं जो अनुमान के दौरान सक्रिय रूप से लगे हुए हैं। यह रणनीतिक दृष्टिकोण संसाधन उपयोग को अनुकूलित करता है और प्रदर्शन को बढ़ाता है।

फाइन-ट्यूनिंग और क्वांटिज़ेशन: अनुकूलन को उजागर करना

Google ने जोर देकर कहा है कि डेवलपर्स के लिए आधार मॉडल को ठीक से ट्यून करने और बाद में Google AI Edge के माध्यम से उपलब्ध अत्याधुनिक क्वांटिज़ेशन टूल का उपयोग करके इसे परिवर्तित और मात्रा निर्धारित करने की क्षमता है। यह डेवलपर्स को मॉडल को विशिष्ट अनुप्रयोगों के अनुरूप बनाने और इसकी प्रदर्शन विशेषताओं को अनुकूलित करने के लिए सशक्त बनाता है।

RAG एकीकरण: प्रासंगिक डेटा के साथ भाषा मॉडल को समृद्ध करना

फाइन-ट्यूनिंग के विकल्प के रूप में, जेम्मा 3n मॉडल को ऑन-डिवाइस पुनर्प्राप्ति संवर्धित पीढ़ी (RAG) के लिए तैनात किया जा सकता है, एक पद्धति जो एप्लिकेशन-विशिष्ट डेटा के साथ एक भाषा मॉडल को समृद्ध करती है। इस वृद्धि को AI Edge RAG लाइब्रेरी द्वारा सुगम बनाया गया है, जो वर्तमान में केवल Android के लिए है, लेकिन पाइपलाइन में अन्य प्लेटफ़ॉर्म तक विस्तार करने की योजना के साथ है।

RAG लाइब्रेरी कई प्रमुख चरणों से मिलकर एक सुव्यवस्थित पाइपलाइन के माध्यम से संचालित होती है:

  • डेटा आयात: प्रासंगिक डेटा को सिस्टम में शामिल करना।
  • चंकिंग और इंडेक्सिंग: कुशल पुनर्प्राप्ति के लिए डेटा को सेगमेंट और व्यवस्थित करना।
  • एम्बेडिंग जनरेशन: शब्दार्थ समझ के लिए डेटा के वेक्टर प्रतिनिधित्व बनाना।
  • सूचना पुनर्प्राप्ति: उपयोगकर्ता प्रश्नों के आधार पर प्रासंगिक जानकारी की पहचान करना और निकालना।
  • प्रतिक्रिया पीढ़ी: एक LLM का उपयोग करके सुसंगत और प्रासंगिक प्रतिक्रियाओं को तैयार करना।

यह मजबूत ढांचा कस्टम डेटाबेस, चंकिंग रणनीतियों और पुनर्प्राप्ति कार्यों के लिए समर्थन को शामिल करते हुए RAG पाइपलाइन के व्यापक अनुकूलन को सक्षम बनाता है।

AI Edge ऑन-डिवाइस फ़ंक्शन कॉलिंग SDK: मॉडल और वास्तविक दुनिया की क्रियाओं के बीच की खाई को पाटना

जेम्मा 3n के अनावरण के साथ ही, Google ने AI Edge ऑन-डिवाइस फ़ंक्शन कॉलिंग SDK की शुरुआत की, जो शुरू में केवल Android पर उपलब्ध है। यह SDK मॉडल को विशिष्ट फ़ंक्शन का आह्वान करने के लिए सशक्त बनाता है, जिससे वास्तविक दुनिया की क्रियाएं निष्पादित होती हैं।

एक LLM को बाहरी फ़ंक्शन के साथ मूल रूप से एकीकृत करने के लिए, फ़ंक्शन को उसके नाम को निर्दिष्ट करके सावधानीपूर्वक वर्णित किया जाना चाहिए, एक वर्णनात्मक आख्यान यह बताता है कि LLM को इसका उपयोग कब करना चाहिए, और आवश्यक पैरामीटर। यह मेटाडेटा एक Tool ऑब्जेक्ट के भीतर समाहित है, जिसे बाद में GenerativeModel कंस्ट्रक्टर के माध्यम से बड़े भाषा मॉडल में पारित किया जाता है। फ़ंक्शन कॉलिंग SDK प्रदान किए गए विवरण के आधार पर LLM से फ़ंक्शन कॉल प्राप्त करने और निष्पादन परिणामों को वापस LLM तक प्रेषित करने के लिए समर्थन को शामिल करता है।

क्षमता की खोज: Google AI Edge गैलरी

उन लोगों के लिए जो अभूतपूर्व टूल में गहराई से तल्लीन होने के लिए उत्सुक हैं, Google AI Edge गैलरी एक अमूल्य संसाधन के रूप में खड़ा है। यह प्रायोगिक एप्लिकेशन मॉडल की एक विविध सरणी को प्रदर्शित करता है और पाठ, छवि और ऑडियो प्रसंस्करण को सुविधाजनक बनाता है।

गहरा गोता: जेम्मा 3n और उसके पारिस्थितिकी तंत्र की बारीकियां

जेम्मा 3n का आगमन ऑन-डिवाइस मशीन लर्निंग के विकास में एक महत्वपूर्ण कदम है, जो दक्षता, अनुकूलनशीलता और कार्यक्षमता का एक शक्तिशाली संयोजन प्रदान करता है। इसकी मल्टीमॉडल क्षमताएं, RAG और फ़ंक्शन कॉलिंग के समर्थन के साथ, बुद्धिमान और संदर्भ-जागरूक एप्लिकेशन बनाने के इच्छुक डेवलपर्स के लिए संभावनाओं की एक असंख्य को अनलॉक करती हैं।

चयनात्मक पैरामीटर सक्रियण: एक गहरा गोता

जेम्मा 3n द्वारा नियोजित चयनात्मक पैरामीटर सक्रियण तकनीक गहन जांच का वारंट करती है। यह नवीन दृष्टिकोण मॉडल को गतिशील रूप से केवल उन मापदंडों को सक्रिय करने की अनुमति देता है जो किसी दिए गए कार्य के लिए आवश्यक हैं, जिससे कम्प्यूटेशनल ओवरहेड को कम किया जाता है और दक्षता को अधिकतम किया जाता है। यह विशेष रूप से ऑन-डिवाइस परिनियोजन के लिए महत्वपूर्ण है, जहां संसाधनों को अक्सर विवश किया जाता है।

चयनात्मक पैरामीटर सक्रियण के पीछे अंतर्निहित सिद्धांत इस अवलोकन में निहित है कि एक तंत्रिका नेटवर्क में सभी पैरामीटर सभी कार्यों के लिए समान रूप से महत्वपूर्ण नहीं हैं। केवल सबसे प्रासंगिक मापदंडों को चयनात्मक रूप से सक्रिय करके, मॉडल काफी कम कम्प्यूटेशनल लागत के साथ तुलनीय प्रदर्शन प्राप्त कर सकता है।

चयनित पैरामीटर सक्रियण का कार्यान्वयन आमतौर पर किसी दिए गए इनपुट के लिए सक्रिय करने के लिए किन मापदंडों को निर्धारित करने के लिए एक तंत्र शामिल होता है। यह विभिन्न तकनीकों के माध्यम से प्राप्त किया जा सकता है, जैसे:

  • ध्यान तंत्र: इनपुट के सबसे प्रासंगिक भागों में भाग लेना और संबंधित पैरामीटर को सक्रिय करना।
  • गेटिंग तंत्र: नेटवर्क के विभिन्न हिस्सों के माध्यम से जानकारी के प्रवाह को नियंत्रित करने के लिए एक गेटिंग फ़ंक्शन का उपयोग करना।
  • विरल प्रशिक्षण: विरल कनेक्शन सीखने के लिए नेटवर्क को प्रशिक्षित करना, ताकि अनुमान के दौरान केवल मापदंडों का एक सबसेट सक्रिय हो।

तकनीक का विकल्प मॉडल की विशिष्ट वास्तुकला और कार्य की विशेषताओं पर निर्भर करता है। हालांकि, अतिरंजित लक्ष्य केवल उन मापदंडों की पहचान और सक्रिय करना है जो दिए गए इनपुट के लिए सबसे प्रासंगिक हैं, जिससे कम्प्यूटेशनल लागत को कम किया जा सकता है और दक्षता में सुधार किया जा सकता है।

RAG: ज्ञान और संदर्भ बढ़ाना

पुनर्प्राप्ति संवर्धित पीढ़ी (RAG) जिस तरह से भाषा मॉडल का उपयोग किया जाता है, उसमें एक प्रतिमान बदलाव का प्रतिनिधित्व करता है। बाहरी ज्ञान स्रोतों को एकीकृत करके, RAG भाषा मॉडल को अधिक सूचित, सटीक और प्रासंगिक प्रतिक्रियाएं उत्पन्न करने में सक्षम बनाता है।

RAG पाइपलाइन में कई प्रमुख चरण होते हैं:

  1. डेटा इंडेक्सिंग: इस चरण में, बाहरी ज्ञान स्रोत को प्रासंगिक जानकारी की कुशल पुनर्प्राप्ति को सक्षम करने के लिए अनुक्रमित किया जाता है। इसमें आमतौर पर ज्ञान स्रोत में प्रत्येक दस्तावेज़ का एक वेक्टर प्रतिनिधित्व बनाना शामिल होता है, जिसका उपयोग तब उन दस्तावेज़ों को जल्दी से पहचानने के लिए किया जा सकता है जो किसी दिए गए क्वेरी के समान हैं।
  2. सूचना पुनर्प्राप्ति: जब एक क्वेरी प्राप्त होती है, तो RAG प्रणाली अनुक्रमित ज्ञान स्रोत से सबसे प्रासंगिक दस्तावेज़ों को पुनः प्राप्त करती है। यह आमतौर पर एक समानता खोज एल्गोरिथ्म का उपयोग करके किया जाता है, जो ज्ञान स्रोत में दस्तावेजों के वेक्टर अभ्यावेदन के लिए क्वेरी के वेक्टर प्रतिनिधित्व की तुलना करता है।
  3. संदर्भ: पुनर्प्राप्त दस्तावेज़ों का उपयोग तब क्वेरी के संदर्भ को बढ़ाने के लिए किया जाता है। यह पुनर्प्राप्त दस्तावेज़ों को बस क्वेरी में लाकर, या पुनर्प्राप्त दस्तावेज़ों से जानकारी को क्वेरी प्रतिनिधित्व में एकीकृत करने के लिए एक अधिक परिष्कृत तकनीक का उपयोग करके किया जा सकता है।
  4. प्रतिक्रिया पीढ़ी: अंत में, संवर्धित क्वेरी को एक भाषा मॉडल में खिलाया जाता है, जो क्वेरी और प्राप्त दस्तावेजों से संयुक्त जानकारी के आधार पर एक प्रतिक्रिया उत्पन्न करता है।

पारंपरिक भाषा मॉडल पर RAG कई फायदे प्रदान करता है:

  • बढ़ी हुई सटीकता: बाहरी ज्ञान को शामिल करके, RAG मॉडल अधिक सटीक और तथ्यात्मक प्रतिक्रियाएं उत्पन्न कर सकते हैं।
  • बेहतर प्रासंगिक समझ: RAG मॉडल पुनर्प्राप्त दस्तावेज़ों में जानकारी का लाभ उठाकर क्वेरी के संदर्भ को बेहतर ढंग से समझ सकते हैं।
  • कम मतिभ्रम: RAG मॉडल के मतिभ्रम या गैर-संवेदी प्रतिक्रियाएं उत्पन्न करने की संभावना कम होती है, क्योंकि वे बाहरी ज्ञान में आधारित होते हैं।
  • नई जानकारी के लिए अनुकूलन क्षमता: RAG मॉडल अनुक्रमित ज्ञान स्रोत को अद्यतन करके आसानी से नई जानकारी के अनुकूल हो सकते हैं।

फ़ंक्शन कॉलिंग: वास्तविक दुनिया के साथ बातचीत करना

AI Edge ऑन-डिवाइस फ़ंक्शन कॉलिंग SDK भाषा मॉडल को वास्तविक दुनिया के साथ बातचीत करने में सक्षम बनाने की दिशा में एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है। मॉडल को बाहरी कार्यों का आह्वान करने की अनुमति देकर, SDK बुद्धिमान और संदर्भ-जागरूक एप्लिकेशन बनाने के लिए संभावनाओं की एक विस्तृत श्रृंखला को अनलॉक करता है।

फ़ंक्शन कॉलिंग प्रक्रिया में आमतौर पर निम्नलिखित चरण शामिल होते हैं:

  1. फ़ंक्शन परिभाषा: डेवलपर उन कार्यों को परिभाषित करता है जिन्हें भाषा मॉडल लागू कर सकता है। इसमें फ़ंक्शन का नाम, फ़ंक्शन क्या करता है इसका विवरण और फ़ंक्शन द्वारा स्वीकार किए जाने वाले पैरामीटर शामिल हैं।
  2. टूल ऑब्जेक्ट क्रिएशन: डेवलपर एक Tool ऑब्जेक्ट बनाता है जो फ़ंक्शन परिभाषा को एनकैप्सुलेट करता है। इस ऑब्जेक्ट ਨੂੰ तब भाषा मॉडल में पारित किया जाता है।
  3. फ़ंक्शन कॉल जनरेशन: जब भाषा मॉडल को वास्तविक दुनिया की कार्रवाई करने की आवश्यकता होती है, तो यह एक फ़ंक्शन कॉल उत्पन्न करता है। इस कॉल में आमंत्रित किए जाने वाले फ़ंक्शन का नाम और फ़ंक्शन को पारित किए जाने वाले पैरामीटर के मान शामिल हैं।
  4. फ़ंक्शन निष्पादन: फ़ंक्शन कॉल तब सिस्टम द्वारा निष्पादित किया जाता है। इसमें आमतौर पर संबंधित API या सेवा कोinvoke करना शामिल होता है।
  5. परिणाम संचरण: फ़ंक्शन निष्पादन के परिणाम तब वापस भाषा मॉडल में प्रेषित किए جاتے हैं।
  6. प्रतिक्रिया पीढ़ी: अंत में, भाषा मॉडल फ़ंक्शन निष्पादन के परिणामों का उपयोग करके एक प्रतिक्रिया उत्पन्न करता है।

फ़ंक्शन कॉलिंग SDK भाषा मॉडल को कार्यों की एक विस्तृत श्रृंखला करने में सक्षम बनाता है, जैसे कि:

  • बाहरी स्रोतों से जानकारी का उपयोग करना: मॉडल डेटाबेस, API और अन्य बाहरी स्रोतों से जानकारी पुनर्प्राप्त करने के लिए कार्यों को कॉल कर सकता है।
  • उपकरणों और उपकरणों को नियंत्रित करना: मॉडल स्मार्ट होम उपकरणों, जैसे कि रोशनी,थर्मोस्टैट्स और उपकरणों को नियंत्रित करने के लिए कार्यों को कॉल कर सकता है।
  • लेनदेन करना: मॉडल वित्तीय लेनदेन करने, जैसे कि भुगतान करना और धन हस्तांतरण करने के लिए कार्यों को कॉल कर सकता है।
  • स्वचालित करने के लिए कार्य: मॉडल जटिल कार्यों को स्वचालित करने के लिए कार्यों को कॉल कर सकता है, जैसे कि नियुक्तियों का निर्धारण और ईमेल भेजना।

Google AI Edge गैलरी: नवाचार का प्रदर्शन

Google AI Edge गैलरी जेम्मा 3n और उसके संबंधित उपकरणों की क्षमताओं को प्रदर्शित करने के लिए एक महत्वपूर्ण मंच के रूप में कार्य करती है। एक इंटरैक्टिव वातावरण प्रदान करके जहां डेवलपर इन तकनीकों के साथ प्रयोग कर सकते हैं, गैलरी नवाचार को बढ़ावा देती है और नए अनुप्रयोगों के विकास को गति देती है।

गैलरी में विभिन्न प्रकार के मॉडल और डेमो हैं, जो विभिन्न कार्यों के लिए जेम्मा 3n की क्षमता को प्रदर्शित करते हैं, जैसे कि:

  • छवि पहचान: छवियों में वस्तुओं और दृश्यों की पहचान करना।
  • प्राकृतिक भाषा प्रसंस्करण: मानव भाषा को समझना और उत्पन्न करना।
  • भाषण पहचान: बोली जाने वाली भाषा को पाठ में ट्रांसcribing करना।
  • ऑडियो प्रसंस्करण: ऑडियो सिग्नल का विश्लेषण और हेरफेर करना।

गैलरी AI Edge SDK तक पहुंच भी प्रदान करती है, जिससे डेवलपर्स इन तकनीकों को अपने अनुप्रयोगों में एकीकृत कर सकते हैं।

ऑन-डिवाइस मशीन लर्निंग का भविष्य

जेम्मा 3n और उसके साथ आने वाले पारिस्थितिकी तंत्र का उदय ऑन-डिवाइस मशीन लर्निंग के लिए एक नए युग की शुरुआत करता है। दक्षता, अनुकूलन क्षमता और कार्यक्षमता के संयोजन से, जेम्मा 3n डेवलपर्स को बुद्धिमान और संदर्भ-जागरूक एप्लिकेशन बनाने का अधिकार देता है जो सीधे उपकरणों पर चल सकते हैं, बिना निरंतर इंटरनेट कनेक्शन की आवश्यकता के।

विभिन्न उद्योगों के लिए इसके गहरे निहितार्थ हैं, जिनमें शामिल हैं:

  • मोबाइल: अधिक बुद्धिमान और उत्तरदायी मोबाइल एप्लिकेशन को सक्षम करना।
  • IoT: स्मार्ट उपकरणों को सशक्त बनाना जो स्वतंत्र रूप से और स्वायत्त रूप से संचालित हो सकते हैं।
  • मोटर वाहन: स्वायत्त वाहनों की सुरक्षा और सुविधा को बढ़ाना।
  • स्वास्थ्य सेवा: चिकित्सा निदान और उपचार की सटीकता और दक्षता में सुधार करना।

जैसे-जैसे ऑन-डिवाइस मशीन लर्निंग प्रौद्योगिकियां विकसित होती रहेंगी, हम आने वाले वर्षों में और भी अधिक नवीन और प्रभावशाली अनुप्रयोगों को उभरने کی توقع کر सकते हैं। जेम्मा 3n इस यात्रा में एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है, जो एक ऐसे भविष्य के लिए मार्ग प्रशस्त करता है जहां खुफिया जानकारी हमारे दैनिक जीवन में бесшовное रूप से एकीकृत है।